Python crawler

反爬蟲策略以及解決方法

通過headers反爬蟲

對於基本網頁的抓取可以自定義headers,新增headers的資料
基於使用者行為的發爬蟲：(同一IP短時間內訪問的頻率)

使用多個代理ip進行抓取或者設定抓取的頻率降低一些
動態網頁反爬蟲(通過ajax請求資料，或者通過JavaScript生成)

動態網頁的可以使用selenium phantomjs 進行抓取
對部分資料進行加密處理的(資料是亂碼)

對部分資料進行加密的，可以使用selenium進行截圖，使用python自帶的pytesseract庫進行識別，但是比較慢最直接的方法是找到加密的方法進行逆向推理。

selenium

chromedriver.exe
- 可直接下載chrome版號的對應版本
  - 網址 : https://chromedriver.chromium.org/downloads
- 或是用chrome_helper.py & file_util.py

seleniumDemo.py

Google搜尋例子

撈股票程式

stock.py
- bs4
  - BeautifulSoup
- selenium
stock_pd.py
- numpy
- requests
- pandas
- datatime

非同步程式

async/aiohttp_example.py

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
.ipynb_checkpoints		.ipynb_checkpoints
async		async
download_chromedriver		download_chromedriver
robot_reult		robot_reult
robot_tests		robot_tests
simple_example		simple_example
solution		solution
stock		stock
.gitignore		.gitignore
20201216 example.ipynb		20201216 example.ipynb
README.md		README.md
chromedriver.exe		chromedriver.exe
espn_players.py		espn_players.py
requirement.txt		requirement.txt
seleniumDemo.py		seleniumDemo.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Python crawler

反爬蟲策略以及解決方法

selenium

seleniumDemo.py

撈股票程式

非同步程式

Reference

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Python crawler

反爬蟲策略以及解決方法

selenium

seleniumDemo.py

撈股票程式

非同步程式

Reference

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages