-
通過headers反爬蟲
對於基本網頁的抓取可以自定義headers,新增headers的資料
-
基於使用者行為的發爬蟲:(同一IP短時間內訪問的頻率)
使用多個代理ip進行抓取或者設定抓取的頻率降低一些
-
動態網頁反爬蟲(通過ajax請求資料,或者通過JavaScript生成)
動態網頁的可以使用selenium phantomjs 進行抓取
-
對部分資料進行加密處理的(資料是亂碼)
對部分資料進行加密的,可以使用selenium進行截圖,使用python自帶的pytesseract庫進行識別,但是比較慢最直接的方法是找到加密的方法進行逆向推理。
-
chromedriver.exe
-
可直接下載chrome版號的對應版本
-
或是用chrome_helper.py & file_util.py
-
- Google搜尋例子
-
stock.py
- bs4
- BeautifulSoup
- selenium
- bs4
-
stock_pd.py
- numpy
- requests
- pandas
- datatime
- async/aiohttp_example.py