因为朋友项目需要大量评论数据用于分析,所以用刚学不久的python写了个爬虫抓取指定地区和分类下的所有评论,并存入数据库。大众点评有较严格的防爬虫机制,请求时需要带cookie信息,同时访问速度过快的话会返回http302错误,所以本程序没有使用多线程去实现。附带了代理池模块,只要有大量稳定的代理,理论上可降低被鉴别的概率。
codeBing/dazhong
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|
| Name | Name | Last commit date | ||
|---|---|---|---|---|