Skip to content

wenthywang/webMagicDemo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

webMagicDemo

webMagic 爬虫demo

1.没有使用代理,导致出现多次ip访问异常,免费的代理不稳定,几乎不能用

2.多线程这块爬虫还是做的不错的

3.对知乎 csdn 天天基金都有爬过,结构还是挺好爬的

4.基本使用jsoup来解析html,但也有些采用xpath,两者各有长处

5.同时实现的pieline是用es引擎存储数据

6.通过部署kibana来统计分析爬完的数据,曾分析知乎用户性别,用户文章数,问题数,粉丝数等,还有基金网的净值排名等

7.框架不太好的地方是 出现异常 不好定位,只是抛出了异常,没有打印具体信息这个需要日后优化

About

webMagic 爬虫demo

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages