LPython项目的采集端目前设置了3个模块,分别是基于Python的
文章,视频招聘信息数据来自知名博客,招聘信息信息站,在结构上使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫, 底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现。
- 支持分布式
- 支持定时自动执行
- 支持Redis动态配置和脚本处理
- 支持防ban
- 支持动态抓取
- 支持自动关闭
- 支持异常状态收集,与重试
- 支持运行状态的邮件通知
- 支持运行状态的微信通知
- 支持命令行控制