抓取系统 PS:本文档已经迁移至tech-doc:https://git.oschina.net/hick/tech-doc/blob/master/python.md TODO 进程的执行信息统一到一个文件中记录, 取代或者说替换现在的 /data/fetch/51job_successtask_51_TASK_ID.txt 的功能, 记录信息需要包括但不限于: 抓取的号段信息, 启动时间, 最后成功抓取的时间, 最近一段时间抓取的效率指标(根据具体情况看什么指标好计算, 比如最近1个小时抓取数, id命中率), 使用登录账户的信息(登录时间/账号名/是否已过期等) 需要提供 web 服务(http协议方式访问, 命令行方式提供, 由 init.php 来调用也可以), 接受简历来源和 id 参数, 可以随时抓取指定的 id 并返回简历 id/电话号码(如果有) 可以先知考虑单机, 但是以后可能要扩充到多机: 需要有任务池, 登录用户池, 整体的抓取速度/每个用户的抓取速度等多维度可以有封顶限制 运行python抓取进程的时候,存在多个进程对task文件任务数进行重复抓取,[解决设想] -- 检测生成对应的pid文件进行判定 优先级 标题 详细说明 3 目录结构优化 TODO 2 运行监控 TODO