开发者请不要上传垃圾文件,开发周期比较紧张,尽量不要浪费时间处理项目文件,尽量爬接口
严禁将该爬虫用于非法用途,违法者必受到法律制裁 !!!
这是一个用于爬取政府政策信息的网络爬虫程序,能够自动从指定的政府网站抓取最新政策文件、公告通知等相关信息。(下面的说明是乱写的)
| 行政区代码 | 农业厅名称 | 爬虫 | 任务 | 可用性 |
|---|---|---|---|---|
| 360100 | 南昌市农业农村局 | 已获接口 | ||
| 360200 | 景德镇市农业农村局 | |||
| 360300 | 萍乡市农业农村局 | 严重反爬 | ||
| 360400 | 九江市农业农村局 | 已获接口 | ||
| 360500 | 新余市农业农村局 | 正在工作... | ||
| 360600 | 鹰潭市农业农村粮食局 | |||
| 360700 | 赣州市农村农业网 | |||
| 360800 | 吉安市农业农村局 | 限速反爬 | ||
| 360900 | 宜春市农业农村局 | 完成 | 可用 | |
| 361000 | 抚州市农业农村局 | |||
| 361100 | 上饶市人民政府-市农业农村局 |
| 行政区代码 | 农业厅名称 | 爬虫 | 任务 | 可用性 |
|---|---|---|---|---|
| 110000 | 北京市农业农村局 | |||
| 120000 | 天津市农业农村委员会(天津市乡村振兴局) | |||
| 130000 | 河北省农业农村厅 | |||
| 140000 | 山西省农业农村厅 | |||
| 150000 | 内蒙古自治区农牧厅 | |||
| 210000 | 辽宁省农业农村厅 | |||
| 220000 | 吉林省农业农村厅(吉林省乡村振兴局) | |||
| 230000 | 黑龙江省农业农村厅 | |||
| 310000 | 上海市农业农村委员会 | |||
| 320000 | 江苏省农业农村厅(江苏省乡村振兴局) | |||
| 330000 | 浙江省农业农村厅 | |||
| 340000 | 安徽省农业农村厅 | |||
| 350000 | 福建省农业农村厅 | |||
| 360000 | 江西省农业农村厅 | 完成 | 可用 | |
| 370000 | 山东省农业农村厅(山东省乡村振兴局) | |||
| 410000 | 河南省农业农村厅 | |||
| 420000 | 湖北省农业农村厅 | |||
| 430000 | 湖南省农业农村厅 | |||
| 440000 | 广东省农业农村厅 | |||
| 450000 | 广西壮族自治区农业农村厅 | |||
| 460000 | 海南省农业农村厅 | |||
| 500000 | 重庆市农业农村委员会 | |||
| 510000 | 四川省农业农村厅 | |||
| 520000 | 贵州省农业农村厅 | |||
| 530000 | 云南省农业农村厅 | |||
| 540000 | 西藏自治区农业农村厅 | |||
| 610000 | 陕西省农业农村厅 | |||
| 620000 | 甘肃省农业农村厅 | |||
| 630000 | 青海省农业农村厅(青海省乡村振兴局) | |||
| 640000 | 宁夏回族自治区农业农村厅 | |||
| 650000 | 新疆维吾尔自治区农业农村厅 | 完成 | 可用 |
- 江西省九江市农业局网站链接到的网站面结构差异很大,无法解析
- 江西省吉安市有爬取速率的限制,注意爬取速度
Python 3.8+
火狐驱动 latest
- 克隆项目
git clone https://github.com/LoveSunday7/government_policy_crawler.git
cd government-policy-crawler
- 安装依赖(最好使用python虚拟环境)
pip install -r requirements.txt
- 运行爬虫(需要完成安装火狐驱动)
python areaname.py
government-policy-crawler/
├── utils/ # 爬虫工具模块(如果有新的类别,可以添加文件)
├── 农业分类目录/ # 数据存储目录
├── areaname.py # 主程序
├── requirements.txt # 依赖列表
└── README.md # 说明文档
爬取的政策数据包含以下字段:
{
'title': '标题',
'pub_date': '发布日期',
'content_source': '文章来源',
'content': '正文'
}
{附件}