Skip to content

LoveSunday7/government_policy_crawler

Repository files navigation

农业厅政策爬虫

注意事项

开发者请不要上传垃圾文件,开发周期比较紧张,尽量不要浪费时间处理项目文件,尽量爬接口

项目声明

严禁将该爬虫用于非法用途,违法者必受到法律制裁 !!!

项目简介

这是一个用于爬取政府政策信息的网络爬虫程序,能够自动从指定的政府网站抓取最新政策文件、公告通知等相关信息。(下面的说明是乱写的)

市级行政区

行政区代码 农业厅名称 爬虫 任务 可用性
360100 南昌市农业农村局 已获接口
360200 景德镇市农业农村局
360300 萍乡市农业农村局 严重反爬
360400 九江市农业农村局 已获接口
360500 新余市农业农村局 正在工作...
360600 鹰潭市农业农村粮食局
360700 赣州市农村农业网
360800 吉安市农业农村局 限速反爬
360900 宜春市农业农村局 完成 可用
361000 抚州市农业农村局
361100 上饶市人民政府-市农业农村局

省级行政区

行政区代码 农业厅名称 爬虫 任务 可用性
110000 北京市农业农村局
120000 天津市农业农村委员会(天津市乡村振兴局)
130000 河北省农业农村厅
140000 山西省农业农村厅
150000 内蒙古自治区农牧厅
210000 辽宁省农业农村厅
220000 吉林省农业农村厅(吉林省乡村振兴局)
230000 黑龙江省农业农村厅
310000 上海市农业农村委员会
320000 江苏省农业农村厅(江苏省乡村振兴局)
330000 浙江省农业农村厅
340000 安徽省农业农村厅
350000 福建省农业农村厅
360000 江西省农业农村厅 完成 可用
370000 山东省农业农村厅(山东省乡村振兴局)
410000 河南省农业农村厅
420000 湖北省农业农村厅
430000 湖南省农业农村厅
440000 广东省农业农村厅
450000 广西壮族自治区农业农村厅
460000 海南省农业农村厅
500000 重庆市农业农村委员会
510000 四川省农业农村厅
520000 贵州省农业农村厅
530000 云南省农业农村厅
540000 西藏自治区农业农村厅
610000 陕西省农业农村厅
620000 甘肃省农业农村厅
630000 青海省农业农村厅(青海省乡村振兴局)
640000 宁夏回族自治区农业农村厅
650000 新疆维吾尔自治区农业农村厅 完成 可用

面临问题

  • 江西省九江市农业局网站链接到的网站面结构差异很大,无法解析
  • 江西省吉安市有爬取速率的限制,注意爬取速度

环境要求

Python 3.8+

火狐驱动 latest

安装步骤

  1. 克隆项目
git clone https://github.com/LoveSunday7/government_policy_crawler.git
cd government-policy-crawler
  1. 安装依赖(最好使用python虚拟环境)
pip install -r requirements.txt
  1. 运行爬虫(需要完成安装火狐驱动
python areaname.py

项目结构

government-policy-crawler/
├── utils/           # 爬虫工具模块(如果有新的类别,可以添加文件)
├── 农业分类目录/     # 数据存储目录
├── areaname.py      # 主程序
├── requirements.txt # 依赖列表
└── README.md        # 说明文档

数据格式

爬取的政策数据包含以下字段:

{
    'title': '标题',
    'pub_date': '发布日期',
    'content_source': '文章来源',
    'content': '正文'
}
{附件}

About

该爬虫可以通过关键词政府官网政策(包括附件等)。声明:该爬虫程序仅用于学术研究或者其他合法用途,请勿在中国法律范围之外使用该程序!法网恢恢,疏而不漏!违反法律必将受到法律的制裁!

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages