Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitignore		.gitignore
DataOutput.py		DataOutput.py
HtmlDownloader.py		HtmlDownloader.py
HtmlParser.py		HtmlParser.py
LICENSE		LICENSE
README.md		README.md
SogouDictParser.py		SogouDictParser.py
SpiderMan.py		SpiderMan.py
UrlManager.py		UrlManager.py
getCategory.py		getCategory.py

Repository files navigation

搜狗词库爬虫

用Python实现的搜狗词库爬虫。各模块对应的内容如下

getCategory.py，提取词库分类ID和名字，以字典形式返回。

SpiderMan.py，爬虫调度器。

UrlManager.py，URL管理器。

HtmlDownloader.py，网页下载器。

HtmlParser.py，网页解析器。

DataOutput.py，数据存储器。

SogouDictParser.py，搜狗词库解析器。

使用方法：把主函数中的下载词库的基目录baseDir和解析词库的输出基目录outBaseDir改成自己的目录即可，注意目录末尾不能有/。

关于实现的具体细节可参考如下文章。

搜狗词库爬虫（1）：基础爬虫架构和爬取词库分类

搜狗词库爬虫（2）：基础爬虫框架的运行流程

About

No description, website, or topics provided.

Report repository

Releases

No releases published

Packages

Contributors

Languages

Python 100.0%