Skip to content

masterwugui/DoubanMovieCrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 

Repository files navigation

DoubanMovieCrawler

基于webmagic框架的轻量级爬虫。

因为没有找到合适的代理地址,为了防止被豆瓣屏蔽未使用多线程。

框架部分的代码并未上传,上传类的说明如下:

1.CrawlerDoubanMovieNew.java: 爬虫类,以豆瓣电影分类的地址作为入口进行广度优先的爬虫,从每一部电影的相关推荐中获取新的需要爬取的地址,设置布隆过滤器来对地址进行去重(guava类库中的BloomFilter实现);页面解析的process()方法只适用于绝大多数电影详情页,有部分冷门的、过于古老的电影豆瓣电影还是使用了以前的元素(原因未知)导致无法正确的爬取;

2.DoubanModelPipeline.java:数据管道类,此类自定义爬取到的数据的存储方式,本项目将所有爬取的电影数据存储到数据库中,采用mysql数据库,数据库版本为5.7;

3.MovieModel.java:数据model类。

共计爬取了豆瓣电影网影视剧相关数据总计约8万多条,数据截图如下:

image

About

基于webmagic框架的轻量级爬虫爬取豆瓣电影数据

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages