1、爬虫主程序入口com.gengyun.entry.OnSparkKicker 2、RDDURLQueue并未添加过滤功能 3、添加深度控制功能 4、添加协议控制 5、添加后缀控制 6、以tachyon作为已爬取数据存储 7、链接去重 集群模式构建 mvn package -P clusterdep -Dmaven.test.skip=true