Gecco 1.2.3 发布,易用的轻量化爬虫
欢迎加入运维网交流群:263444886 http://onexin.iyunv.com/source/plugin/onexin_bigdata/https://my.oschina.net/img/hot3.pngGecco 1.2.3 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。
DynamicGecco 的目的是在不定义 SpiderBean 的情况下实现爬取规则的运行时配置。其实现原理是采用字节码编程,动态生成 SpiderBean,而且通过自定义的 GeccoClassLoader 实现了抓取规则的热部署。使用方法可以参考《教您使用DynamicGecco抓取JD全部商品信息》这个DEMO:http://www.geccocrawler.com/dynamic-demo-jd/
版本更新如下:
[*] 增加 proxysLoader,支持自定义代理 ip 加载,FileProxys 代替 Proxys
[*] 增加派生队列和初始队列上下文,DeriveSchedulerContext 代替 SchedulerContext,增加StartSchedulerContext提供初始化队列运行时入队机制
[*] 添加引擎生命周期监听器(米林pull request)
[*] 删除警告信息,带有注解完善(米林pull request)
[*] 增加停止爬虫engineStop()和是否开启代理proxy()API
[*] 添加自定义注解和渲染支持(米林pull request)
页:
[1]