SeimiCrawler v1.1.0发布，Java爬虫框架

ts2009 · 发表于 2016-10-26 00:35:27

欢迎加入运维网交流群：263444886

变更日志
v1.1.0

　　可通过实现SeimiCrawler的List startRequests();来实现更复杂的起始触发请求
　　SemiQueue实现按需加载
　　修复抓取文件类型数据返回时尝试匹配meta refresh时产生的问题

v1.0.0

　　http请求处理器重构，并默认改由okhttp3实现，且支持通过@Crawler注解中的httpType自由切换为apache httpclient
　　部分代码优化
　　支持通过seimiAgent获取页面快照（png/pdf）
　　升级JsoupXpath版本至v0.3.1

　　
简介
SeimiCrawler是一个敏捷的，独立部署的，支持分布式的Java爬虫框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发，同时融合了Java语言本身特点与Spring的特性，并希望在国内更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目，非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成（当然，数据处理亦可以自行选择其他解析器）。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。
更多文档
目前可以参考demo工程中的样例，基本包含了主要的特性用法。更为细致的文档移步SeimiCrawler主页中进一步查看
　　
　　
　　
　　

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[软件发布] SeimiCrawler v1.1.0发布，Java爬虫框架

浏览过的版块

扫码加入运维网微信交流群