`
- 浏览:
425728 次
- 性别:
- 来自:
深圳
-
从2008年开始做网页数据采集,开始用使用别人编写的API 如HTML Parser、NekoHTML、Jericho HTML Parser(用于解析html网页),HtmlUtil(纯java版浏览器,具有Http协议和Html解析功能,JS执行功能)等,配合 HttpClient(提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,是HTTP协议有关的包,与我介绍的API中的HtmlPage类 类似)。因为那些API采集大量多种格式的网页数据时,在配置上很不灵活,例如采用DOM解析,Xpath等,导致配置复杂,所以从09年3月份开始编写自己的获取和分析网页的API:webpage。并且服务在公司的项目中。通过预先配置,经过对1万多个数据源和多种网页数据呈现格式的采集测试与改正,在2010年9月份形成一个较为稳定的版本。
修改历史:
本工具与2012-09-17发现一个bug且已修正。于今天从新打包提交一个版本,之前源码和jar包版本将删除。
1、源码包结构说明:基于com.hlxp.webpage包下开始说明:
(1)com.hlxp.webpage.app 与采集应用有关且可以独立运行的工具类,主要还是配合采集。
(2)com.hlxp.webpage.bean 采集中使用的无状态的一些VO(值对象)
(3)com.hlxp.webpage.log 包中是日志类,主要是包装了jdk自带的日志对象;和log4j的日志类。
(4)com.hlxp.webpage.util包中含一些具体的采集工具,它们使用了HtmlPage和HtmlUtil类完成特定的采集,如只采集链接,或者只采集img的链接。
(5)HtmlPage类是一个基础类,主要是通过get和post方式获取网页,也支持提交参数。
(6)HtmlUtil类是一个基础类,主要是解析通过HtmlPage获取的网页,支持正则表达式解析,支持字符切割,支持HTML标记解析。
注:
源码中没有例子程序,例子在各解析类的main函数中。以后有空将会编写API帮助文档和例子程序,这些都将发布在本篇博客中的附件中。
有疑问的朋友可以在本博客留言,我会和大家一起讨论。
2.API功能介绍
(1)能够或普通网页和无需验证码的登录网页(需要登录的网页,要人工登录,然后复制cookie到程序中,即可获取)
(2)能够解析HTML,XML,DTD等静态文本显示数据的网页。
(3)能够方便采集翻页网页,通过设定分页链接格式,自动的生成或采集分页链接和其网页。
(4)HtmlPage.java用于获取网页,HtmlUtil.java用于解析网页的基础类。两个类的main方法中有举例。
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
HTML_Webpage_special-effects_online-wse,HTML_Webpage网页特效
Api-webpage-micropub-to-github.zip,通过向github micropub提交到github而发布到jekyll的自托管micropub端点,一个api可以被认为是多个软件设备之间通信的指导手册。例如,api可用于web应用程序之间的数据库通信。...
c++开发百度地图api时所需的WebPage.h和WebPage.cpp文件,下载解压导入项目即可。
WebPage.rar WebPage.cpp
NULL 博文链接:https://tianjun309.iteye.com/blog/800685
MFC调用JS的WebPage公用类,亲试可以用哦,不坑人!来下载吧!
【chrome插件】chrome截图插件FireShot,版本:0.98.97.2_0,包含API的使用的代码示例,此插件的作用为在chrome浏览器(或chromium内核的浏览器)中使用浏览器截图功能,有可见部分截屏、整个页面截屏和捕获选定区域...
exifshow webpage tools
Camera webpage_欧美扁平化网页PSD模板美工UI.zip
Webpage-Screenshot_v14.5.1.crx
本例参照浏览器保存网页功能,在设置下载网址后,程序下载并保存网页,并不断显示出来,基本思想是利用WinInet类直接打开会话,进行读取并保存网页到相关文件中。
webpage:个人网页
项目网页这是一个项目网页的模板。 欢迎您使用它来展示您的精彩作品,只需保留页脚以将源归属于此存储库。 另一个例子可以在找到。如何使用 :rocket: 在公共服务器上克隆存储库 git clone ...
:fire: Brawlhalla 开放 API(客户端) 一个与 Brawlhalla 及其开发人员没有联系的非官方 API 服务器,为更轻松和无限制地访问 Brawlhalla API 服务做好了准备。 :check_mark_button: 它并非旨在诽谤 Brawlhalla ...
删除很简单,只需将生成网页内DIV到DIV间的数据和图像文件下的WPM图像删除即可(记事本打开生成网页,删除的就是WPM的网站链接) 另外,素材需使用英文命名,否则无法识别,这是网页识别编码的问题 如果要使用,...
test webpage selenium webdriver
Study of webpage Study of webpageStudy of webpage
webpage企业自由建站系统.net v3.0 免费版 程序语言:ACCESS asp.net2.0 1,把文件放在网站根目录下. 2,保证upfile文件夹有写入图片权限,App_Data文件夹有写入图片权限,template文件夹有写入权限.其它可以只读. ...
Java Web包Webpagepackage family.yin.senqi