总结了一下:
1、抓取网页数据通过指定的URL,获得页面信息,进而对页面用DOM进行 NODE分析,处理得到原始HTML数据,这样做的优势在于,处理某段数据的灵活性高,难点在节算法需要优化,在页面HTML信息大时,算法不好,会影响处理效率。
2、htmlparser框架,对html页面处理的数据结构,HtmlParser采用了经典的Composite模式,通过RemarkNode、TextNode、TagNode、AbstractNode和Tag来描述HTML页面各元素。Htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,映射HTML标签,可方便获取标签内的HTML CODE。
Htmlparser 官方介绍: htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说,htmlparser就是目前最好的html解析和分析的工具。
3、nekohtml 框架,nekohtml在容错性、性能等方面的口碑上比htmlparser好(包括htmlunit也用的是nekohtml),nokehtml 类似XML解析原理,把html标签确析为dom, 对它们对应于DOM树中相应的元素进行处理。
NekoHTML官方介绍:NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常犯的错误。
NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了 Xerces Native Interface (XNI),后者是Xerces2的实现基础。
分享到:
相关推荐
这个demo是用c#语音开发的运用正则抓取网页数据,可以用来学习、借鉴。
java爬虫抓取网页数据教程.pdf
httpClient+jsoup抓取网页数据实例和jar包
利用HttpClient抓取网页中简单的数据,数据可存入数据库进行分析
Java抓取网页数据的两种方法:(1)抓取原网页 (2)抓取网页JS返回数据
运用正则抓取网页数据
非常好的一个java版本的网络爬虫,下载直接可以运行。可以后台登陆然后再抓取。值得大家研究。
抓取网页数据和内容,PreparedStatement的用法
一个完整的使用CURL抓取网页数据 使用stl string分析网页数据,将提取的数据输出到log.txt中
XMLHTTP 对象在 VBA 中抓取网页数据的应用 XMLHTTP 对象是 Microsoft 提供的一种客户端同 HTTP 服务器通讯的协议示例,它可以用来抓取网页数据。在 VBA 中,我们可以使用 XMLHTTP 对象来发送请求到 HTTP 服务器,并...
可以直接运行。java利用htmlparser抓取网页数据
java抓取网页数据实现
用VBA抓取网页数据有不少方法,其中一种便是引用XMLHTTP对象。在这里尝试为大家介绍一下这个对象的一些基本属性和方法还有一些应用示例。
WSpider, 抓取网页数据的蜘蛛项目 简介SinaWSpider:Mini爬虫爬取新浪数据,详细步骤参见新浪微博数据爬取Part 3:小爬虫的诞生SinaLogin:模拟登录新浪微博,详细步骤参见模拟新浪微博登录-原理分析到实现
正则表达式抓取网页数据制作小词典,抓取网页数据,制作小词典
PHP抓取网页数据代码,已经打包好了,直接解压用zend打开就行了!从网页中选择要抓取的信息然后丢进数据库,希望能给大家一点帮助!
如何使用excel抓取网页数据.pdf
java爬虫抓取网页数据教程(20210809124656).pdf
抓取网页数据工具json提取示例.pdf
抓取网页数据工具json提取示例.txt