抓取网页数据 - aldo in soft - ITeye博客

`

canhai

浏览: 58475 次
性别:
来自: 西安

最近访客更多访客>>

denverj

zhqch1

xuan198451

keepLoveing

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

greatwall3：引用[i][i]第三方的神烦大叔地方地方[/i][/i]
mongodb之DBRef的java应用
yangfei3169725：谢谢.....帮我忙了
做MongoDB并发测试，报出上述错误。究其原因，是数据库连接数太少

抓取网页数据

阅读更多

总结了一下：

1、抓取网页数据通过指定的URL，获得页面信息，进而对页面用DOM进行 NODE分析，处理得到原始HTML数据，这样做的优势在于，处理某段数据的灵活性高，难点在节算法需要优化，在页面HTML信息大时，算法不好，会影响处理效率。

2、htmlparser框架，对html页面处理的数据结构，HtmlParser采用了经典的Composite模式，通过RemarkNode、TextNode、TagNode、AbstractNode和Tag来描述HTML页面各元素。Htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求，映射HTML标签，可方便获取标签内的HTML CODE。

Htmlparser 官方介绍: htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说，htmlparser就是目前最好的html解析和分析的工具。

3、nekohtml 框架，nekohtml在容错性、性能等方面的口碑上比htmlparser好（包括htmlunit也用的是nekohtml），nokehtml 类似XML解析原理，把html标签确析为dom, 对它们对应于DOM树中相应的元素进行处理。

NekoHTML官方介绍：NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者（人或机器）在编写HTML文档过程中常犯的错误。

NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素，以及不匹配的内嵌元素标签。NekoHTML的开发使用了 Xerces Native Interface (XNI)，后者是Xerces2的实现基础。

分享到：

jdom解析xml生成docment的方法 | java关于时间差的计算

2012-09-14 17:06
浏览 1753
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

C#正则抓取网页数据: 这个demo是用c#语音开发的运用正则抓取网页数据，可以用来学习、借鉴。

java爬虫抓取网页数据教程.pdf: java爬虫抓取网页数据教程.pdf

httpClient+jsoup抓取网页数据实例和jar包: httpClient+jsoup抓取网页数据实例和jar包

java网络爬虫抓取网页数据: 利用HttpClient抓取网页中简单的数据，数据可存入数据库进行分析

Java抓取网页数据Demo: Java抓取网页数据的两种方法：（1）抓取原网页（2）抓取网页JS返回数据

运用正则抓取网页数据: 运用正则抓取网页数据

java抓取网页数据: 非常好的一个java版本的网络爬虫，下载直接可以运行。可以后台登陆然后再抓取。值得大家研究。

抓取网页数据的代码: 抓取网页数据和内容，PreparedStatement的用法

使用CURL抓取网页数据: 一个完整的使用CURL抓取网页数据使用stl string分析网页数据，将提取的数据输出到log.txt中

谈XMLHTTP对象(属性和方法)-VBA抓取网页数据[参考].pdf: XMLHTTP 对象在 VBA 中抓取网页数据的应用 XMLHTTP 对象是 Microsoft 提供的一种客户端同 HTTP 服务器通讯的协议示例，它可以用来抓取网页数据。在 VBA 中，我们可以使用 XMLHTTP 对象来发送请求到 HTTP 服务器，并...

java利用htmlparser抓取网页数据: 可以直接运行。java利用htmlparser抓取网页数据

java抓取网页数据实现: java抓取网页数据实现

用VBA抓取网页数据: 用VBA抓取网页数据有不少方法，其中一种便是引用XMLHTTP对象。在这里尝试为大家介绍一下这个对象的一些基本属性和方法还有一些应用示例。

WSpider, 抓取网页数据的蜘蛛项目.zip: WSpider, 抓取网页数据的蜘蛛项目简介SinaWSpider：Mini爬虫爬取新浪数据，详细步骤参见新浪微博数据爬取Part 3：小爬虫的诞生SinaLogin：模拟登录新浪微博，详细步骤参见模拟新浪微博登录-原理分析到实现

正则表达式抓取网页数据制作小词典: 正则表达式抓取网页数据制作小词典，抓取网页数据，制作小词典

PHP抓取网页数据代码: PHP抓取网页数据代码，已经打包好了，直接解压用zend打开就行了！从网页中选择要抓取的信息然后丢进数据库，希望能给大家一点帮助！

如何使用excel抓取网页数据.pdf: 如何使用excel抓取网页数据.pdf

java爬虫抓取网页数据教程(20210809124656).pdf: java爬虫抓取网页数据教程(20210809124656).pdf

抓取网页数据工具json提取示例.pdf: 抓取网页数据工具json提取示例.pdf

抓取网页数据工具json提取示例.txt: 抓取网页数据工具json提取示例.txt

Global site tag (gtag.js) - Google Analytics