htmlparser:使用 HttpClient 和 HtmlParser 实现简易爬虫

dodomail

浏览: 892251 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

wyhappiness

蒙奇君杰

jickcai

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

网络应用网络协议 Eclipse 应用服务器设计模式

　使用 HttpClient 和 HtmlParser 实现简易爬虫

　　这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包使用在此基础上实现了个简易网络爬虫 (Crawler)来介绍说明如何使用 HtmlParser 根据需要处理 Internet 上网页以及如何使用 HttpClient 来简化 Get 和 Post 请求操作构建强大网络应用

　　HttpClient 和 HtmlParser 介绍

　　本小结简单介绍下 HttpClinet 和 HtmlParser 两个开源项目以及他们网站WebSite和提供下载地址

　　HttpClient 介绍

　　HTTP 协议是现在因特网最重要协议的除了 WEB 浏览器的外 WEB 服务基于网络应用以及日益增长网络计算不断扩展着 HTTP 协议角色使得越来越多应用需要 HTTP 协议支持虽然 JAVA 类库 .net 包提供了基本功能来使用 HTTP 协议访问网络资源但是其灵活性和功能远不能满足很多应用需要而 Jakarta Commons HttpClient 组件寻求提供更为灵活更加高效 HTTP 协议支持简化基于 HTTP 协议应用创建 HttpClient 提供了很多特性支持最新 HTTP 标准可以访问这里了解更多有关 HttpClinet 详细信息目前有很多开源项目都用到了 HttpClient 提供 HTTP功能登陆网址可以查看这些项目本文中使用 HttpClinet 提供类库来访问和下载 Internet上面网页在后续部分会详细介绍到其提供两种请求网络资源思路方法: Get 请求和 Post 请求Apatche 提供免费 HTTPClien t源码和 JAR 包下载可以登陆这里下载最新HttpClient 组件笔者使用是 HttpClient3.1

　　HtmlParser 介绍

　　当今 Internet 上面有数亿记网页越来越多应用将这些网页作为分析和处理数据对象这些网页多为半结构化文本有着大量标签和嵌套结构当我们自己开发些处理网页应用时会想到要开发个单独网页解析器这部分工作必定需要付出相当精力和时间事实上做为 JAVA 应用开发者 HtmlParser 为其提供了强大而灵活易用开源类库大大节省了写个网页解析器开销 HtmlParser 是 http://sourceforge.net 上活跃个开源项目它提供了线性和嵌套两种方式来解析网页主要用于 html 网页转换(Transformation) 以及网页内容抽取 (Extraction)HtmlParser 有如下些易于使用特性:过滤器 (Filters)访问者模式 (Visitors)处理自定义标签以及易于使用 JavaBeans正如 HtmlParser 首页所说:它是个快速健壮以及严格测试过组件；以它设计简洁运行速度以及处理 Internet 上真实网页能力吸引着越来越多开发者本文中就是利用HtmlParser 里提取网页里链接实现简易爬虫里关键部分HtmlParser 最新版本是HtmlParser1.6可以登陆这里下载其源码、 API 参考文档以及 JAR 包

　　开发环境搭建

　　笔者所使用开发环境是 Eclipse Europa此开发工具可以在 www.eclipse.org 免费下载；JDK是1.6你也可以在 www.java.sun.com 站点下载并且在操作系统中配置好环境变量在 Eclipse 中创建个 JAVA 工程在工程 Build Path 中导入下载Commons-httpClient3.1.Jarhtmllexer.jar 以及 htmlparser.jar 文件

　　图 1. 开发环境搭建

FileDownLoader;
　　　　downLoader.downloadFile("http://www.twt.edu.cn");
　　}
}

分享到：

zend framework session 使用 | Java发送Http请求，解析html返回

2010-01-27 15:29
浏览 3246
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论