`

htmlparser:使用 HttpClient 和 HtmlParser 实现简易爬虫

    博客分类:
  • java
阅读更多
 使用 HttpClient HtmlParser 实现简易爬虫

  这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包使用在此基础上实现了个简易网络爬虫 (Crawler)来介绍说明如何使用 HtmlParser 根据需要处理 Internet 上网页以及如何使用 HttpClient 来简化 Get 和 Post 请求操作构建强大网络应用

  HttpClient 和 HtmlParser 介绍

  本小结简单介绍下 HttpClinet 和 HtmlParser 两个开源项目以及他们网站WebSite和提供下载地址

  HttpClient 介绍

  HTTP 协议是现在因特网最重要协议的除了 WEB 浏览器的外 WEB 服务基于网络应用以及日益增长网络计算不断扩展着 HTTP 协议角色使得越来越多应用需要 HTTP 协议支持虽然 JAVA 类库 .net 包提供了基本功能来使用 HTTP 协议访问网络资源但是其灵活性和功能远不能满足很多应用需要而 Jakarta Commons HttpClient 组件寻求提供更为灵活更加高效 HTTP 协议支持简化基于 HTTP 协议应用创建 HttpClient 提供了很多特性支持最新 HTTP 标准可以访问这里了解更多有关 HttpClinet 详细信息目前有很多开源项目都用到了 HttpClient 提供 HTTP功能登陆网址可以查看这些项目本文中使用 HttpClinet 提供类库来访问和下载 Internet上面网页在后续部分会详细介绍到其提供两种请求网络资源思路方法: Get 请求和 Post 请求Apatche 提供免费 HTTPClien t源码和 JAR 包下载可以登陆这里 下载最新HttpClient 组件笔者使用是 HttpClient3.1

  HtmlParser 介绍

  当今 Internet 上面有数亿记网页越来越多应用将这些网页作为分析和处理数据对象这些网页多为半结构化文本有着大量标签和嵌套结构当我们自己开发些处理网页应用时会想到要开发个单独网页解析器这部分工作必定需要付出相当精力和时间事实上做为 JAVA 应用开发者 HtmlParser 为其提供了强大而灵活易用开源类库大大节省了写个网页解析器开销 HtmlParser 是 http://sourceforge.net 上活跃个开源项目它提供了线性和嵌套两种方式来解析网页主要用于 html 网页转换(Transformation) 以及网页内容抽取 (Extraction)HtmlParser 有如下些易于使用特性:过滤器 (Filters)访问者模式 (Visitors)处理自定义标签以及易于使用 JavaBeans正如 HtmlParser 首页所说:它是个快速健壮以及严格测试过组件;以它设计简洁运行速度以及处理 Internet 上真实网页能力吸引着越来越多开发者 本文中就是利用HtmlParser 里提取网页里链接实现简易爬虫里关键部分HtmlParser 最新版本是HtmlParser1.6可以登陆这里下载其源码、 API 参考文档以及 JAR 包

  开发环境搭建

  笔者所使用开发环境是 Eclipse Europa此开发工具可以在 www.eclipse.org 免费下载;JDK是1.6你也可以在 www.java.sun.com 站点下载并且在操作系统中配置好环境变量在 Eclipse 中创建个 JAVA 工程在工程 Build Path 中导入下载Commons-httpClient3.1.Jarhtmllexer.jar 以及 htmlparser.jar 文件

  图 1. 开发环境搭建

FileDownLoader;
    downLoader.downloadFile("http://www.twt.edu.cn");
  }
}
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics