使用
HttpClient 和
HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包使用在此基础上实现了个简易网络爬虫 (Crawler)来介绍说明如何使用 HtmlParser 根据需要处理 Internet 上网页以及如何使用 HttpClient 来简化 Get 和 Post 请求操作构建强大网络应用
HttpClient 和 HtmlParser 介绍
本小结简单介绍下 HttpClinet 和 HtmlParser 两个开源项目以及他们网站WebSite和提供下载地址
HttpClient 介绍
HTTP 协议是现在因特网最重要协议的除了 WEB 浏览器的外 WEB 服务基于网络应用以及日益增长网络计算不断扩展着 HTTP 协议角色使得越来越多应用需要 HTTP 协议支持虽然 JAVA 类库 .net 包提供了基本功能来使用 HTTP 协议访问网络资源但是其灵活性和功能远不能满足很多应用需要而 Jakarta Commons HttpClient 组件寻求提供更为灵活更加高效 HTTP 协议支持简化基于 HTTP 协议应用创建 HttpClient 提供了很多特性支持最新 HTTP 标准可以访问这里了解更多有关 HttpClinet 详细信息目前有很多开源项目都用到了 HttpClient 提供 HTTP功能登陆网址可以查看这些项目本文中使用 HttpClinet 提供类库来访问和下载 Internet上面网页在后续部分会详细介绍到其提供两种请求网络资源思路方法: Get 请求和 Post 请求Apatche 提供免费 HTTPClien t源码和 JAR 包下载可以登陆这里 下载最新HttpClient 组件笔者使用是 HttpClient3.1
HtmlParser 介绍
当今 Internet 上面有数亿记网页越来越多应用将这些网页作为分析和处理数据对象这些网页多为半结构化文本有着大量标签和嵌套结构当我们自己开发些处理网页应用时会想到要开发个单独网页解析器这部分工作必定需要付出相当精力和时间事实上做为 JAVA 应用开发者 HtmlParser 为其提供了强大而灵活易用开源类库大大节省了写个网页解析器开销 HtmlParser 是 http://sourceforge.net 上活跃个开源项目它提供了线性和嵌套两种方式来解析网页主要用于 html 网页转换(Transformation) 以及网页内容抽取 (Extraction)HtmlParser 有如下些易于使用特性:过滤器 (Filters)访问者模式 (Visitors)处理自定义标签以及易于使用 JavaBeans正如 HtmlParser 首页所说:它是个快速健壮以及严格测试过组件;以它设计简洁运行速度以及处理 Internet 上真实网页能力吸引着越来越多开发者 本文中就是利用HtmlParser 里提取网页里链接实现简易爬虫里关键部分HtmlParser 最新版本是HtmlParser1.6可以登陆这里下载其源码、 API 参考文档以及 JAR 包
开发环境搭建
笔者所使用开发环境是 Eclipse Europa此开发工具可以在 www.eclipse.org 免费下载;JDK是1.6你也可以在 www.java.sun.com 站点下载并且在操作系统中配置好环境变量在 Eclipse 中创建个 JAVA 工程在工程 Build Path 中导入下载Commons
-httpClient3.1.Jarhtmllexer.jar 以及
htmlparser.jar 文件
图 1. 开发环境搭建
FileDownLoader;
downLoader.downloadFile("http://www.twt.edu.cn");
}
}
分享到:
相关推荐
使用 HttpClient 和 HtmlParser 实现简易网络爬虫
使用 HttpClient 和 HtmlParser 实现简易爬虫
使用_HttpClient_和_HtmlParser_实现简易爬虫
如果您下载了本程序,但是该程序无法运行,或者您不会部署,那么您可以选择退款或者寻求我们的帮助(如果找我们帮助的...然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
利用HttpClient和HtmlParser实现的简单爬虫(Java)
NULL 博文链接:https://azure2a.iteye.com/blog/901363
HtmlParser和HttpClient学习资料,其中包括网络爬虫的源码和一些在网上找到的学习资料
自己搞Java爬虫的时候整理得jar包希望能够帮助到猿们
HttpClient&&HtmlParser(Crawler)网络爬虫 HttpClient&&HtmlParser(Crawler)网络爬虫
主要介绍了基于Java HttpClient和Htmlparser实现网络爬虫代码的相关资料,需要的朋友可以参考下
httpclient-4.3.3.jar httpclient-cache-4.3.3.jar httpcore-4.3.2.jar httpmime-4.3.3.jar javabase64-1.3.1.jar json.jar json-lib-2.4-jdk15.jar jsoup_1.6.2_add.jar mysql-connector-java.5.1.7.jar sqljdbc4....
这段时间在做一个网络爬虫,但是关于HTTPclient+htmlparser两个开源工具包很多版本都不全,这里是我自己收集的、绝对可用的,比较完整的版本。 导入后,需要用import引用. 希望有用,也是我自己做的备份。
实现简易爬虫、网页分析等所用到的几个包 Commons-httpClient3.1.Jar,htmllexer.jar,htmlparser.jar
网络爬虫开发工具包 httpClient 是旧版的,大部分网上的爬虫教程用的都是这个工具包
用来开发网络爬虫,抓取网页资料的工具包,更加高效开发