最新文章列表

Nutch爬去中文网站乱码

    今天使用Nutch1.7抓取中文网站的时候,发现抓取后的数据是乱码,网上找了很多资料都没有解决。于是查看源代码发现,Nutch解析文件使用的是HtmlParser类,此类中有获取网页编码的代码:   // NUTCH-1006 Meta equiv with single quotes not accepted private static Pattern metaPatter ...
h140465 评论(0) 有870人浏览 2015-06-03 23:05

(转)三、htmlparser使用指南

需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉 nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,因此先研究一 下htmlparser的使用,有空再研究neko ...
jilong-liang 评论(0) 有1267人浏览 2015-01-11 20:54

(转)二、基于htmlparser实现网页内容解析

网页解析,即程序自动分析网页内容、获取信息,从而进一步处理信息。 网页解析是实现网络爬虫中不可缺少而且十分重要的一环,由于本人经验也很有限,我仅就我们团队开发基于关键词匹配和模板匹配的主题爬虫的经验谈谈如何实现网页解析。 首先,必须说在最前的是我们使用的工具——htmlparser 简要地说,htmlparser包提供方便、简洁的处理html文件的方法,它将html页面中的标签按树形结构解析 ...
jilong-liang 评论(0) 有1597人浏览 2015-01-11 20:48

(转)一、HTMLParser分析器详解例子使用

HTMLParser使用 HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。 这里我根据自己这几个月来的经验,写了一点入门的东西,希望能对新学习HTMLParser的朋友们有所帮助。(不过当年高考本人语文只比 ...
jilong-liang 评论(0) 有795人浏览 2015-01-11 20:38

HTMLParser 详细 使用

原文地址 http://www.cnblogs.com/loveyakamoz/archive/2011/07/27/2118937.html HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。    这里我根据自己 ...
爱上不吃鱼DE猫 评论(0) 有618人浏览 2014-11-02 17:48

数据挖掘-基于dom树的网页属性抽取方法应用

提纲      一、简介      二、应用举例      三、思想      四、实现      五、html-Dom树特征   一、简介        基于Dom树的抽取技术根据ht ...
dengqsintyt 评论(0) 有3989人浏览 2014-07-26 12:46

htmlparser的一处危险用法

   最近通过同事的一次测试,正好发现了htmlparser的一处危险用法。姑且记录在博客里面,如果你恰好也用到了htmlpaser,可以检查一下自己的代码。         htmlparser(主页地址)是一个用的比较广泛的java解析html的库。         如下的代码使用会带来问题:        import org.htmlparser.Parser; .... ...
dingody 评论(0) 有888人浏览 2013-11-14 14:02

HTMLParser的HasAttributeFilter过滤方式分析网页

HTMLParser 在分析网页的时候有两种方式,一种是Visitor方式另外一种是Filter方式。 在这里我们看看使用filter分析网页信息的方法。 使用Filter方式访问网页,目的就是提取网页上的节点。在这里我们就可以使用HasAttributeFilter来进行分析。例如,我们要在百度上查询www.javaeerun.com的收录情况,那么根据上一篇文章 简单收录查询工具的原理  ...
lqy1234567 评论(0) 有2415人浏览 2013-09-28 16:17

HtmlParserUtil 解析HTML文本

    import java.util.ArrayList; import java.util.List; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.NodeClassFilt ...
rj1989y 评论(0) 有1133人浏览 2013-04-10 17:33

九Python之HTML的解析(网页抓取一)

    对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。        HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的 ...
zhdkn 评论(0) 有10589人浏览 2013-03-05 08:29

【转】几个open source的html parser的比较

转自:http://javashow.blog.163.com/blog/static/12109964200491452690/ 几个open source的html parser的比较   HTMLParser 最先是看见SourceForge上下载的包,真是有点 ...
chenlong_1988 评论(0) 有1287人浏览 2012-11-16 11:05

利用HtmlParser来提取网页内容

 本文参考:李腾飞CSM实战   使用正则表达式来分析网页的内容比较麻烦,因为html标签不区分大小写,而且有的时候没有结尾。 HtmlParser也有下载网页的功能,不过他不是专门用来做这个,所以我们这边不用他的这个功能。   具体内容请看下面代码及注释:   public class PageParserTest extends TestCase { private Str ...
whoosh 评论(1) 有7457人浏览 2012-09-22 16:59

htmlparser页面解析(基础运用)

Htmlparser 简介 htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 基础运用 目标页面代码 <ul class="list_ul"> <li class="title_li&q ...
synchronized_lala 评论(10) 有4443人浏览 2012-08-06 22:22

jsoup 简介

  jsoup 简介 jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 的主要功能如下: 1. 从一个 URL,文件或字符串中解析 HTML; 2. 使用 DOM 或 CSS 选择器来查找、取出数据;
晨必须的 评论(0) 有15140人浏览 2012-06-01 13:02

FastJson-api

<!-- [if gte mso 9]><xml><w:WordDocument><w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel><w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDra ...
晨必须的 评论(0) 有13300人浏览 2012-05-30 21:00

jeecms 扩展插件 爬虫 2.0 整合包

jeecms 爬虫 2.0正式版 这次新增了评论采集,采集界面也重新布局,数据库表,整合代码都独立了出来,可以与官方的采集共存,完全不用修改JEECMS的源代码(XML配置文件还是要改的哈,不然咋个整合进去啊!),另外,还整理了几个文档,采集参数设置说明,整合说明等,见附件。如有什么问题请QQ交流: 164863067 jeecms 交流群:217868618,爬虫交流群:217690017 ...
javacoo 评论(2) 有3527人浏览 2012-05-16 09:47

用htmlparser提取table信息

htmlparser1.6提取tr似乎有些问题,直接用css selector提取的tr冗余,tr里面还有tr。所以这里多做了些处理。请看代码。 public static Map<String,String> parseList(String url) { Map<String,String> rlt=new LinkedHashMap<String, ...
bg090721 评论(0) 有1385人浏览 2012-05-13 08:24

CssSelectorNodeFilter用法

这里演示htmlparser1.6中CssSelectorNodeFilter的用法。这个版本的CssSelector不支持pseudoclasses,比如:parent是不能用的。     import org.htmlparser.Parser; import org.htmlparser.filters.CssSelectorNodeFilter; import org.htmlpa ...
bg090721 评论(0) 有3356人浏览 2012-05-13 08:14

HttpClient模拟ajax提交

这几天开始做一些爬虫方面的东西,但是在解析页面是碰到了分页数据的爬取问题,如果分页是get方式的url还好,但是如果是Post方式的ajax提交那就感觉比较纠结 思路: 因为是post所以首先想到使用Post的参数方式来做: public String doHttpSend(String keyWord,String searchType,int pageNum) throws Exceptio ...
冰糖葫芦 评论(3) 有17807人浏览 2012-04-19 21:49

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics