用htmlparser提取table信息 - fishatsea - ITeye博客

`

bg090721

浏览: 46541 次

最近访客更多访客>>

xiaochunyong

495991717

wangsla

byrain

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

SoftMiner：用SCM-manager吧https://bitbucket. ...
git server搭建[test only]

用htmlparser提取table信息

博客分类：

htmlparser
java

htmlparser CssSelectorNodeFilter AndFilter NotFilter HasChildFilter

阅读更多

htmlparser1.6
提取tr似乎有些问题，直接用css selector提取的tr冗余，tr里面还有tr。
所以这里多做了些处理。请看代码。

  public static Map<String,String> parseList(String url) {
    Map<String,String> rlt=new LinkedHashMap<String,String>();
    NodeFilter filter=new CssSelectorNodeFilter (".className tr");
    filter = new AndFilter(filter, new NotFilter(new HasChildFilter(new CssSelectorNodeFilter ("tr"))));
    Parser parser;
    try {
      parser = new Parser(url);
      NodeList list = parser.extractAllNodesThatMatch(filter);
      for(int i=0;i<list.size();i++){
        Node tr=list.elementAt(i);
        parser = new Parser(tr.toHtml());
        NodeList tds = parser.extractAllNodesThatMatch(new CssSelectorNodeFilter ("td"));
        String key=tds.elementAt(0).toPlainTextString();
        String value=tds.elementAt(1).toPlainTextString();
        rlt.put(key, value);
      }
    } catch (ParserException e) {
      e.printStackTrace();
    }
    return rlt;
  }

考虑一下

查看图片附件

分享到：

ubuntu上装liferay | CssSelectorNodeFilter用法

2012-05-13 08:24
浏览 1388
评论(0)
分类:开源软件
查看更多

评论

发表评论

文章已被作者锁定，不允许评论。

相关推荐

HtmlParser提取网页信息的设计与实现: HtmlParser提取网页信息的设计与实现

使用HtmlParser 提取百度贴吧中的图片: 使用HtmlParser 提取百度贴吧中的图片

HTMLParser提取网页超链接研究: HTMLParser提取网页超链接研究 HTMLParser提取网页超链接研究

HTMLParser提取网页内容: HTMLParser提取网页内容，提取网页正文及标题等内容

基于HTMLParser 信息提取的网络爬虫设计: 基于HTMLParser 信息提取的网络爬虫设计论文

htmlparser: org.htmlparser.tags.TableHeader.class org.htmlparser.tags.TableRow.class org.htmlparser.tags.TableTag.class org.htmlparser.tags.TextareaTag.class org.htmlparser.tags.TitleTag.class org.htmlparser.util...

java使用htmlparser提取网页纯文本例子: 主要介绍了java使用htmlparser提取网页纯文本例子,需要的朋友可以参考下

c#版htmlparser htmlparser.dll htmlparser源代码: c#版htmlparser htmlparser.dll htmlparser源代码

HtmlParser: htmlparser[1]是一个纯的java写的html（标准通用标记语言下的一个应用）解析的库，它不依赖于其它的java库文件，主要用于改造或 ...无论你是想抓取网页数据还是改造html的内容，用了htmlparser绝对会忍不住称赞。

HTMLParser.net源代码HTMLParser.net使用demo: HTMLParser.net源代码HTMLParser.net使用demo

电信设备-一种基于HERITRIX和HTMLPARSER商品信息提取方法.zip: 电信设备-一种基于HERITRIX和HTMLPARSER商品信息提取方法.zip

基于HTMLParser的Web信息抽取系统的设计与实现: 基于HTMLParser的Web信息抽取系统的设计与实现

C#正则+HTMLParser进行网页信息提取的实例。: 更多描述请见博客同一时间发的文章。能够保证可运行。但是代码的可读性我必须说SOrry.没太多时间加注释，对不住了！

Java使用HtmlParser实现简单的网络爬虫: Java使用HtmlParser抓取网页数据并解析

JAVA htmlparser 使用实例: JAVA htmlparser 使用实例

htmlparser库与教程: htmlparser.jar htmlparser教程

Global site tag (gtag.js) - Google Analytics