htmlparser1.6
提取tr似乎有些问题,直接用css selector提取的tr冗余,tr里面还有tr。
所以这里多做了些处理。请看代码。
public static Map<String,String> parseList(String url) {
Map<String,String> rlt=new LinkedHashMap<String,String>();
NodeFilter filter=new CssSelectorNodeFilter (".className tr");
filter = new AndFilter(filter, new NotFilter(new HasChildFilter(new CssSelectorNodeFilter ("tr"))));
Parser parser;
try {
parser = new Parser(url);
NodeList list = parser.extractAllNodesThatMatch(filter);
for(int i=0;i<list.size();i++){
Node tr=list.elementAt(i);
parser = new Parser(tr.toHtml());
NodeList tds = parser.extractAllNodesThatMatch(new CssSelectorNodeFilter ("td"));
String key=tds.elementAt(0).toPlainTextString();
String value=tds.elementAt(1).toPlainTextString();
rlt.put(key, value);
}
} catch (ParserException e) {
e.printStackTrace();
}
return rlt;
}
考虑一下
- 大小: 15 KB
分享到:
相关推荐
HtmlParser提取网页信息的设计与实现
使用HtmlParser 提取百度贴吧中的图片
HTMLParser提取网页超链接研究 HTMLParser提取网页超链接研究
HTMLParser提取网页内容,提取网页正文及标题等内容
基于HTMLParser 信息提取的网络爬虫设计论文
org.htmlparser.tags.TableHeader.class org.htmlparser.tags.TableRow.class org.htmlparser.tags.TableTag.class org.htmlparser.tags.TextareaTag.class org.htmlparser.tags.TitleTag.class org.htmlparser.util...
主要介绍了java使用htmlparser提取网页纯文本例子,需要的朋友可以参考下
c#版htmlparser htmlparser.dll htmlparser源代码
htmlparser[1]是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或 ...无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。
HTMLParser.net源代码HTMLParser.net使用demo
电信设备-一种基于HERITRIX和HTMLPARSER商品信息提取方法.zip
基于HTMLParser的Web信息抽取系统的设计与实现
更多描述请见博客同一时间发的文章。能够保证可运行。但是代码的可读性我必须说SOrry.没太多时间加注释,对不住了!
Java使用HtmlParser抓取网页数据并解析
JAVA htmlparser 使用实例
htmlparser.jar htmlparser教程