使用TagNameFilter过滤所有table标签结点。
package com.javaeye.suo.htmlparser.samples;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import com.javaeye.suo.htmlparser.HtmlParserUtils;
public class FilterDemo {
/**
* 使用TagNameFilter过滤所有table标签结点。
* @param parser
*/
public void filter(Parser parser) {
NodeList nodelist;
try {
/*
* 过滤所有table标签结点。
*/
NodeFilter filter = new TagNameFilter("table");
nodelist = parser.parse(filter);
Node node = nodelist.elementAt(0);
Node firstChild = node.getFirstChild();
Node secondChild = firstChild.getNextSibling();
Node thirdChild = secondChild.getNextSibling();
Node forthChild = thirdChild.getNextSibling();
System.out.println("node-->" + node.getText() + "-->" + node.toHtml());
System.out.println("firstChild-->" + firstChild.getText() + "-->" + firstChild.toHtml());//注意换行符,此结点为换行符。
System.out.println("secondChild-->" + secondChild.getText() + "-->" + secondChild.toHtml());
System.out.println("thirdChild-->" + thirdChild.getText() + "-->" + thirdChild.toHtml());
System.out.println("forthChild-->" + forthChild.getText() + "-->" + forthChild.toHtml());
} catch (ParserException e1) {
e1.printStackTrace();
}
}
public static void main(String[] args) {
String urlStr = "http://localhost:8080/HtmlParser/htmlparser.html";
Parser parser = HtmlParserUtils.getParserWithUrlConn(urlStr, "utf-8");
FilterDemo filter = new FilterDemo();
filter.filter(parser);
}
}
关键代码:NodeFilter filter = new TagNameFilter("table");
补充
:
一、Filter简介
如果说visitor是遍历提取信息,当然这个信息可以包括某些节点或者从节点分析出来的更有效的信息,这都取决于我们的Visitor做成什么样子,那么Filter则目标很明确,就是用来提取节点的。所以说要想用HtmlParser,首先要熟悉上面讲到的数据组织。
系统定义了17种具体的Filter,包括依据节点父子关系的Filter,连接Filter组合的Filter,依据网页内容匹配情况的filter,等等。我们也可以implement Filter来做自己的Filter来提取节点。
Filter的调用是同Visitor独立的,因为也无需先filter出一些NodeList,再用Visitor来访问。调用Filter的方法是:
NodeList nodeList = myParser.parse(someFilter);
解析之后,我们可以采用:
Node[] nodes = nodeList.toNodeArray();
来获取节点数组,也可以直接访问:
Node node = nodeList.elementAt(i)来获取Node。
另外,在Filter后得到NodeList以后,我们仍然可以使用NodeList的extractAllNodesThatMatch
(someFilter)来进一步过滤,同时又可以用NodeList的isitAllNodesWith(someVisitor)来做进一步的访问。
这样,我们可以看到HtmlParser为我们提供了非常方便的Html解析方式,针对不同的应用可以采用visitor来遍历Html节点提取数据,也可
以用Filter来过滤节点,提取出我们所关注的节点,再对节点进行处理。通过这样的组合,一定能够找出我们所需要的信息。
二、别人的总结
(1)利用NodeFilter对网页进行分析
1、生成一个Parser
a.通过url提取网络上的网页
Parser
parser = new
Parser();
parser.setURL("http://www.yahoo.com.cn");
b.提取本地网页文件
通过读文件把网页文件转化成字符串;
Parser
parser=Parser.createParser(html,charset);
2、利用NodeFilter做一个filter
a.利用Tag
Name
NodeFilter filter=new TagNameFilter("IMG");
b.利用Tag
Class
NodeFilter filter = new
NodeClassFilter(ImageTag.class);
3、通过匹配filter,得到所有符合条件的Tag
NodeList
list=parser.extractAllNodesThat(filter);
for(int i=0;i String
content=list.elementAt(i).toHtml();//得到符合条件的Tag内容
如果针对具体情况进行更加详细的处理,则:
ImageTag
imageTag=(ImageTag)list.elementAt(i);
…………
}
然后根据需要做相应的处理。
(2)
、利用Visitor对网页进行分析
1、生成一个Parser
a.通过url提取网络上的网页
Parser parser =
new
Parser();
parser.setURL("http://www.yahoo.com.cn");
b.提取本地网页文件
通过读文件把网页文件转化成字符串;
Parser
parser=Parser.createParser(html,charset);
2、用visitor访问页面
ex:ObjectFindingVisitor
visitor=new ObjectFindingVisitor();
parser.visitAllNodesWith(visitor);
3、通过特定的visitor得到符合条件的Tag
Node[]
nodes=visitor.getTags();
for(int i=0;i ImageTag
imageTag=(ImageTag)nodes[i];
…………
//根据需要做特定处理
}
分享到:
相关推荐
HtmlParser学习笔记-- htmlparser简介 HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Remark和Text相对简单,此处就将其忽略了。
前端开源库-parse5-htmlparser2-tree-adapterparse5-htmlparser2-tree-adapter,parse5的htmlparser2树适配器。
Htmlparser是网页解析的优秀工具,我上传的里面有HTMLParser的API,已经相关的jar包。
//获取子链接,url为网页url,filter是链接过滤器,返回该页面子链接的HashSet public static Set<String> extracLinks(String url, LinkFilter filter) { Set<String> links = new HashSet(); try { ...
HTMLParser-2.0-API.CHM HTMLParser-2.0-API.CHM
前端开源库-htmlparser-to-htmlhtmlparser转换为html,将htmlparser/htmlparser2包生成的JSON转换回html。
包含对HtmlParser使用的很多方面,解释的很详细
关于正则表达式和HTMLParser使用的详细说明 希望对大家有用
全面的介绍htmlparser技术的使用,从入门到实战,里面包含了代码示例!
htmlparser-1.2.1jar包下载htmlparser-1.2.1jar包下载
htmlparser能超高速解析html,而且不会出错
HtmlParser-2.0 API ,chm格式,方便使用
org.htmlparser.beans.FilterBean.class org.htmlparser.beans.HTMLLinkBean.class org.htmlparser.beans.HTMLTextBean.class org.htmlparser.beans.LinkBean.class org.htmlparser.beans.StringBean.class org....
node-htmlparser ,node-htmlparser 是一个 JavaScript 的 HTML 文档解析器。 示例代码:...
HTMLParser.net源代码HTMLParser.net使用demo
HTMLParser的Jar文件有如下几种: htmlparser.jar filterbuilder.jar htmllexer.jar sitecapturer.jar thumbelina.jar