这个东西就是对html进行解析,找出自己想到的数据.这个是比较常用的,功能也非常强大的工具.
如果下载可以到 http://htmlparser.sourceforge.net/
当前版本是1.6的,以下的代码都是针对于1.6 的版本
分析,(也可以说是过滤)主要应用到NodeFilter和Visitor,(现在知道的就这两个,如果有人知道其它的告诉我呀)
NodeFilter
1.首先生成一个Parser,生成的方法比较多,如:
已知URL,(想从网络上的网页提取)
Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");
从本地网页提取,要先把网页转成字符串,假定为str
Parser parser=Parser.createParser(html,charset);
2.然后就需要filter
NodeFilter filter=new TagNameFilter("IMG");//"IMG"是Tag的名字
NodeFilter filter = new NodeClassFilter(ImageTag.class);//Tag 的类
3.其次就是匹配filter了
NodeList list=parser.extractAllNodesThat(filter);
for(int i=0;i...){ String content=list.elementAt(i).toHtml();}//得到符合条件的Tag内容
也可以写为ImageTag imageTag=(ImageTag)list.elementAt(i);
Visitor
1.生成一个Parser (同上)
2.用visitor访问页面
如:ObjectFindingVisitor visitor=new ObjectFindingVisitor();
parser.visitAllNodesWith(visitor);
3.通过特定的visitor得到符合条件的Tag
Node[] nodes=visitor.getTags();
for(int i=0;i ImageTag imageTag=(ImageTag)nodes[i];
…………
//根据需要做特定处理
}
分享到:
相关推荐
META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans....
c#版htmlparser htmlparser.dll htmlparser源代码
htmlparser网络爬虫技术,通过关键字查询快速查找指定网站
HTMLParser.net源代码HTMLParser.net使用demo
htmlparser-1.2.1jar包下载htmlparser-1.2.1jar包下载
HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都...
htmlparser.jar htmlparser教程
htmlparser2.0 htmlparser
HtmlParser源码及demo
Java使用HtmlParser实现简单的网络爬虫,爬虫DEMO,Java 使用 HtmlParser 抓取网页数据并解析以及说明
HTMLParser HTML解析 HTMLParser HTML解析 HTMLParser HTML解析
我注意好多人都说没有org.htmlparser.Node和其他的一些.class文件,这里把下载后解压出来的5个jar包全部导入工程就可以引入所需的文件了
关于用java写的htmlparser网页分析
Winista.Htmlparser.net 源代码 本资料共包含以下附件: HtmlParser c#源码+demo.rar
Java使用HtmlParser抓取网页数据并解析
Winista HtmlParser Winista HtmlParser Winista HtmlParser Winista HtmlParser
HtmlParser-2.0 API ,chm格式,方便使用
HTMLParser的Jar文件有如下几种: htmlparser.jar filterbuilder.jar htmllexer.jar sitecapturer.jar thumbelina.jar