package test;
import java.io.*;
import org.htmlparser.Parser;
import org.htmlparser.visitors.HtmlPage;
class Test {
public static void main(String[] argv) throws IOException, InterruptedException {
Parser parser;
String body = "";
String title = "";
try {
parser = new Parser("http://www.hao123.com");
parser.setEncoding("UTF-8");
HtmlPage htmlpage = new HtmlPage(parser);
parser.visitAllNodesWith(htmlpage);
//通过htmlparser 获取body内容
body = htmlpage.getBody().asString();
//通过htmlparser 获取title内容
title =htmlpage.getTitle();
body = body.replaceAll("[ \\t\\n\\r\\f( |gt) ]+"," ");
System.out.println(title);
System.out.println(body);
} catch (Exception e) {
// TODO: handle exception
e.printStackTrace();
}
}
}
//获取源文件
Parser parser = new Parser(address);
parser.setEncoding("gbk");
System.out.println(parser.parse(null).toHtml());
分享到:
相关推荐
资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...
htmlparser[1]是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 毫不...
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 毫不夸张地说,htmlparser就是目前最好...
htmlparser(HTML页面解析)例子
c#版htmlparser htmlparser.dll htmlparser源代码
HTMLParser HTML解析 HTMLParser HTML解析 HTMLParser HTML解析
Html解析助手htmlparser.jar。Html解析助手htmlparser.jar
htmlparser-1.2.1jar包下载htmlparser-1.2.1jar包下载
HTMLParser.net源代码HTMLParser.net使用demo
htmlparser.jar htmlparser教程
主要介绍了Python HTMLParser模块解析html获取url实例,HTMLParser是python用来解析html的模块,HTMLParser采用的是一种事件驱动的模式,需要的朋友可以参考下
htmlparser2.0 htmlparser
HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析工具。 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community...
用htmlparser截取html摘要实现源码
htmlparser是一款小而强大的解析Html 的第三方工具包,内含jar包和源文件包(两个),htmlparser1.6.jar,htmlparser1.6_src.jar,非常有用的
html解析器, 可满足90%以上的需求,可以分析自定义的标签, 开源项目, 最近4年没有修改记录, 2011.04.24有人再次进行了提交. 最新的htmlParser
HtmlParser源码及demo