htmlparser提取网页正文

blessed24

浏览: 275689 次
性别:
来自: 北京

最近访客更多访客>>

BeyondPC

wjzayy

yfxu10

903896940

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HTML

.net HTML

Java代码

mport org.htmlparser.Parser;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.parserapplications.StringExtractor;
import org.htmlparser.tags.BodyTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class GetContent {
public void getContentUsingStringBean(String url) {
StringBean sb = new StringBean();
sb.setLinks(true);
sb.setCollapse(true);
sb.setReplaceNonBreakingSpaces(true);// If true regular space
sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");
System.out.println("The Content is :\n" + sb.getStrings());
}
public void getContentUsingStringExtractor(String url, boolean link) {
StringExtractor se = new StringExtractor(url);
String text = null;
try {
text = se.extractStrings(link);
System.out.println("The content is :\n" + text);
} catch (ParserException e) {
e.printStackTrace();
}
}
public void getContentUsingParser(String url) {
NodeList nl;
try {
Parser p = new Parser(url);
nl = p.parse(new NodeClassFilter(BodyTag.class));
BodyTag bt = (BodyTag) nl.elementAt(0);
System.out.println(bt.toPlainTextString());
} catch (ParserException e) {
e.printStackTrace();
}
}
public static void main(String[] args) {
GetContent g = new GetContent();
// g.getContentUsingStringBean("");
// g.getContentUsingParser("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");
g.getContentUsingStringExtractor("http://www.sina.com.cn/", false);
}

分享到：

利用HtmlParser进行网页信息提取[原创] | 如何分析网页-----使用HtmlParser(1)

2010-12-19 19:02
浏览 1884
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlparser提取网页正文

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlparser提取网页正文

评论

发表评论

相关推荐

修改XHTML元素

HTML解析器软件

将Unicode字符转换成中文

URL编码与中文的转换

htmlparser 去除html标签体（获取body，title纯文本）

利用HtmlParser进行网页信息提取[原创]

如何分析网页-----使用HtmlParser(1)

用nekohtml来获取网页指定内容

nekohtml的简单使用

Neko的简单使用

NekoHTML学习笔记

遍历网站的所有Url

htmlparser使用指南

最近访客更多访客>>