`
- 浏览:
275689 次
- 性别:
- 来自:
北京
-
- mport org.htmlparser.Parser;
-
import org.htmlparser.beans.StringBean;
-
import org.htmlparser.filters.NodeClassFilter;
-
import org.htmlparser.parserapplications.StringExtractor;
-
import org.htmlparser.tags.BodyTag;
-
import org.htmlparser.util.NodeList;
-
import org.htmlparser.util.ParserException;
-
-
public class GetContent {
-
-
public void getContentUsingStringBean(String url) {
-
StringBean sb = new StringBean();
-
sb.setLinks(true);
-
sb.setCollapse(true);
-
sb.setReplaceNonBreakingSpaces(true);
-
sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");
-
System.out.println("The Content is :\n" + sb.getStrings());
-
- }
-
-
public void getContentUsingStringExtractor(String url, boolean link) {
-
StringExtractor se = new StringExtractor(url);
-
String text = null;
-
try {
- text = se.extractStrings(link);
-
System.out.println("The content is :\n" + text);
-
} catch (ParserException e) {
- e.printStackTrace();
- }
- }
-
-
public void getContentUsingParser(String url) {
- NodeList nl;
-
try {
-
Parser p = new Parser(url);
-
nl = p.parse(new NodeClassFilter(BodyTag.class));
-
BodyTag bt = (BodyTag) nl.elementAt(0);
- System.out.println(bt.toPlainTextString());
-
} catch (ParserException e) {
- e.printStackTrace();
- }
- }
-
-
public static void main(String[] args) {
-
GetContent g = new GetContent();
-
-
-
g.getContentUsingStringExtractor("http://www.sina.com.cn/", false);
- }
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
HTMLParser提取网页内容,提取网页正文及标题等内容
HTMLParser提取网页超链接研究 HTMLParser提取网页超链接研究
HtmlParser提取网页信息的设计与实现
基于HttpClient与HTMLParser的网页正文提取,陈智彬,崔鸿雁,随着互联网的高速发展,针对互联网的分析处理显得日益重要。本文研究了HttpClient、HTMLParser等技术,提出并实现了一种基于HttpClient与HTM
本文研究了 HttpClient、HTMLParser 等技术,提出并实现了一种基于HttpClient 与HTMLParser 的网 页抓取解析方法,该方法能够快速有效对HTML 页面进行抓取解析
主要介绍了java使用htmlparser提取网页纯文本例子,需要的朋友可以参考下
htmlparser提取网页信息
htmlparser实现从网页上抓取数据
一般在浏览Web上的网页时会发现两部分内容:一部分是网页的主题信息,另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容,我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户...
更多描述请见博客同一时间发的文章。能够保证可运行。但是代码的可读性我必须说SOrry.没太多时间加注释,对不住了!
HTMLParser提取网页超链接研究 htmlparser实现从网页上抓取数据 HTMLParser-2.0-SNAPSHOT
我自己写的软件 !!
htmlparser[1]是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或 ...无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。
Htmlparser jar 包 java 实例
htmlparser所需jar包,进行网页信息提取和解析的工具包
是实现用htmlparser解析html,例子还有java解析xml。自己写的例子与大家分享!
最新网页解析工具包,提取网页中的你想要的信息
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 毫不夸张地说,htmlparser就是目前最好的...