htmlparser 去除html标签体（获取body，title纯文本） - Tonny - ITeye博客

`

blessed24

浏览: 275679 次
性别:
来自: 北京

最近访客更多访客>>

BeyondPC

wjzayy

yfxu10

903896940

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

86614009：如何在service层，如何获取绑定到当前线程的entitna ...
使用spring的OpenEntityManagerInView
yajunyajun2011：好帖子怎么没人顶呢
Java 正则表达式最大,最小匹配问题
xtuali：能说明一下，你的nutch是哪个版本的吗？谢谢！
搜索引擎Nutch源代码研究之一网页抓取（1）
dongmusic：需要学习这么多的东西，吐血中...
如何提高Java开发能力
jiminsc： cool
LDAP 验证、添加、修改、删除（转）

htmlparser 去除html标签体（获取body，title纯文本）

博客分类：

HTML

阅读更多

package test;

import java.io.*;

import org.htmlparser.Parser;
import org.htmlparser.visitors.HtmlPage;

class Test {
public static void main(String[] argv) throws IOException, InterruptedException {
   Parser parser;
      String body = "";
      String title = "";

   try {
    parser = new Parser("http://www.hao123.com");
      parser.setEncoding("UTF-8");
      HtmlPage htmlpage = new HtmlPage(parser);
      parser.visitAllNodesWith(htmlpage);
      //通过htmlparser 获取body内容
      body = htmlpage.getBody().asString();
      //通过htmlparser 获取title内容
      title =htmlpage.getTitle();
      body = body.replaceAll("[　\\t\\n\\r\\f( |gt) ]+"," ");
      System.out.println(title);
      System.out.println(body);
   } catch (Exception e) {
    // TODO: handle exception
    e.printStackTrace();
   }
}
}

//获取源文件

   Parser parser = new Parser(address);
   parser.setEncoding("gbk");
   System.out.println(parser.parse(null).toHtml());

分享到：

对代理模式与Java动态代理类的理解（三转） | Java httpclient解决方案中的中文传递

2010-12-29 20:38
浏览 2614
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

扩展HTMLParser对自定义标签的处理能力: 资源名称：扩展HTMLParser对自定义标签的处理能力内容简介： HTMLParser是一个用来解析HTML文档的开放源码项目，它具有小巧、快速、使用简单的特点以及拥有强大的功能。现在该项目的最新版本是Integration Build ...

HtmlParser: htmlparser[1]是一个纯的java写的html（标准通用标记语言下的一个应用）解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。毫不...

htmlparser: htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或　提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。　毫不夸张地说，htmlparser就是目前最好...

htmlparser(HTML页面解析)例子: htmlparser(HTML页面解析)例子

c#版htmlparser htmlparser.dll htmlparser源代码: c#版htmlparser htmlparser.dll htmlparser源代码

HTMLParser 2.0: HTMLParser HTML解析 HTMLParser HTML解析 HTMLParser HTML解析

Html解析助手htmlparser.jar: Html解析助手htmlparser.jar。Html解析助手htmlparser.jar

htmlparser-1.2.1 jar: htmlparser-1.2.1jar包下载htmlparser-1.2.1jar包下载

HTMLParser.net源代码HTMLParser.net使用demo: HTMLParser.net源代码HTMLParser.net使用demo

htmlparser库与教程: htmlparser.jar htmlparser教程

Python HTMLParser模块解析html获取url实例: 主要介绍了Python HTMLParser模块解析html获取url实例,HTMLParser是python用来解析html的模块,HTMLParser采用的是一种事件驱动的模式,需要的朋友可以参考下

htmlparser2.0_dll+htmlparserAPI: htmlparser2.0 htmlparser

Winista.Htmlparser.Net 解析Html 的.net类库: HtmlParser.Net是来源于Java的一个用来解析html的组件，主要用于改造或提取html。它能够高速解析html，是非常好的一个html解析和分析工具。这个是.Net版本包括源代码和帮助文档。版本：HTMLParser.Net - Community...

用htmlparser截取html摘要实现源码: 用htmlparser截取html摘要实现源码

htmlparser解析Html的jar包和源文件包（两个）: htmlparser是一款小而强大的解析Html 的第三方工具包，内含jar包和源文件包（两个）,htmlparser1.6.jar,htmlparser1.6_src.jar，非常有用的

htmlParser2.0.jar: html解析器, 可满足90%以上的需求,可以分析自定义的标签, 开源项目, 最近4年没有修改记录, 2011.04.24有人再次进行了提交. 最新的htmlParser

HtmlParser源码及demo: HtmlParser源码及demo

Global site tag (gtag.js) - Google Analytics