新闻正文提取之boilerpipe - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1216850 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

新闻正文提取之boilerpipe

博客分类：

Spider

阅读更多

概述：

Boilerpipe即我们需要的正文提取工具，其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息，包括多种提取方式具体的参见：CommonExtractors

环境：

jdk1.6

boilerpipe-1.2.0

提取新闻正文demo代码如下：

public static void main(String[] args) throws Exception {
	String url = "http://finance.people.com.cn/n/2013/1011/c66323-23157265.html";
	TextDocument doc = new BoilerpipeSAXInput(new InputSource(new URL(url).openStream()))
			.getTextDocument();
	BoilerpipeExtractor extractor = CommonExtractors.ARTICLE_EXTRACTOR;
	extractor.process(doc);
	System.out.println("title:" + doc.getTitle());
	System.out.println("content:" + doc.getContent());

}

依赖的lib参见附件

lib.rar (1.2 MB)
下载次数: 91

boilerpipe-1.2.0-bin.tar.gz (1.9 MB)
下载次数: 94

0
顶

2
踩

分享到：

基于NekoHTML和dom4j获取所有html的Xpath | 新闻正文提取之joyhtml

2013-10-11 17:14
浏览 5268
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

正文提取工具boilerpipe: 过该工具即可得到想要的正文信息，例如提取各大门户网站的新闻，历史，娱乐等的正文信息。

网页正文提取工具boilerpipe1.2bin包: 输入一个url或者string型的网页源码，通过该工具即可得到想要的正文信息，例如提取各大门户网站的新闻，历史，娱乐等的正文信息。网页正文提取工具，这是目前销量最高，提取一个网页正文信息只需要毫秒级的时间消耗...

boilerpipe-clj:Java Boilerpipe文本提取库周围的简单包装: Boilerpipe文本提取库周围的一个简单包装。伪像 boilerpipe-clj。最新发行使用Leiningen，将其添加到project.clj的依赖项： [io.curtis/boilerpipe-clj " 0.3.0 " ] 用法核心功能-boilerpipe-clj.core Clojure...

boilerpipe:从 HTML 页面中删除样板和全文提取: 该库已经为常见任务（例如：新闻文章提取）提供了特定策略，并且还可以针对个别问题设置轻松扩展。提取内容非常快（毫秒），只需要输入文档（不需要全局或站点级别的信息）并且通常非常准确。 Boilerpipe 是一个由...

Python库 | boilerpipe-py3-1.2.0.0.tar.gz: python库。资源全名：boilerpipe-py3-1.2.0.0.tar.gz

cl-boilerpipe:从文章和博客文章中提取主要内容: CL-BOILERPIPE是Common Lisp库，用于从报纸文章和博客文章等网页中提取主要内容。它设计用于扩展提要中的截短的文章。 CL-BOILERPIPE基于Java 库，而该库又基于Kohlschütter等人的。这里仅实现最简单的...

Boilerpipe-Coffee:Boilerpipe html 内容提取器到 Coffeescript 的端口: 锅炉管-咖啡Boilerpipe html 内容提取器到 Coffeescript 的端口要求需要'htmlparser2' node.js 模块此外，该示例需要“fs”、“request”和“path”模块构建（合并为一个 javascript 文件）需要coffeescript-concat ...

python-boilerpipe:从 HTML 页面到 Boilerpipe、Boilerplate Removal 和 Fulltext Extraction 的 Python 接口: 的 python 包装器，一个优秀的 Java 库，用于从 HTML 页面中删除样板和全文提取。配置依赖项： jpype 夏代特在构建包时，将自动获取并包含锅炉管道 jar 文件。安装签出代码： git clone ...

boilerpipe.net: 该库已经为常见任务提供了特定的策略（例如，新闻文章提取），并且还可以针对单个问题设置轻松进行扩展。提取内容的速度非常快（毫秒），只需要输入文档（不需要全局或站点级别的信息），并且通常非常准确。安装...

JAVA源码文本-boilerpipe_source_code:文本提取源代码。技术文档。Java: JAVA原始码oilerpipe_source_code 文本提取源代码。技术文档。 Java

boilerpipe-ruby:针对在线文章调整的Boilerpipe内容提取算法的纯Ruby实现: 这是一个由Christian Kohlshutter首次编写的文本提取实用程序- 我直接去了原始作者的github ，在这里分叉了该代码库。我看到其他宝石通过利用样板，但由于超出托管计划，该api会根据一天的时间而关闭。我还检查...

boilerpipe-1.1.0.jar: java运行依赖jar包

boilerpipe-api:从HTML页面提取主要文章文本: 该API将Java包装到HTTP API中，以从HTML页面提取原始文章文本。用法有两种使用API的方法。您可以传递url或原始html： curl -X POST ...

boilerpipe-failed-fork:样板管 2.0: 处理支持使用 JSoup 而不是 xerces 等的样板版本，并且还支持提取 HTML 而不仅仅是文本。... 转向使用多个模块，这样我就可以有一个用于 nekohtml/xerces，另一个用于 jsoup 告诉Chrome人关于boilerpipe 2.0

Sentiment:从网络文章中提取文本以进行情感分析: 根据1返回的URL从文章中提取正文（特别是使用样板）；将文本传递到用于情感分析的自然语言处理工具（特别是使用Stanford NLP）。该演示是用Eclipse Mars版本4.5 JavaSE-1.8 依存关系： boilerpipe-1.2.0 (with ...

boilerpipe:从 code.google.compboilerpipe 自动导出: 锅炉管从 code.google.com/p/boilerpipe 自动导出感谢作者。

boilerpipe-server:用于解析文章内容的简单 serverbash 脚本: 使用优秀的boilerpipe项目从网页解析文章内容的简单服务器/bash脚本 ./compile_server.sh ./run_server.sh Server is listening on port 6666 # in other window curl " http://mobil.di.se/c.jsp;jsessionid=9A...

SocialScore_IRE:构建了一个工具，可以在特定的时间范围内抓取Facebook和Twitter等流行的社交媒体，识别出最流行的人工制品，并根据流行度以及特定领域对它们进行排名: 我提取了9个用户的Twitter数据（使用Twitter API），共计14000条推文，并将它们转储到tweet_dictionary.json中。（使用Twitter / Twitter.py）然后，从tweet_dictionary.json转储文件中提取URL及其对应的分数和...

Mapnews:地图上的今日新闻: 每天，世界各地都在发生事情，但我很少关心确切的地点。这就是为什么，几年前，我首先创建了这个... 第一个版本包含大约 2500 行使用 Rome RSS、Boilerpipe、Stanford NLP、Google Geolocation Services 和 Lucene Tex

Global site tag (gtag.js) - Google Analytics