基于boilerpipe抽取页面乱码问题解决方式 - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1216447 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

基于boilerpipe抽取页面乱码问题解决方式

博客分类：

DataMining

阅读更多

需求：

基于boilerpipe抽取页面的文本内容，基于url的openStream来获取页面的时候会碰到乱码，解决方式是基于jsoup来获取body的byte流

实现：

jar依赖：

<dependency>
	<groupId>com.syncthemall</groupId>
	<artifactId>boilerpipe</artifactId>
	<version>1.2.2</version>
</dependency>

抽取实现：

private String extractContent(String url) throws Exception {
	InputStream inputStream = new ByteArrayInputStream(getEmptyConnection(
			url).execute().bodyAsBytes());

	TextDocument doc = new BoilerpipeSAXInput(new InputSource(inputStream))
			.getTextDocument();

	BoilerpipeExtractor extractor = CommonExtractors.DEFAULT_EXTRACTOR;
	extractor.process(doc);
	return doc.getContent();
}

0
顶

0
踩

分享到：

ckplayer播放基于RTMP的流媒体 | fckeditor和ckeditor3.5.3在J2ee下的使用

2014-03-21 14:57
浏览 1668
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

正文提取工具boilerpipe: 过该工具即可得到想要的正文信息，例如提取各大门户网站的新闻，历史，娱乐等的正文信息。

新闻正文提取之boilerpipe: NULL 博文链接：https://snv.iteye.com/blog/1955405

网页正文提取工具boilerpipe1.2bin包: 输入一个url或者string型的网页源码，通过该工具即可得到想要的正文信息，例如提取各大门户网站的新闻，历史，娱乐等的正文信息。网页正文提取工具，这是目前销量最高，提取一个网页正文信息只需要毫秒级的时间消耗...

Python库 | boilerpipe-py3-1.2.0.0.tar.gz: python库。资源全名：boilerpipe-py3-1.2.0.0.tar.gz

python-boilerpipe:从 HTML 页面到 Boilerpipe、Boilerplate Removal 和 Fulltext Extraction 的 Python 接口: 的 python 包装器，一个优秀的 Java 库，用于从 HTML 页面中删除样板和全文提取。配置依赖项： jpype 夏代特在构建包时，将自动获取并包含锅炉管道 jar 文件。安装签出代码： git clone ...

boilerpipe-clj:Java Boilerpipe文本提取库周围的简单包装: Boilerpipe文本提取库周围的一个简单包装。伪像 boilerpipe-clj。最新发行使用Leiningen，将其添加到project.clj的依赖项： [io.curtis/boilerpipe-clj " 0.3.0 " ] 用法核心功能-boilerpipe-clj.core Clojure...

boilerpipe:从 HTML 页面中删除样板和全文提取: 该库已经为常见任务（例如：新闻文章提取）提供了特定策略，并且还可以针对个别问题设置轻松扩展。提取内容非常快（毫秒），只需要输入文档（不需要全局或站点级别的信息）并且通常非常准确。 Boilerpipe 是一个由...

boilerpipe-1.1.0.jar: java运行依赖jar包

boilerpipe.net: Boilerpipe.Net Boilerpipe.Net是样板库（库的端口。 Boilerpipe.Net库提供了一些算法，用于检测和删除网页主要文本内容周围的多余“杂物”（样板，模板）。该库已经为常见任务提供了特定的策略（例如，新闻...

cl-boilerpipe:从文章和博客文章中提取主要内容: CL-BOILERPIPE基于Java 库，而该库又基于Kohlschütter等人的。这里仅实现最简单的Boilerpipe算法版本。我发现它运作良好。用法给定一个HTML字符串，请调用： (cl-boilerpipe:strip-boilerpipe html) 这将...

Boilerpipe-Coffee:Boilerpipe html 内容提取器到 Coffeescript 的端口: 锅炉管-咖啡Boilerpipe html 内容提取器到 Coffeescript 的端口要求需要'htmlparser2' node.js 模块此外，该示例需要“fs”、“request”和“path”模块构建（合并为一个 javascript 文件）需要coffeescript-concat ...

JAVA源码文本-boilerpipe_source_code:文本提取源代码。技术文档。Java: JAVA原始码oilerpipe_source_code 文本提取源代码。技术文档。 Java

boilerpipe-api:从HTML页面提取主要文章文本: 该API将Java包装到HTTP API中，以从HTML页面提取原始文章文本。用法有两种使用API的方法。您可以传递url或原始html： curl -X POST ...

boilerpipe-ruby:针对在线文章调整的Boilerpipe内容提取算法的纯Ruby实现: 如果您使用的是Jruby，则此解决方案效果很好，但我希望在MRI上使用纯Ruby解决方案。打开Vim-开始编码... 这是系统工作方式的高级。 TLDR 只需使用ArticleExtractor，DefaultExtractor或KeepEverythingExtractor-...

boilerpipe-failed-fork:样板管 2.0: 此外，这从蚂蚁移动到 Maven。除了让它工作和设置 maven 之外，我在这里没有做太多工作。... 转向使用多个模块，这样我就可以有一个用于 nekohtml/xerces，另一个用于 jsoup 告诉Chrome人关于boilerpipe 2.0

boilerpipe:从 code.google.compboilerpipe 自动导出: 锅炉管从 code.google.com/p/boilerpipe 自动导出感谢作者。

高校网络沉迷与防沉迷系统的研究与实现: 摘要：基于教育网流量分析，提出游戏服务商 IP 地址发现机制，包括 Boilerpipe 正文抽取算法以及 Stanford Chinese NLP中文分词算法，通过流量分析技术发现与分析大学生网络沉迷现象的一般方法和计算框架。...

boilerpipe-server:用于解析文章内容的简单 serverbash 脚本: 使用优秀的boilerpipe项目从网页解析文章内容的简单服务器/bash脚本 ./compile_server.sh ./run_server.sh Server is listening on port 6666 # in other window curl " http://mobil.di.se/c.jsp;jsessionid=9A...

derquinse-common-jaxrs-gson-1.0.31.zip: boilerpipe.zip,Dropbox Java sdk的重新打包，修复了一些小错误并发布在Maven中央存储库上。Maven中央存储库上发布的BoilerPipe的重新打包。

SocialScore_IRE:构建了一个工具，可以在特定的时间范围内抓取Facebook和Twitter等流行的社交媒体，识别出最流行的人工制品，并根据流行度以及特定领域对它们进行排名: 使用的主要库：-> Python的Twitter API-> Scikit-learn链接： ://scikit-learn.org/stable/modules/classes.html#module-sklearn.cluster-> Boilerpipe并请求python库。请求库已预先安装。 Boilerpipe的链接： ://...

Global site tag (gtag.js) - Google Analytics