需求:
基于boilerpipe抽取页面的文本内容,基于url的openStream来获取页面的时候会碰到乱码,解决方式是基于jsoup来获取body的byte流
实现:
jar依赖:
<dependency> <groupId>com.syncthemall</groupId> <artifactId>boilerpipe</artifactId> <version>1.2.2</version> </dependency>
抽取实现:
private String extractContent(String url) throws Exception { InputStream inputStream = new ByteArrayInputStream(getEmptyConnection( url).execute().bodyAsBytes()); TextDocument doc = new BoilerpipeSAXInput(new InputSource(inputStream)) .getTextDocument(); BoilerpipeExtractor extractor = CommonExtractors.DEFAULT_EXTRACTOR; extractor.process(doc); return doc.getContent(); }
相关推荐
过该工具即可得到想要的正文信息,例如提取各大门户网站的新闻,历史,娱乐等的正文信息。
NULL 博文链接:https://snv.iteye.com/blog/1955405
输入一个url或者string型的网页源码,通过该工具即可得到想要的正文信息,例如提取各大门户网站的新闻,历史,娱乐等的正文信息。网页正文提取工具,这是目前销量最高,提取一个网页正文信息只需要毫秒级的时间消耗...
python库。 资源全名:boilerpipe-py3-1.2.0.0.tar.gz
的 python 包装器,一个优秀的 Java 库,用于从 HTML 页面中删除样板和全文提取。 配置 依赖项: jpype 夏代特 在构建包时,将自动获取并包含锅炉管道 jar 文件。 安装 签出代码: git clone ...
Boilerpipe文本提取库周围的一个简单包装。 伪像 boilerpipe-clj。 最新发行 使用Leiningen,将其添加到project.clj的依赖项: [io.curtis/boilerpipe-clj " 0.3.0 " ] 用法 核心功能-boilerpipe-clj.core Clojure...
该库已经为常见任务(例如:新闻文章提取)提供了特定策略,并且还可以针对个别问题设置轻松扩展。 提取内容非常快(毫秒),只需要输入文档(不需要全局或站点级别的信息)并且通常非常准确。 Boilerpipe 是一个由...
java运行依赖jar包
Boilerpipe.Net Boilerpipe.Net是样板库( 库的端口。 Boilerpipe.Net库提供了一些算法,用于检测和删除网页主要文本内容周围的多余“杂物”(样板,模板)。 该库已经为常见任务提供了特定的策略(例如,新闻...
CL-BOILERPIPE基于Java 库,而该库又基于Kohlschütter等人的 。 这里仅实现最简单的Boilerpipe算法版本。 我发现它运作良好。 用法 给定一个HTML字符串,请调用: (cl-boilerpipe:strip-boilerpipe html) 这将...
锅炉管-咖啡Boilerpipe html 内容提取器到 Coffeescript 的端口要求需要'htmlparser2' node.js 模块此外,该示例需要“fs”、“request”和“path”模块构建(合并为一个 javascript 文件)需要coffeescript-concat ...
JAVA原始码oilerpipe_source_code 文本提取源代码。 技术文档。 Java
该API将Java包装到HTTP API中,以从HTML页面提取原始文章文本。 用法 有两种使用API的方法。 您可以传递url或原始html: curl -X POST ...
如果您使用的是Jruby,则此解决方案效果很好,但我希望在MRI上使用纯Ruby解决方案。 打开Vim-开始编码... 这是系统工作方式的高级。 TLDR 只需使用ArticleExtractor,DefaultExtractor或KeepEverythingExtractor-...
此外,这从蚂蚁移动到 Maven。 除了让它工作和设置 maven 之外,我在这里没有做太多工作。... 转向使用多个模块,这样我就可以有一个用于 nekohtml/xerces,另一个用于 jsoup 告诉Chrome人关于boilerpipe 2.0
锅炉管 从 code.google.com/p/boilerpipe 自动导出 感谢作者 。
摘 要:基于教育网流量分析,提出游戏服务商 IP 地址发现机制,包括 Boilerpipe 正文抽取算法以及 Stanford Chinese NLP中文分词算法,通过流量分析技术发现与分析大学生网络沉迷现象的一般方法和计算框架。...
使用优秀的boilerpipe项目从网页解析文章内容的简单服务器/bash脚本 ./compile_server.sh ./run_server.sh Server is listening on port 6666 # in other window curl " http://mobil.di.se/c.jsp;jsessionid=9A...
boilerpipe.zip,Dropbox Java sdk的重新打包,修复了一些小错误并发布在Maven中央存储库上。Maven中央存储库上发布的BoilerPipe的重新打包。
使用的主要库:-> Python的Twitter API-> Scikit-learn链接: ://scikit-learn.org/stable/modules/classes.html#module-sklearn.cluster-> Boilerpipe并请求python库。 请求库已预先安装。 Boilerpipe的链接: ://...