自动抽取新闻网页中的主要内容 - soledede - ITeye博客

`

wbj0110

浏览: 1556351 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang5： web实时推送技术使用越来越广泛，但是自己开发又太麻烦了，我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用
秦时明月黑：
Jetty 服务器架构分析
chenghaitao111111：楼主什么时候把gecko源码分析一下呢，期待
MetaQ技术内幕——源码分析(转)
qqggcc：为什么还要写代码啊，如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote)
yongdi2：好厉害！求打包代码
Hadoop日志文件分析系统

自动抽取新闻网页中的主要内容

博客分类：

自然语言处理

自然语言处理

阅读更多

抽取网页中的主要内容，是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。
String content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#newwindow=1&q=restlet+java.net.socketexception+broken+pipe&safe=active"));
System.out.println(content);

本人试过各大新闻网站，和论坛网站。都没有问题滴将网页的内容中主要部分抽取出来。也可以将网页下载下来。使用如下方法处理本地文件，当然也可以处理HDFS文件。

                  FileReader reader =new FileReader(new File("test.html"));
               String cont =ArticleExtractor.INSTANCE.getText(reader);
               System.out.println(cont);

http://code.google.com/p/boilerpipe/

分享到：

Mahout | Mahout 算法

2014-05-17 10:45
浏览 780
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

中文网页关键词抽取: 介绍一种基于TF-IDF的新闻网页关键词自动抽取方法。

一种基于文本相似度的网页新闻标题自动抽取算法_何春辉1: 摘要：随着互联网技术的发展，网页新闻的标题抽取已经成为了信息抽取和网络爬虫中不可避免的一个环节通过分析，发现目前已有的方法存在准确率和通用性无法共存的问题因此，

改进的中文静态网页新闻正文自动抽取算法_何春辉1: 摘要:网页新闻正文自动抽取属于信息抽取领域中的重要研究问题，现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。为了改善这种现状，提出

美加新闻聚合系统（经典版）: 自动抽取新闻：无需分析来源的网页编写特点，支持自动分析来源网页，自动抽取新闻正文。自动翻译：全自动将外文翻译成中文，从而实现与原文不同，具有原创性。自动后台更新：全自动后台刷新信息源，不影响访问...

基于行块分布函数的通用网页正文抽取算法优化，Python实现+源代码+文档说明: 在第六届中国软件杯大赛分布式爬虫赛题中，实现了该算法，意图实现新闻、博客类网站正文的自动结构化。比赛提供的测试要求提取的正文一字不差，不能包含多余的不属于正文的内容，也不能少了正文内容。《基于行块分布...

美加新闻聚合系统3.0: 自动抽取新闻：无需分析来源的网页编写特点，支持自动分析来源网页，自动抽取新闻正文。自动翻译：全自动将外文翻译成中文，从而实现与原文不同，具有原创性。自动后台更新：全自动后台刷新信息源，不影响访问...

美加PHP新闻聚合系统 v4.0 长尾词SEO版.rar: 自动抽取新闻：无需分析来源的网页编写特点，支持自动分析来源网页，自动抽取新闻正文。自动翻译：全自动将外文翻译成中文，从而实现与原文不同，具有原创性。自动后台更新：全自动后台刷新信息源，不影响访问...

美加新闻聚合系统源码(经典兼容版) v3.6.rar: 　自动抽取新闻：无需分析来源的网页编写特点，支持自动分析来源网页，自动抽取新闻正文。　自动翻译：全自动将外文翻译成中文，从而实现与原文不同，具有原创性。　自动后台更新：全自动后台刷新信息源，不影响...

美加新闻聚合系统(长尾词SEO版) v4.0.zip: 自动抽取新闻：无需分析来源的网页编写特点，支持自动分析来源网页，自动抽取新闻正文。自动翻译：全自动将外文翻译成中文，从而实现与原文不同，具有原创性。自动后台更新：全自动后台刷新信息源，不影响访问...

基于DOM树及行文本统计去噪的网页文本抽取技术: 对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。

人工智能-项目实践-信息检索-UCAS 信息检索导论大作业-新闻检索系统: 新闻网页数目不少于5万页，新闻信息能在一天之内更新。支持关键词检索及通配符检索。能按相关度、时间、热度(需要自己定义)等属性对检索结果进行排序。具备查询自动补齐、相关搜索推荐、snippet生成等功能。每条...

美加新闻聚合系统EliteRssPortal v2.0程序: 自动抽取新闻：无需分析来源的网页编写特点，支持自动分析来源网页，自动抽取新闻正文。自动翻译：全自动将外文翻译成中文，从而实现与原文不同，具有原创性。自动后台更新：全自动后台刷新信息源，不影响访问速度...

基于DOM树及行文本统计去噪的网页文本抽取技术 (2012年): 对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验，结果表明本文提出的方法具有较高的抽取准确率，并具有很好的通用性和实现简单的特点，适用于针对互联网中不同网站新闻文本信息的自动...

新闻检索爬虫 .zip: 爬虫定向采集3-4个网页，实现网页信息的抽取、检索和索引。网页个数不少于10个，能按时间、相关度、热度等属性进行排序，并实现相似主题的自动聚类。可以实现：有相关搜索推荐、snippet生成、结果预览(鼠标移到相关...

万金油正文抽取器体验版: 基于最大文本块的网页正文提取方法，适用于新闻、博客，自动适应网页编码，修改了第一版的bug

经济责任审计知识图谱：网络爬虫、关系抽取、领域词汇判定.zip: 其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始...

电商文本评论数据挖掘（爬虫 + 观点抽取 + 句子级和观点级情感分析）.zip: 其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始...

GuozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架.zip: 采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线… 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，...

《程序天下：JavaScript实例自学手册》光盘源码: 3.35 文本框显示网页中选中的内容 3.36 文字的垂直滚动 3.37 文字幻灯片 3.38 随机动态文字效果 3.39 实现textarea的自动滚动 3.40 使用marquee实现文字上下滚动 3.41 类似安装效果的textarea滚动 3.42 始终显示在最...

杂志式阅读·晒网-crx插件: ·点击它，即可从当前页面及其相关网页中，抽取出下属文章、大图及文章段落，去除广告、垃圾信息后组合成杂志式分页版面，供你轻松阅读。·本功能不仅适用于各类图文并茂的文章，也适用于这些文章的列表页。例如，你...

Global site tag (gtag.js) - Google Analytics