抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。
String content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#newwindow=1&q=restlet+java.net.socketexception+broken+pipe&safe=active"));
System.out.println(content);
本人试过各大新闻网站,和论坛网站。都没有问题滴将网页的内容中主要部分抽取出来。也可以将网页下载下来。使用如下方法处理本地文件,当然也可以处理HDFS文件。
FileReader reader =new FileReader(new File("test.html"));
String cont =ArticleExtractor.INSTANCE.getText(reader);
System.out.println(cont);
http://code.google.com/p/boilerpipe/
相关推荐
介绍一种基于TF-IDF的新闻网页关键词自动抽取方法。
摘要:随着互联网技术的发展,网页新闻的标题抽取已经成为了信息抽取和网络爬虫中不可避免的一个环节通过分析,发现目前已有的方法存在准确率和通用性无法共存的问题因此,
摘要:网页新闻正文自动抽取属于信息抽取领域中的重要研究问题,现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。为了改善这种现状,提出
自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响访问...
在第六届中国软件杯大赛分布式爬虫赛题中,实现了该算法,意图实现新闻、博客类网站正文的自动结构化。比赛提供的测试要求提取的正文一字不差,不能包含多余的不属于正文的内容,也不能少了正文内容。《基于行块分布...
自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响访问...
自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响访问...
自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响...
自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响访问...
对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。
新闻网页数目不少于5万页,新闻信息能在一天之内更新。 支持关键词检索及通配符检索。 能按相关度、时间、热度(需要自己定义)等属性对检索结果进行排序。 具备查询自动补齐、相关搜索推荐、snippet生成等功能。 每条...
自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响访问速度...
对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动...
爬虫定向采集3-4个网页,实现网页信息的抽取、检索和索引。网页个数不少于10个,能按时间、相关度、热度等属性进行排序,并实现相似主题的自动聚类。可以实现:有相关搜索推荐、snippet生成、结果预览(鼠标移到相关...
基于最大文本块的网页正文提取方法,适用于新闻、博客,自动适应网页编码,修改了第一版的bug
其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...
其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...
采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线… 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,...
3.35 文本框显示网页中选中的内容 3.36 文字的垂直滚动 3.37 文字幻灯片 3.38 随机动态文字效果 3.39 实现textarea的自动滚动 3.40 使用marquee实现文字上下滚动 3.41 类似安装效果的textarea滚动 3.42 始终显示在最...
·点击它,即可从当前页面及其相关网页中,抽取出下属文章、大图及文章段落,去除广告、垃圾信息后组合成杂志式分页版面,供你轻松阅读。·本功能不仅适用于各类图文并茂的文章,也适用于这些文章的列表页。例如,你...