`

正文提取

 
阅读更多
目前互联网上公布出来的正文提取算法,大家可以综合比较下,一起来测试下哪个更好用。 词网--北京词网科技有限公司http://demo.cikuu.com/cgi-bin/cgi-contex猎兔网页正文提取http://www.lietu.com/extract/PHP版网页正文提取http://www.woniu.us/get_content_demo/网页正文提取分析(DEMO)http://61.128.196.27/txt个人认为http://61.128.196.27/txt这个提取最牛,基本上无论什么页面都能提取出来,而且能有效的保持原文风格、图片、链接。

http://code.google.com/p/joyhtml/
看看这个效果不错
http://www.likeshow.net/article.asp?id=92
我一年前写的玩意 虽然不完善 但尚可用之在新闻和BLOG 论坛提取上 提取的正文对于BLOG和BBS包含评论及回复 具体原理也写很清楚了
如题,想从html源码中提取正文内容,<P></P>之间的内容,但是<P>的写法不规则。除了正则表达式的方法,还有其它的提取方法吗?谢谢!
最新下载
在线演示和最新下载:
http://www.shoula.net/ParseContent

http://www.pudn.com/downloads152/sourcecode/internet/search_engine/detail668443.html




Google Code开源网页正文提取cx-extractor2010-05-19 12:31基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关
简述:
对于Web信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。
作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现不足百行代码。但量不在多,在法。
项目网址:http://code.google.com/p/cx-extractor/
算法描述:基于行块分布函数的网页正文抽取算法.pdf
欢迎大家提出意见~


http://www.ngiv.cn/post/204.html
VIPS算法对搜索引擎的意义
http://blog.csdn.net/tingya/archive/2006/02/18/601954.aspx

基于视觉的Web页面分页算法VIPS的实现源代码下载
http://blog.csdn.net/tingya/archive/2006/04/28/694651.aspx
作者信息:飞跃,javascript教程-技术之家博客的博主

http://www.madcn.net/?p=791

我这里有个开源的项目,还不错,你上googlecode搜索joyhtml。
http://gfnpad.blogspot.com/2009/11/blog-post.html
下面几个是一些开源的程序:
1.一个python的基于文本密度的程序:
http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
ps:里面有bug,要稍加改动。 另外,对于没有对html注释部分进行处理
2.Java 开源项目: Gate
http://gate.ac.uk/

其实可以利用Dhmtl对象进行编程分析,已获得所要的数据文件,详细请看我的程序
http://www.vbgood.com/thread-94788-1-1.html
http://download.csdn.net/source/568439

一.标题块
l 分块节点:td,div,h,span
l 一般位于Head/Title的位置
l 当前单元含有<h1>-<h3>,<b>,<i>,<strong>等标签
l 样式,一般class包含title,head等字符
l 文字长度,一般大于3个字符,小于35个字符

二.发表时间块
l 分块节点:td,div, span
l 文字长度,一般小于50个字符
l 包含日期格式(2010-08-09)的字符串
l 包含以下关键字:来源,发表

三.主题块
l 分块节点:td,div
l HTML网页中有一些特殊标签,通常只出现在网页主题块中,如<P><BR>等。因此,主题块中往往包含着特殊标签。
l 主题块内容含有较多的句子,因此具有较多逗号、句号等标点符号(>5)。
l 若从信息量角度考虑,主题块一般是含有较多文字信息。
l 主题块的 标签密度=1000*标签数/文字数 应在小于一个范围。
l 主题块的 文本密度=len(文本)/len(HTML代码) 较大
l 不应该包含 “上一篇”,“下一篇”
l 包含以下字符串的内容块,判定为包含版权信息,需减权:“ICP备04000001号”,“版权所有”,“Copyright”
l 主题块序号在标题块之下
l 主题块序号在发表时间块之下
l 主题块序号在相关链接块之上

四.相关链接块
l 分块节点:td,div
l 文字应为“相关链接”、“相关新闻”、“相关报道”等敏感词,且连接比例很高。
l 链接数小于20

实现:
根据以上信息块特征,采用特征提权算法,C#(3.5)编程实现,命名为QD正文提取组件。经测试,对Html格式规范的以文字为主的内容页,正确提取率在85%以上,各大门户的新闻页面在95%以上。 例子下载(需要安装Microsoft .NET Framework 3.5)

注:QD正文提取组件 不开源,需要源码的朋友可选择付费获取。

这时挑选出的正文一般也就是到位了,但是问题是很可能在头尾残留了一些块广告。我认为这些块广告与正文中广告有很大的不同。这些广告的马脚就是其父节点,它们的父节点要么也包含了正文所在区域,也就是和正文平级,要么本身就是正文所在区域的一个子节点,很难是正文节点本身的。那么对疑似正文节点进行一次扫描,剔除那些父节点文字内容过大(包含了广告以及正文,即和正文平级)的块,也剔除那些父节点文字内容过小的块。
经过这样的处理,得到的内容基本上就是我们需要的正文了。下面就是要提取标题。
在代表整个网页的document中扫描一次,寻找那些有font字体的,strong的,h1的,title的节点,提取他们的信息。然后将得到的文字内容分词,查验分出来的词有多少是被正文包含的,包含最多的一半就是标题。但是这里要注意,有时候找到的节点本身是正文节点的子节点,那么无论怎么分,分出来都是完全包含的,所以要剔除那些本身是正文一部分的疑似标题。这样做对大部分网页也是有效了,但是对仅有的标题就在正文节点里的那些页面,目前为止我还没有特别好的想法。
这些日子也研究了一些别人的论文,有很多思想都非常好,也有很多人想到用马尔科夫,人工神经来训练。也许以后我会考虑用用看吧。现在这样也还可以,呵呵。
?
这个算法我也写了一下,不过是用C++写的。
我不太懂楼上讨论的分页是什么意思,我通过分析dom树然后用文中提到的规则进行dom结点处理以及后续的处理。
我主要是想把网页中的内容按网页框架分开,把正文部分合在一起,然后用贝叶斯决策计算正文特征支持率
提取网页内容。
现在VIPS基本写完。
但是却也发现了些问题,
比如说有些结点的坐标提取出来会有提取不出分隔条,这是因为有少数坐标有些重叠。这里涉及到一个坐标的确定问题。
然后是结点分割规则问题,现在的页面是大部分是通过DIV来组织页面。而VIPS似乎更合适TABLE组织的页面,我试过用TABLE组织的页面,分得相当不错。
另外,TINYA上面的翻译似乎改了些规则,还有部分翻译不是很准确。比如虚拟文本的定义部分与原文有些出入,不知道TINYA有没有注意到。
最后,很感谢TINYA 对这个算法的介绍。
另外,有对这个算法感兴趣的朋友希望能大家一起讨论下
我的QQ:24888086
msn:trues541206@hotmail.com

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx
http://www.hackhome.com/InfoView/Article_119867.html
分享到:
评论

相关推荐

    Html网页正文提取 Html2Article.zip

    正文提取采用了基于文本密度的提取算法,支持从压缩的Html文档中提取正文,每个页面平均提取时间为30ms,正确率到95%以上。... 标签无关,提取正文不依赖标签。 ... 标签:网页提取 网页正文提取

    易语言正文提取算法,成功率90%.rar

    易语言正文提取算法 通过一个url 即可提取到正文 正文中必须有“。”才可以提取到 因为其中的原理会对“。”进行判断 比如列表中没有逗号,就不会提取 只会提取正文。

    论文研究-基于HttpClient与HTMLParser的网页正文提取 .pdf

    基于HttpClient与HTMLParser的网页正文提取,陈智彬,崔鸿雁,随着互联网的高速发展,针对互联网的分析处理显得日益重要。本文研究了HttpClient、HTMLParser等技术,提出并实现了一种基于HttpClient与HTM

    Python语言版基于通用论坛的正文提取

    此代码来源于本人参加数据挖掘比赛中C题通用论坛代码提取,对正文提取具有一定通用性,可借鉴参考用于算法的进一步优化。

    基于文本及符号密度的网页正文提取方法.7z

    【转发】【引用】【论文】大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,...比,可以体现该算法的精确度,同时该算法可以较好的支持大数据量网页正文提取操作。

    一个动态新闻网页正文提取的例子菜鸟级

    一个动态新闻网页正文提取,帖子提取。针对的是水木清华的news板块。

    采用长短期记忆网络的深度学习方法进行网页正文提取.pdf

    采用长短期记忆网络的深度学习方法进行网页正文提取.pdf

    基于文本及符号密度的网页正文提取方法

    通过与现有的一些算法对比,可以体现该算法的精确度,同时该算法可以较好的支持大数据量网页正文提取操作。 文本密度;算法;噪音;正文提取; DOI: 10.14022/j.cnki.dzsjgc.2019.08.029 专辑: 信息科技 专题: 计算机...

    基于DOM-TREE网页正文提取方法

    利用DOM-TREE模型对网页进行表示 对原始网页进行修正缺省标签的补充等 利用网页正文提取方法对网页进行正文提取,去除网页中的噪声信息,提取出网页中的正文、相关超链接

    通用论坛正文提取

    基于文本密度和EDA算法动态提取论坛内容的算法。提取内容包括帖子标题。时间。正文。回帖内容,。回帖时间。

    基于视觉特征的网页正文提取方法研究

    基于视觉特征的网页正文提取方法研究

    论文研究-基于FFT的网页正文提取算法研究与实现.pdf

    提出了通信网攻击效果评估的安全性能指标的选择、度量和评估的方法,利用OPNET构建了仿真模型,最后以接通率为例,对仿真结果进行了分析,得到了一些有意义的结论。

    金油条网页正文提取器

    该DEMO文件是基于文本距离去噪,精度默认是20,用于网站的新闻,文章等的正文提取,特别结合蜘蛛用处广泛。由于是一个算法demo,所以没有做过大的功能扩展,编码大部分可以自动识别。 最新版本和在线演示。详见: ...

    网页正文提取工具 v1.0

    网页正文提取工具是一款强大的网页提取软件,该软件通过对比分析搜狐、新浪、腾讯、网易、中国新闻网、百度、21cn网、中华网等大型门户网站,详细的分析其噪音数据的特点,然后根据超文本协议的结构特点,可以非常...

    金油条网页正文提取器1.0

    该DEMO文件是基于文本距离去噪,精度默认是20,用于网站的新闻,文章等的正文提取,特别结合蜘蛛用处广泛。由于是一个算法demo,所以没有做过大的功能扩展,编码大部分可以自动识别。 最新版本和在线演示。详见: ...

    网页正文提取器

    网页正文提取器, 提取网页上的不能复制和粘贴的文 字

    易语言源码易语言网页正文提取算法源码.rar

    易语言源码易语言网页正文提取算法源码.rar 易语言源码易语言网页正文提取算法源码.rar 易语言源码易语言网页正文提取算法源码.rar 易语言源码易语言网页正文提取算法源码.rar 易语言源码易语言网页正文提取算法...

    WebCollector爬虫、网页正文提取

    WebCollector爬虫、网页正文提取

    论文研究-基于结构相似网页聚类的正文提取算法研究.pdf

    针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各“块”对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的...

Global site tag (gtag.js) - Google Analytics