现今网络上出现了越来越多应用,他们的数据不是由他们自己提供的,而是通过获取别的网页中的新闻,评论,产品的信息等等来构造自己独特的应用,例如垂直搜索引擎和comparative shopping站点。这些应用往往需要准确的从大量的网站中抽取出自己感兴趣的信息。
那么如何精确,快速的获取别的网站中页面上的信息就成为了构造这些应用中关键的一环。为了解决这个问题,我们采用的方法是:标注训练网页,由训练网页生成wrapper文件,再由wrapper文件指导抽取程序自动的抽取出页面中的信息。这样就将用户的工作减轻为只需要在一个网页中标注出自己感兴趣的内容,后续的wrapper生成和抽取工作都由程序可以自动的完成。而且标注的工作往往可以使用一个图形化的标注界面,用户只需要使用鼠标在页面中划出感兴趣的内容即可。
出于速度,精确度和用户所需要标注的网页的数量的考虑,我们采用是一种基于网页token sequence wrapper描述语言,采用这种wrapper描述语言的好处是抽取结果比较精确,在抽取阶段的程序运行速度较快。但是这种wrapper往往需要大量的训练网页才能有足够的泛化能力以保证较高的召回率,所以后来我们开发出一个新的自动标注的模块,通过将已标注的训练网页中的标签自动的扩展到未标注的网页,以使wrapper自动的学习到更多的抽取规则。这样就可以大大的减少标注的开销。
通过观察大量的主流站点的实际抽取结果,对于绝大多数的站点,Mask只需要标注一个训练网页就可以生成高质量的wrapper。由于Mask系统训练生成wrapper和在线抽取是两个各自独立的模块,Mask系统在抽取阶段可以高速的抽取网页中的信息。最后之所以称Mask系统是一个“通用”的抽取工具是因为,它抽取的内容不局限于某个类别,比如像某些领域相关的抽取工具往往只能进行新闻的抽取,对于一些元信息,如作者,时间的抽取就无能为力了。
(吴博 wubo@software.ict.ac.cn)
分享到:
相关推荐
网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具
cocoNLP - 中文信息抽取工具包
数据抽取工具,可以实现多种数据库之间的数据复制 ; 默认管理员密码:1233211234567
主要记录了ETL中数据抽取的一些工具,并对工具进行了一部分的对比
1.本工具为抽取ttf文件部分字体转存到新文件中 2.很多工具都是使用main方法调用, 此资源通过代码调用抽取想要抽取的文字 3.提供源码地址;以及示例;
通用抽取引擎框架_一种新的Web信息抽取方法的研究
Fresoar Data Migration 2.0 软件产品介绍 Fresoar Data Migration 2.0 (简称FDM 2.0)软件产品作为ETL工具,提供了一套高效、稳定的数据迁移解决方案,我们不只提供软件产品,更重要的我们还提供细致周到的数据迁移...
基于Excel的随机信息抽取工具 基于Excel的随机信息抽取工具
ttf字体抽取工具
对于oracle数据库,如果因为软件或者系统问题导致的实例不能启动,在没有其他办法的情况下,如果数据文件没有损坏,可使用此工具从数据文件中直接抽取数据。 工具名为ParnassusData,使用有限制需注册使用。
随机抽取工具使用Java实现,从excel文件中导入学生数据,输入要随机抽取的学生数,即可随机抽取需要的学生数
NULL 博文链接:https://springluo.iteye.com/blog/1483134
中文实体抽取,能够解决中问文章实体抽取任务
数据库抽取工具,数据库间的数据的转移。不会修改表结构。
在用于ETL工具进行数据抽取的郭晨各种更通长会出现一个初始化方法在单元测试时可以完美运行单一旦加载到服务器上的时候就会出现异常,一般情况下就是少少这个jar包。
Java开发环境抽取增量补丁包
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
光盘数据抽取工具
网页抽取工具 Krabber