`
touchinsert
  • 浏览: 1290893 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

通用抽取工具Mask介绍

 
阅读更多

现今网络上出现了越来越多应用,他们的数据不是由他们自己提供的,而是通过获取别的网页中的新闻,评论,产品的信息等等来构造自己独特的应用,例如垂直搜索引擎和comparative shopping站点。这些应用往往需要准确的从大量的网站中抽取出自己感兴趣的信息。

那么如何精确,快速的获取别的网站中页面上的信息就成为了构造这些应用中关键的一环。为了解决这个问题,我们采用的方法是:标注训练网页,由训练网页生成wrapper文件,再由wrapper文件指导抽取程序自动的抽取出页面中的信息。这样就将用户的工作减轻为只需要在一个网页中标注出自己感兴趣的内容,后续的wrapper生成和抽取工作都由程序可以自动的完成。而且标注的工作往往可以使用一个图形化的标注界面,用户只需要使用鼠标在页面中划出感兴趣的内容即可。

出于速度,精确度和用户所需要标注的网页的数量的考虑,我们采用是一种基于网页token sequence wrapper描述语言,采用这种wrapper描述语言的好处是抽取结果比较精确,在抽取阶段的程序运行速度较快。但是这种wrapper往往需要大量的训练网页才能有足够的泛化能力以保证较高的召回率,所以后来我们开发出一个新的自动标注的模块,通过将已标注的训练网页中的标签自动的扩展到未标注的网页,以使wrapper自动的学习到更多的抽取规则。这样就可以大大的减少标注的开销。

通过观察大量的主流站点的实际抽取结果,对于绝大多数的站点,Mask只需要标注一个训练网页就可以生成高质量的wrapper。由于Mask系统训练生成wrapper和在线抽取是两个各自独立的模块,Mask系统在抽取阶段可以高速的抽取网页中的信息。最后之所以称Mask系统是一个“通用”的抽取工具是因为,它抽取的内容不局限于某个类别,比如像某些领域相关的抽取工具往往只能进行新闻的抽取,对于一些元信息,如作者,时间的抽取就无能为力了。

(吴博 wubo@software.ict.ac.cn)

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics