基于模式发现的信息抽取(1)

fuliang

浏览: 1638430 次
性别:
来自: 北京

最近访客更多访客>>

依然任逍遥

stephenworld

lli

samwalt

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Data/Web Mining

设计模式数据挖掘搜索引擎 Web 数据结构

IEPAD:基于模式发现的信息抽取

IEPAD: Information Extraction Based on Pattern Discovery

Chia-Hui Chang Shao-Chen Lui

摘要

信息抽取技术的通常是研究通过生成Wrapper从半结构化的Web文档中提取一定的信息。类似于编译器的生成，抽取器是一个驱动程序，伴随这个它有一些抽取规则。以前的这个领域的工作目标是通过人工训练的样例来学习抽取规则。这篇论文中我们的IEPAD系统通过重复pattern的挖掘和多序列对齐技术可以自动的识别记录的边界。重复pattern的识别是通过PAT树这种数据结构来实现的。此外，通过pattern对齐所有的记录实例来进一步扩展重复patterns。这种方法无需人工参，无启发式的内容依赖性。实验结果表明构建的抽取规则可以从14个流行的搜索引擎中完成97%的抽取。

关键字

信息抽取，抽取规则，PAT树，多字符串对齐

引言

当前的Web站点以不同的主题不同的格式来呈现信息。需要用户花费很大的力气从Web页面中去定位和抽取有用的数据。因此，从多个数据源中集成信息来构建增值的服务是很有必要的。例如，定制从robots/crawlers搜集的web信息，比价商品代理，元搜索引擎，newsbots等。为了方便开发信息集成系统，我们需要很好的工具去搜集和提取信息。假如网页已经从不同的Web站点中收集起来，传统的方法基于对网页格式的了解来写一些程序，也就是”Wrappers”或者”Extractors”去抽取网页的数据，换一句话说，就是需要我们人工去观察抽取规则，然后再对每一个Web站点写程序。然而，编写wrapper需要人工的编码和额外的调试，是一个体力活，并且Web页面是经常变化的，维护wrapper是成本非常高并且不切实际。幸运的是很多研究者已经构建出了可以自动生成Wrapper的工具，例如，WEIN[11],Softmealy[7],Stalker[13]是比较有名的3个工具。和编译器的Scanner/ Parser生成器类似，用户给出语法规则，得到状态转换表（状态机）提供给Scanner/Parser驱动程序，Wrapper构建系统是Wrapper的设计者从训练的样例中提取抽取规则。这几个系统共同的思想是使用机器学习技术来总结抽取规则，不同的是抽取架构的不同。例如，WIEN的一次pass的的LR结构，Stalker的多次pass的层次结构，尽管如此，设计者开始需要手工去标注，然后利用这些训练样例来生成规则。手工的标注一般来说是耗时和低效的。

最近，一些研究者正在发明一些新的方法来自动构建Wrapper，这是一种不需要人工标注训练样例的方式。例如，Embley et al.描述了一种启发式的方式从web页面中发现记录边界的方发，他使用了5条独立启发式和基于启发式的组合选取的一致的分割的tag。然而，一个严重的问题是，如果这个tag在记录中出现而不是作为分割，那么one-tag分割的方式就会有问题。

另一方面，我们想通过pattern的挖掘来消除人工的干预。我们通过观察Web页面的一些有用的信息通常是放在一个结构中，这个结构是对齐和有序的。特别是搜索引擎的搜索结果页面是规则和重复结构的。挖掘重复结构，可以挖掘出Wrapper中的抽取规则。

本文将要介绍IEPAD，一个应用模式发现技术的信息抽取系统，在第2部分，我们将要描述系统的一个总体设计，包括pattern视图，规则生成和抽取模块。

第3部分，我们描述了规则生成的细节，紧接着是第4部分的抽取器。最后我们在第5部分展示实验结果，第6部门作出结论。

0
顶

0
踩

分享到：

Simple JSON for Java | memcached全面剖析–5. memcached的应用和 ...

2009-12-03 23:37
浏览 2656
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论