Ontology-Based Semantic Search Tool For Atmospheric Science
基于本体的大气科学语义搜索工具
(Rahul Ramachandran, Sunil Movva, Sara Graves and Steve Tanner)
(
University of Alabama in Huntsville)
(Sunnybill推荐介绍,文章版权归作者所有,引用请注明出处)
(Origin:
http://ams.confex.com/ams/pdfpapers/102272.pdf)
1.简介
Web是一个巨大的资源库,有各种网页、数据文件、元数据目录、出版物等等。按照收集元数据方式的不同,搜索工具大致分为两类:一种是Google、Alta Vista和Lycos等这类使用网络蜘蛛的工具。网络蜘蛛在网上爬行,收集网页的元数据,并对网页进行评估。这种评估是基于词频的。在标题、副标题、元数据标签中出现的词给于较高的权重。这种方法能够保证含有查询词汇的网页资源的查全率,对文档查询很有效,但对科学数据查询却不太合适。
另一种方法是通过构建规范统元数据(形式化的元数据)的方式实现跨学科数据的查询。形式化的元数据带有标准规范,提供通用术语集,以及所提供数据值的定义和信息。这类规范包括都柏林中心原创标准(Dublin Core Initiative)、国际标准组织(ISO)标准、联邦地理数据委员会(FGDC, Federal Geographic Data Committee)等等。政府部门如美国地质调查局(USGS, U.S Geological Survey)、美国航空航天局(NASA, National Aeronautics and Space Administration)的存档地理数据规定使用FGDC规范。除了目录满足存储需要的规范之外,还需要关键词表(控制词汇表)来组成这些目录。这类词汇表有气候与森林元数据约定(CFMC,Climate and Forest(CF) Medadata Convention),以及全球变化总目录(GCMD, Global Change Master Directory)等。对这些目录的查询结果十分准确。
衡量查询工具有两个指标:查全率和查准率。理想的查询工具是只查询人们真正想找的东西。上述两种方法都不能满足这样的要求。Web搜索工具简单易用,但返回的信息太多;基于目录的查询更准确,但太复查而且不全面。为了有效查询资源目录,用户必须熟悉规范词表,非专业人士(比如学生)很难构造正确的查询来获取理想的结果。
这里介绍一款基于本体的语义气象科学查询工具——Noesis,可以有效解决这个问题。Noesis不单单是语义搜索引擎,而且能够通过比较资源的相关信息聚合资源,是一个资源聚合器。随后的章节将介绍Noesis的结构和功能。
2.本体与语义网络
亚里斯多德说,本体是关于存在的科学。从机器学习(Machine Learning)人工智能(AI, Artificial Intelligent)和智能系统(Intelligent System)角度,"本体是共享概念的形式化的明确的定义"(Gruber,1993)。所以,一个本体系统必须包含概念及其使用约束的明确定义。它必须是形式化的,以便机器理解;必须是共享的,以保证对知识理解的一致性。本体有两个独特的组件:它们包含某一领域重要概念的名称。例如,生物学本体,“大象”是其中的一个概念,其成员是一种“动物”;“食草动物”也是其中概念,其成员是所有草食性和食草性的动物。同样的,“成年象”也是其中的一个概念,它的成员是年龄大于20年的大象。除了概念的定义,本体还确定了知识背景和领域约束。因此,生物学本体应该含有“成年象”至少重2000公斤、所有的“大象”可以是“非洲象”或是“印度象”、没有成员既是“食草动物”又是“食肉动物”等等这样的关系和约束。所以,本体是领域概念及其相互关系的定义。
本体在实现语义网络中扮演十分重要的角色(Berners-Lee等,2001)。语义网络意味着机器不仅呈现数据,而且能够理解数据。网页中的概念周围带有XML标记,机器通过检查被标签中命名空间引用的本体内容来识别其含义。这样就使得机器能够在没有人工干预定额情况下更好地进行搜索。这种况下进行的搜索可以极大地减少错误命中,提高搜索命中率。
3. Noesis工具组件
Noesis 工具的系统结构见图1。工具中有三个组件,分别描述如下:
图1: Noesis系统结构
3.1 LEAD本体
Noesis工具应用的本体是作为“大气发现关联环境”(LEAD, Linked Environment for Atmospheric Discovery)项目的一部分(Droegemeter等,2004;Droegemeter等,2005a; 2005b)被开发的。LEAD本体是基于SWEET(基于语义网络的地球和环境术语,Semantic Web for Earth and Environment Terminology)本体(Raskin and Pan, 2005)开发的(参见
http://hi.baidu.com/sunnybill/blog/item/c9ca19f7afebf121730eecc2.html)。SWEET本体是通过软件对Web资源的语义理解发现和使用地学数据的。SWEET包含一些列以OWL形式表示的本体(Bechhofer等,2004),既包含正交概念(空间、时间、地球领域、物理量等),又集成了一些科学知识感念(如现象、事件等)。SWEET是基于NASA的全球变化总目录(GCMD)构建的,GCMD包含大约1000个限定地学词汇,以分类形式表示。SWEET被设计成高级本体,允许创建地球科学的各个领域的具体本体补充SWEET概念。LEAD本体主要关注大气科学的相关概念。通过使用美洲气象协会(Amercian Meteorology Society)术语表中的概念,并定义它们之间的关系,将美洲气象协会术语表映射到SWEET本体。所以,LEAD本体将是大气科学领域的专门本体,是对SWEET本体中定义的概念的扩展。
构建LEAD本体有两点原因:首先,它可以作为教学和研究的知识库,LEAD将不仅仅是静态的术语表,它还包含大气现象、参数、数据、服务以及高层概念的定义和它们之间的关系。LEAD本体的最终目标是创建一个连接这些高级概念的顶层本体。有了这个本体,搜索“中气旋(Mesocyclone)”这个概念就能够发现这个现象有一个“旋涡状态(Vorticity)”物理量定义,数据挖掘服务就能够应用这个字段来扩展“中气旋(Mesocyclone)”。
第二个原因是LEAD本体支持语义搜索。本体的应用可以使Noesis这样的工具扩展对元数据目录和其他Web资源的搜索能力,而不仅仅是基于关键字的搜索。
3.2 本体推理服务
本体推理服务(OIS, Ontology Inference Severce)是推理引擎的一个SOAP协议Web服务接口。构建在Apache Axis的SOAP引擎之上。后台所用的推理引擎是Pellet(Grau等,2004)。Pellet是一个基于tableaux算法的OWL描述逻辑推理机。推理机与LEAD本体一起预装,能够对本体进行T-BOX和A-BOX查询。T-BOX查询处理概念的细泛化关系和同义关系;A-BOX查询查找符合条件的概念的实例,并能基于属性过滤。所有发到OIS的请求都被翻译成一个或多个查询给推理机。本体推理服务(OIS)描述逻辑推理接口(DIG, Discription Logic Resoner Interface)与推理机交互。DIG接口是以HTTP接口方式访问描述逻辑推理机的标准。查询的结果通过该接口返回给OIS。OIS允许使用标准Web服务协议与其他系统(如LEAD数据库子系统查询服务)松散地连接集成。在Noesis中,OIS主要与智能搜索代理通讯。
3.3 智能搜索代理(Smart Search Broker)
智能搜索代理主要负责管理和协调来自客户端、OIS和其他分布式资源的用户请求。如果用户选择查询的词汇,智能代理就用这个词汇列表在不同的分布式资源上进行查询。这些资源可以使Google,元数据目录,包括LEAD资源目录、SURA滨海观测项目(SCOOP)目录以及地球系统教育数字图书馆(DLESE, Digital Library for Earth System Education)目录这类教育资源等,也可以是其它资源。
4. Noesis应用实例
这里列出两个Noesis工具的用户使用实例。
4.1 细化搜索实例
Noesis可以浏览本体中的概念体系。浏览时,用户可以本体中任意移动。如果用户不知道某个物理参数的准确名称,他可以提供高层的概念来查找。用户就可以从一般化概念开始,找到理想的专门主题的信息。例如,用于输入查询词“压力(Pressure)”,Noesis工具就可以通过本体找到“静水压Hydrostatic Pressure”、“总压力Total Pressure”等术语词汇,并把这些结果返回给用户选择。Noesis工具就可以根据用户选择的词汇列表,在分布式资源上(包括Google, DLESE等)查找,并把查询结果进行聚合,返回给用户。该实例参见图2a。
4.2 同义搜索实例
Noesis工具好可以搜索同义术语。例如,在元数据目录资源中查询“Precipitation(降水)”,就找不到目录中的“Rainfall(降水)”字段中的值。Noesis工具可以利用本体可以解决这个问题。在返回细泛化概念的同时,系统也给用户返回同义概念供用户选择。系统可以根据用户的选择在分布式资源上查询,并将结果进行聚合,返回该用户。
5. 小结及进一步的工作
本文所述Noesis工具代表了下一代利用领域本体技术的专业搜索和资源聚合工具。领域本体可以帮助用户和机器提高查询结果的查全率和查准率。Noesis工具在地学搜索和教学中也可以发挥重要作用。它不仅利用本体提示用户修正查询词汇,还可以查询对用户有用的不同资源。这些资源完全可以包括网页、相关教育资源、数据库、相关出版物等等。最初Noesis工具使用的LEAD本体是有限的,随着LEAD本体的不断进化,新的LEAD将会用于Noesis工具。目前的Noesis工具只能搜索Web网页(通过Google)以及DLESE目录中的教育资源。将LEAD于其他目录资源连接允许用户查找相关数据库的工作正在进行。
尽管目前版本的Noesis主要关注大气科学,工具本身可以应用于不同的领域,只需要配置不同的领域本体,搜索不同的分布式资源。
6. 致谢
LEAD项目得到了国家科学基金(National Science Foundation)资助,协议号为:ATM-0331594, ATM-0331591, ATM-0331574, ATM-0331480, ATM-0331579, ATM03-31586, ATM-0331587, and ATM-0331578。
7. 参考文献
[1] Bechhofer, S., F. v. Harmelen, J. Hendler, I. Horrocks, D.L. McGuinness, P. F. Patel-Schneider, and L. A.Stein, 2004: OWL Web Ontology Language Reference.
[2] Berners-Lee, T., J. Hendler, and O. Lassila, 2001: The Semantic Web. Scientific American, 284, 34-43.
[3] Droegemeier, K., V. Chandrasekar, R. Clark, D. Gannon, S. Graves, E. Joseph, M. Ramamurthy, R.Wilhelmson, K. Brewster, B. Domenico, T. Leyton, V. Morris, D. Murray, B. Plale,R. Ramachandran, D.Reed, J. Rushing, D. Weber, A. Wilson, M. Xue, and S. Yalda, 2004: Linked Environment for Atmospheric Discovery (LEAD): A Cyberinfrastructure for Mesocyclone Meteorology Research and Education. Interactive Information and Processing Systems (IIPS), Seattle, WA, American Meteorological Society.
[4] Droegemeier, K., V. Chandrasekar, R. D. Clark, D. Gannon, S. Graves, E. Joseph, M. K. Ramamurthy, B. Wilhelmson, K. Brewster, B. Domenico, T. Leyton, D. V. R. Morris, D. R. Murray, B. Plale, R. Ramachandran, D. Reed, J. Rushing, D. Weber, A. Wilson, M. Xue, and S. Yalda, 2005a: Linked Environments for Atmospheric Discovery (LEAD): Architecture, Technology Road Map and Deployment Strategy. Joint Session on Cyberinfrastructure to support atmospheric and Oceanic Education: Examples and strategies, AMS Annual Meeting, San Diego CA.
[5] Droegemeier, K. K., D. Gannon, D. Reed, B. Plale, J. Alameda, T. Baltzer, K. Brewster, R. Clark, B. Domenico, S. Graves, E. Joseph, V. Morris, D. Murray, R. Ramachandran, M. Ramamurthy, L. Ramakrishnan, J. Rushing, D. Weber, R. Wilhelmson, A. Wilson, M. Xue, and S. Yalda, 2005b: Service-Oriented Environments in Research and Education for Dynamically Interacting with Mesoscale Weather. IEEE Computing in Science & Engineering, 7, 24-32.
[6] Grau, B. C., B. Parsia, and E. Sirin, 2004: Tableau Algorithms for E-Connections of Description Logics.
[7] Gruber, T. R., 1993: A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition,, 5, 199-220.
[8] Raskin, R. G. and M. J. Pan, 2005: Knowledge representation in the semantic web for Earth and environmental terminology (SWEET). Computers & Geosciences, 31, 1119-1125.
图2b: Noesis使用实例
图2c: Noesis使用实例
图2d: Noesis使用实例
图2e: Noesis使用实例
后记:
本文译稿未经效审,发现错误请反馈到留言中,谢谢!
相关推荐
Metal Gear Solid 3 Noesis插件 这是的插件,允许用户查看游戏《合金装备3:噬蛇者》中的带纹理的3D模型和动画。 我要感谢向我展示了如何读取游戏中的人脸索引。 该项目使用Victor Suba的PS2 GS布局混乱代码,这要...
Dialog System Technology Challenges 8(DSTC 8)-Track 2NOESIS II:在面向任务的对话中预测响应,确定成功并管理复杂性介绍在成功完成 (NOESIS:Noetic端对端响应选择挑战)的基础上,我们建议扩展任务,并纳入...
一组有用的实用函数。 资源 () 执照 。 Copyright (c) 2014-2015, Daniel Kempkens Permission to use, copy, modify, and/or distribute this software for any purpose with or without fee is hereby ...
但丁地狱工具 3dmax脚本 noesis_v4.2中文版 Rick解包器
可以直观看到贴图和模型的软件,配合NJ使用。可以将rip模型导出fbx,再将fbx导入blender进行后续处理。
Noesis.Javascript.dll的基础依赖资源,测试可以支持Noesis.Javascript.dll在xp/win7/win10运行
我目前正在从事的一个小型项目旨在帮助使Skate 3(RPCS3-PS3)中的修改贴图更加用户友好。 特别提及 只是想对为这个项目做出贡献的人们表示特别的感谢。 用于初始手动教程! ,帮助处理十六进制文件 创建的批处理...
该解决方案每天都会自动通过网站访问,这些网站使组织可以公开列出新机会,并将这些机会汇总到一个简单而流畅的列表中,以供所有希望申请的人使用。职位上次更新时间:2021年3月21日,星期日 ItJobs阿威罗质量保证...
Its a Plug in nxps Nothing else so say
未能加载文件或程序集"Noesis.Javascript.DLL"或它的某一个依赖项。找不到指定的模块。-附件资源
.NET google v8 引擎 ,代码中直接执行js,返回结果;
要点必须包含一个名为Main.xaml的文件。 它还可以包含额外的资源,如图像、字体和词典。 这些额外资源被引用为与Main.xaml相同的目录。 例如: <Button FontFamily="./#Aero Matics" FontSize="24" Background...
利用Noesis.Javascript开源组件可以做到在.net中执行js脚本,同时js脚本也能调用C#函数。这个组件的获得方式:在NuGet中输入搜索"Noesis"就能找到,我们来做个搜索功能:用户能够在textbox中输入js脚本来筛选list记录
imac-tower-defense:使用实体组件系统制作的OpenGl 4.4游戏
鼻息
Express标准API Node Express REST API的标准样板 :gear_selector: 依存关系语言 :Pacakges:数据库:效用 : :rocket: 开发安装mv .env.manual .envnpm installbash migrate.shnpm run dev :rocket: 生产安装...
解决了什么问题到目前为止,Sitecore并没有提供关于这种现象的可视化显示,该模块距离没有外部网站跟踪工具的支持还很近,而且一切都集中在一个地方。影片连结⟹提供一段视频,使您的Hackathon模块提交内容高亮,并...