Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense:
1. (39) print,
publish -- (put into print; "The newspaper published the news of the royal
couple's divorce"; "These news should not be printed")
2. (14) publish,
bring out, put out, issue, release -- (prepare and issue for public
distribution or sale; "publish a magazine or newspaper")
3. (4) publish,
write -- (have (one's written work) issued for publication; "How many
books did Georges Simenon write?"; "She published 25 books during her
long career")
在第一个sense中,print和publish都是lemma。Sense 1括号内的数字39表示publish以sense 1在某外部语料中出现的次数。显然,publish大多数时候以sense 1出现,很少以sense 3出现。
WordNet的具体用法
NLTK是python的一个自然语言处理工具,其中提供了访问wordnet各种功能的函数。下面简单列举一些常用功能:
得到wordnet本身:
from nltk.corpus
import wordnet
获得一个词的所有sense,包括词语的各种变形的sense:
wordnet.synsets('published')
[Synset('print.v.01'),
Synset('publish.v.02'),
Synset('publish.v.03'),
Synset('published.a.01'),
Synset('promulgated.s.01')]
得到synset的词性:
>>>
related.pos
's'
得到一个sense的所有lemma:
>>>
wordnet.synsets('publish')[0].lemmas
[Lemma('print.v.01.print'), Lemma('print.v.01.publish')]
得到Lemma出现的次数:
>>> wordnet.synsets('publish')[0].lemmas[1].count()
39
在wordnet中,名词和动词被组织成了完整的层次式分类体系,因此可以通过计算两个sense在分类树中的距离,这个距离反应了它们的语义相似度:
>>> x =
wordnet.synsets('recommended')[-1]
>>> y =
wordnet.synsets('suggested')[-1]
>>> x.shortest_path_distance(y)
0
形容词和副词的相似度计算方法:
形容词和副词没有被组织成分类体系,所以不能用path_distance。
>>> a =
wordnet.synsets('beautiful')[0]
>>> b =
wordnet.synsets('good')[0]
>>>
a.shortest_path_distance(b)
-1
形容词和副词最有用的关系是similar to。
>>> a =
wordnet.synsets('glorious')[0]
>>>
a.similar_tos()
[Synset('incandescent.s.02'),
Synset('divine.s.06'),
……]
分享到:
相关推荐
介绍了wordnet的基本结构以及运行原理
利用wordnet计算相似度,还有源码及相关配置介绍
对WordNet进行较为详细的介绍,只是文章使用英文写的,读起来有些麻烦,权当联系英文了。
是根据WordNet词网所建立的,在用户输入关键词后可以进行选择词网树的根部级别和底部级别,然后系统会根据用户的输入,再依托大量的算法,在数据库中生成该关键词的词网二叉树结构,最后以树状图的形式显示到网页中...
LX WordNet浏览器基于Web的浏览器,可访问任何单个词网和一个多中心的全球词网介绍LX WordNet浏览器是一个词网Web浏览器,允许查阅遵循普林斯顿词网格式的任何词网的内容。 该浏览器的设计具有实现多中心全球词网这...
介绍 它是关于什么的? 这个命令行应用程序可以很容易地将文本文档集合转换为基于 WordNet 的同义词树表示。 安装 该工具应该全局安装,以便可以通过命令wordnetify从终端中的任何目录调用它。 npm install ...
ShapeNet包含来自多种语义类别的3D模型,并按照WordNet分类法组织它们。它是一组数据集,为每个3D模型提供许多语义标注,如一致的刚性对准、零件和双边对称平面、物理尺寸、关键字以及其他计划的标注。注释通过基于...
本文介绍了YAGO,一个具有高覆盖率和精度的大型本体。 YAGO 是从 Wikipedia 和 WordNet 自动派生的。 它由实体和关系组成,目前包含超过 170 万个实体和 1500 万个事实。 这些包括分类学 Is-A 层次结构以及实体之间...
目录结构及文件介绍feature extraction for weka versionDictionary1)主要包含了两个公共情感词库:hownet和wordnet2)由PMI-IR计算共现次数,得到的hownetPMI值和wordnetPMI3)合并两个PMI文件,得到情感词的...
nltk.download("wordnet") nltk.download("averaged_perceptron_tagger") nltk.download("punkt") nltk.download("maxnet_treebank_pos_tagger") ``` 取消注释后运行一次即可,语料库下载完成即可正常运行 windows...
Sematch专注于特定的基于知识的语义相似性度量标准,该度量标准依赖于分类学中的结构知识(例如深度,路径长度,最小公有使用者)和统计信息内容(语料库-IC和图形-IC)。 基于知识的方法不同于依赖共生(例如,点...
从英文文本中,它能提取出主动宾元组,形容词、名词和动词短语,人名、地名、事件,日期和时间,等语义信息。 BLLIP Parser:集成了产生成分分析和最大熵排序的统计自然语言工具。 Quepy:轻松地实现不同类型的自然...
音响设备常用连接头及音视频线材的制作方法 一套可使用的音响设备无论是专业系统还是非专业的民用音响设备除了设备...一根完整的线材是由接插头和线组成的。下面对常用插头、线材及连接线的制作进行一下简单的介绍。
语⾔类和项⽬类的知识图谱介绍 4. 应⽤类知识图谱的介绍 知识图谱的⽣命周期 1. 知识图谱的知识体系构建:抽取⽹页内容后,得到实体和实体关系,实体识别和消除歧义,关系抽取和事件抽取 2. 知识图谱的知识获取和...
介绍 该存储库在PyTorch中实现了 。 @inproceedings{lee2018hierarchical, title={Hierarchical Novelty Detection for Visual Object Recognition}, author={Lee, Kibok and Lee, Kimin and Min, Kyle and Zhang...
我们提供的功能可通过Google Cloud和WordNet为单词-图像关联创建数据集,并演示各种与图像和单词相关的分析。 我们介绍了诸如Colorgrams之类的结构作为分析工具,以及为图像创建颜色表示矢量的能力,以及为图像的...
2.Word2vec介绍(学习词汇向量模型(2013年提出)) (当然还有别的方法进行词汇表征(后续会提到)) 3.Word2vec目标函数的梯度推导 4.目标函数优化:梯度下降法 一、词义 定义:meaning:(Webster dictionary)用...
支持文本和音频输入 文字数据扩充示例 声学数据增强示例 部分 描述 如何使用这个库 介绍所有可用的增强方法 如何安装此库 最新增强 更多现实生活中的例子或研究 引用外部资源(例如数据或模型) 快速演示 如何训练...
查看任何语言的单词到任何语言的翻译 使用方法1)安装此扩展程序后,请重新...-此扩展程序还使用了WordNet(http://wordnet.princeton.edu/)的英语词形化异常字典</saffsd></tb></saffsd></kamholz> 支持语言:English
SharpNLP是C#实现的一个开源的自然语言处理工具集,它提供了如下功能: * 句子分割 * 分词 * 词性标注(POS tagging) * a chunker (used to "find non-recursive syntactic annotations such as noun phrase ...