词语的通用度
所谓词语的通用度,是指词语在语言应用的各个领域里常用性的综合指标。0通用度兼顾到词语的分布率和频率两个方面,并且把两者有机地结合起来了。通用度概念中所说的“领域”,既可以指“空间”,也可以指“时间”,它既可指一个词在共时的语言应用中各领域里的通用程度,也可指一个词在历时的各个时期里的语言应用中的通用程度。现在我们假设把抽样统计的全部语料分成k组,每组语料的数量大致相等。某一个词在1,2,......,k组的出现次数分别为n1,n2,...,nk,那么这个词的通用度定义为:
术语实际上就是某个学科领域所使用的“词语”,词语的通用度计算方法在某个独特的学科领域可以用作术语的通用度计算。术语通用度兼顾到术语的分布率和频率两个方面,并且把两者有机地结合起来,正好可以满足我们在选择术语时需综合考虑术语使用的“频率”、“范围”两方面的要求。
上述文字公式引用《教育技术学科术语标准的制定:通用度计算的视角》作者:魏顺平
对于专业词的抽取,通用度越高的,说明在某领域内的代表性越差,通过大量分类语料的考察之后,可以对某领域语料内的词汇做通用度排序,即可根据一定阀值得到比较靠谱的专业词汇。
当然如果有一个较少量的专业词库,根据互信息和通用度综合考虑结果应该更令人满意。
- 大小: 3.6 KB
分享到:
相关推荐
提出了一种事件触发词抽取方法,该方法针对单一触发词抽取方法没有充分利用依存句法分析信息且召回率不高的问题,通过综合利用依存句法分析信息和其他信息抽取触发词—实体描述对的方法来提高触发词抽取的召回率,...
基于python实现中文事件触发词抽取-命名实体识别项目源码.zip 代码完整下载可用,确保可以运行。 基于python实现中文事件触发词抽取-命名实体识别项目源码.zip 代码完整下载可用,确保可以运行。基于python实现...
针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本...
采用背景词汇聚类及主题词联想的方式将主题词 扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速 Gibbs 抽样算法进行。实验结果表明,快速 Gibbs 算法的速度约比 传统 Gibbs 算法高 5 倍,准确率和...
基于深度学习的中文网络招聘文本中的技能词抽取方法.pdf
中文招聘文档中专业技能词抽取的跨域迁移学习.docx
模型先进行触发词提取,由于数据集的特殊性,模型限制抽取的事件仅有一个,如果抽取出多个触发词,选择 logits 最大的 trigger 作为该句子的触发词,如果没有抽取触发词,筛选整个句子的 logits,取 argmax 来获取...
通用抽取引擎框架_一种新的Web信息抽取方法的研究
运用正则表达式能够精确的抽取某一固定格式的页面,但面对形形色色的HTML,运用规则处置难免捉襟见肘...能不能高效、精确的将一个页面的正文抽取出来,并做到在大范围网页范围内通用,这是一个直接关系上层应用的难题。
主题词抽取可以进行文章的主题词抽取python语言
提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,...
根据个人在数据仓库中的实际经验,设计开发出的通用的ETL抽取加载软件,具有较高的性能与易用性。
收集NLP领域相关的数据集、论文、开源实现,尤其是情感分析、情绪原因识别、评价对象和评价词抽取等.zip 收集NLP领域相关的数据集、论文、开源实现,尤其是情感分析、情绪原因识别、评价对象和评价词抽取等.zip 收集...
然后依据位置标签集计算词条在句子中的相邻度判定组合词;最后制定反规则对抽取结果进行过滤,并对垃圾串进行两端逐步消减再判定进一步识别组合词。通过在不同语料库上进行实验,结果表明本方法具有更高的准确率。
使用kettle实现的通用全量抽取,需要抽取的表配置到文本文件中。数据库连接需要自己情况重新配置调整,考虑到通用性,表结构创建需要自己提前在目标数据库中创建
标题中核心词抽取上传5个高质量的源码或编程资料才能开通您
皮带机掐接、更换、抽取皮带通用安全技术措施.doc
基于机器学习的网页主题词自动抽取.pdf
评论上的情感分析:主题与情感词抽取 附完整代码(基于 tensorflow word2vec lstm 等算法进行主题与情感词抽取) 针对评论网站上的用户评论进行细粒度的情感分析,区别于传统的粗粒度的情感分类(判断一句话的表达...
摘要:中文事件触发词抽取是一项具有挑战性的任务.针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文