`
yy8354
  • 浏览: 79150 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

专业词的抽取之通用度

阅读更多

词语的通用度

所谓词语的通用度,是指词语在语言应用的各个领域里常用性的综合指标。0通用度兼顾到词语的分布率和频率两个方面,并且把两者有机地结合起来了。通用度概念中所说的“领域”,既可以指“空间”,也可以指“时间”,它既可指一个词在共时的语言应用中各领域里的通用程度,也可指一个词在历时的各个时期里的语言应用中的通用程度。现在我们假设把抽样统计的全部语料分成k组,每组语料的数量大致相等。某一个词在12......k组的出现次数分别为n1n2...nk,那么这个词的通用度定义为:


术语实际上就是某个学科领域所使用的“词语”,词语的通用度计算方法在某个独特的学科领域可以用作术语的通用度计算。术语通用度兼顾到术语的分布率和频率两个方面,并且把两者有机地结合起来,正好可以满足我们在选择术语时需综合考虑术语使用的“频率”、“范围”两方面的要求。

 

上述文字公式引用《教育技术学科术语标准的制定:通用度计算的视角》作者:魏顺平

对于专业词的抽取,通用度越高的,说明在某领域内的代表性越差,通过大量分类语料的考察之后,可以对某领域语料内的词汇做通用度排序,即可根据一定阀值得到比较靠谱的专业词汇。

当然如果有一个较少量的专业词库,根据互信息和通用度综合考虑结果应该更令人满意。


  

 

  • 大小: 3.6 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics