`
androidssh
  • 浏览: 112132 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

词性标注程序探讨

    博客分类:
  • java
阅读更多

        程序设计主要分为五个部分,即词频统计和词性符号统计、状态转移概率的计算、发射概率的计算、词性标注、性能评价。

词频统计包括训练样本中所有词(含词性)及其出现的频率的统计,用哈希表来存储,记为hash3。词性符号统计包括训练样本中每个词的词性符号及其出现的频率的统计,还包括训练样本中相邻每两个词的词性符号及其出现频率的统计,分别记为hash1hash2。最后用一个字符串数组统计出训练样本中所有不同的词性符号,在给出的训练样本中共有34个不同种类的词性,记为table_pos[]

状态转移概率,我采用的是两个for循环来计算的,即对table_pos[i]中每个词性,循环遍历table_pos[j],计算p(ji)的概率,这里p(ji)的值为hash2中含有j,i相邻的词性符号的值/hash1j所在词性符号的值。将状态转移概率的值存储在double型数组中,记为status[][]。为提升计算精度,在计算过程中,存储的值都是取对数后的值,便于后面词性标注的计算。

发射概率,同样是同两个for循环来实现的,首先将测试文本中的所有词存储在test[]数组中,对test[]中的每个词,计算该词在词性table_pos[j]下的概率。在hash3中分别查找该词和table_pos[j]同时出现的次数,再除以hash1j所在词性符号的值即可得到发射概率。将发射概率的值存储在double型数组observe[][]中。同样,存储的值都是取对数后的值。

词性标注,是采用Viterbi算法来实现的。这里用了三个for循环。对测试文本中的每一个词,遍历所有的词性,对每一个词性,计算该词性对应的最大概率并记录其位置,这里的最大概率为前一个词所对应的概率乘以到该词的转移概率及发射概率。将最大概率存储在double数组path[][]中,将单个词性所对应的最大概率的位置存储在int数组backpointer[][]中。最后在回溯遍历,即可找出概率最大的路径,将结果输出。

性能评价,采用和标准测试集相匹配的方式,统计标注正确的个数,再除以总标注的个数即可得到。

欢迎大家讨论留言!

分享到:
评论

相关推荐

    自然语言词性标注程序

    汉语的分词与词性标注程序,基于C++开发,可成功运行,其中的input文件是输入文件,output为输出,有一个自己编写的头文件和一个运行文件,语料库是人民日报语料库

    词性标注模型网站项目——Python Djang 搭建自动词性标注网站的实现

    本资源为本人文章《Python Djang 搭建自动词性标注网站(基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型)》的项目实现资源,下载后通过终端输入 ...

    北航人工作业(词性标注)

    词性标注程序 人工智能作业 多层隐马尔科夫链

    词性标注traindata.rar

    英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。...

    快速词性标注算法

    快速词性标注算法 - 基于变换的词性标注

    斯坦福大学英文词性标注工具

    斯坦福大学英文词性标注工具,可以进行英文产品评论的词性标注,非常好用

    论文研究-领域自适应的合成词词性标注研究.pdf

    在词性标注研究中,未登录的专业领域合成词给词性标注增加了很大的困难。提出了一种领域自适应的合成词词性标注方法,融合支持向量机(SVM)模型和基于转换学习(TBL)的方法来进行自动词性标注。对专业领域合成词的...

    基于隐马尔可夫模型的有监督词性标注

    本项目采用java实现了一个基于隐马尔可夫模型的中文句子词性标注系统,并附有详细的说明文档,对于想了解HMM和词性标注的人都会有很大帮助。

    隐马尔可夫模型和词性标注笔记

    隐马尔可夫模型和词性标注笔记,隐马尔可夫模型和词性标注笔记,

    英文词性标注语料库

    英文分词语料库,共有198796行,每个单词都有词性标注,对句话的结束都有句号,便于处理。覆盖大部分主流行业的语料。 例如: Newsweek/NNP ,/, trying/VBG to/TO keep/VB pace/NN with/IN rival/JJ Time/NNP ...

    PKUseg python包 词性标注

    postag.zip

    中文词性标注源码

    词性标注源码,我们的源码是用C++来实现的,主要是实现了隐马尔科夫模型和维特比算法。

    国标863词性标注集

    国标863词性标注集,ltp使用的词性标注集,有利于自然语言处理的分析。

    基于条件随机场_CRFs_的中文词性标注方法

    本文提出一种基于 CRFs 模型的中文词性标注方法。该方法利用 CRFs 模型能够添加任意特征的优点 ,在使用词的上下文信息的同时 ,针对兼类词和未登录词添加了新 ...

    论文研究-基于粗分和词性标注的中文分词方法.pdf

    在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,...

    分词和词性标注工具

    分词和词性标注工具分词和词性标注工具分词和词性标注工具分词和词性标注工具分词和词性标注工具

    nlp词性标注demo

    nlp词性标注pos tag的demo含训练集, 将英文句子的词性标注,并解释词性例如trying to keep pace with rival Time magazine 运行结果为 word: trying result: VBG explain: Verb, gerund or present participle 动名词...

    data.txt词性标注文本

    data.txt是词性分类文本,本文档包含16254个字与词语,(词性标注由国家语委现代汉语语料库 下载,默认为Excel,这里提取为txt)为深度学习中的词性标注提供便利。

    C# 中文分词 词性标注

    C# 中文分词 词性标注

    HMM模型+维特比算法实现分词词性标注.py

    HMM模型+维特比算法实现分词词性标注.py

Global site tag (gtag.js) - Google Analytics