上一个深度学习系列介绍了如何检测出图片或视频中的物体,本深度学习系列将介绍如何从文章中提取出我们关注的实体,比如提取文章中出现的人名、地址、产品、时间等实体。本文做为该系列的第一篇文章,会先呈现一下命名实体识别的效果,然后给大家介绍几个概念。
识别效果
如上图所示,请求体中是要提取实体的句子,也可以是短文,接口返回的就是句子中识别出来的各种实体。
要实现以上的效果,还得先从了解以下内容开始。
什么是命名实体识别?
从一句话中识别出人名,地名,组织名,日期时间,这就是命名实体识别的一个例子,而人名,地名等这些被识别的目标就是命名实体。当然命名实体还可以是很多其它有意义的目标,比如产品,公司,专有名词等等。
什么是文本数据标注?
了解过机器学习的朋友都知道,无论是传统的机器学习还是深度学习,大多数情况都是在做监督学习,也就是需要大量标注好的数据做为训练样本,那么这里,如果希望机器能识别出人名,地名,就必须事先给机器看看在一句话中,什么是人名,什么是地名,当然只看一句话是远远不够的,一般来说,至少也要上千句话才可以。这些句子都是需要人工来标注的,而标注出这些句子中的命名实体的过程,称为"文本数据标注"。
怎么做文本数据标注?
数据标注,最粗暴的方式,就是直接在word、txt等文档里标注,比如像下面这样:
此次{{location:中国}}个展,{{person_name:苏珊}}将与她80多岁高龄的父亲一起合作,哼唱一首古老的{{location:威尔士}}民歌{{product_name:《白蜡林》}}。届时在{{location:画廊大厅}}中将安放6个音箱进行播放,艺术家还特意回到家乡{{location:格拉斯哥}},同父亲一起在{{org_name:中国音乐学院}}里为作品录制了具有{{location:中国}}元素的音乐片段。
但是这样做有以下弊端:
因此,已经有很多大牛们研发了许多协助标注文本的工具,其中一个笔者觉得比较好用的工具——brat,将在下一篇文章《用深度学习做命名实体识别(二):文本标注工具brat》中介绍。
ok,本篇就这么多内容啦~,感谢阅读O(∩_∩)O,88~
分享到:
相关推荐
基于深度学习的命名实体识别算法.pdf
Python系列:NLP系列二:命名实体识别(NER)、用深度学习实现命名实体识别(NER)
基于深度学习医疗文本命名实体识别研究.pdf
基于深度学习的医疗命名实体识别.pdf
基于深度学习的古汉语命名实体识别研究.pdf
基于深度学习的法院命名实体识别模型.pdf
基于深度学习的电子病历医疗命名实体识别.pdf
基于深度学习的命名实体识别研究综述.pdf
基于深度主动学习的信息安全领域命名实体识别研究.pdf
人工智能-项目实践-命名实体识别-一个中文的实体命名识别系统 当前版本基于双向循环神经网络(BiRNN) + 条件随机场(CRF)来完成实体的标注。 基本思路是利用深度神经网络提取特征,从而避免了手动提取特征的麻烦...
基于深度学习的维吾尔语命名实体识别模型.pdf
该文档是基于tensorflow深度学习的中文命名实体识别,经过测试,可以使用,且效果很好。当前版本基于双向循环神经网络(BiRNN) + 条件随机场(CRF)来完成实体的标注。 基本思路是利用深度神经网络提取特征,从而...
人工智能-项目实践-实体识别-基于tensorflow深度学习的中文的命名实体识别 一个中文的实体命名识别系统 当前版本基于双向循环神经网络(BiRNN) + 条件随机场(CRF)来完成实体的标注。 基本思路是利用深度神经...
基于深度学习的中文命名实体识别研究,介绍了几种识别方法
基于tensorflow深度学习的中文的命名实体识别项目源码(高分项目).zip该项目是个人大作业项目源码,评审分达到95分以上,都经过严格调试,确保可以运行!放心下载使用。 基于tensorflow深度学习的中文的命名实体...
基于深度学习的电子病历命名实体识别及其在知识发现中的应用.pdf
近年来,基于连续实值向量表示和通过非线性处理的语义组合的深度学习被应用到NER系统中,产生了最先进的性能。在这篇论文中,我们对现有的深度学习技术进行了全面的回顾。
面向工艺操作说明文本的命名实体深度学习识别方法.pdf
nlp命名实体识别Named Entity Recognition NER demo 1.制作word和tag的dic,dic的id是0开始的int,出现频率高的排在前面 2.将每一句话转成2个80维的向量(即最长80个字),第一个是出现句子的 word 的id(train_x),第二个...
基于注意力机制和深度学习模型的外来海洋生物命名实体识别.pdf