`
davidxiaozhi
  • 浏览: 236670 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

自然语言处理--从规则到统计

阅读更多

      目前各大互联网公司都如火如荼的在研发者自己的推荐业务,因此机械学习、人工智能,数据统计分析建模变成了一个当下很热门的研究方向,那么计算机如何智能的处理自然语言呢,比如最近流行的小黄鸡应用,你的一问一答,他都会憨态可掬的作出很黄很暴力的回答。那么他是怎么处理和分析语言的呢,其实任何一种语言都是一种编码方式,人说话其实就是把想表达的意思进行编码, 编码形式 可以使声音 也可以是电流也可以是手语,接受者在对应相应的解码便得到 信息 ,这其实就是语言的数学本质。 其实在早期针对计算机如何对语言处理,我们的先人也是这么认为,就是计算机如果想处理自然语言就必须想人脑一样去处理事情,看过西游记吧,孙悟空经常说的一句就是,妖精那里逃,这里的妖精其实就是像人一样,但不是人,但是又让你看不出来他不是人。怎么感觉像一句经典台词,you know i don't know you know i don't know ,其实这就是人工智能,伟大的先贤们苦苦思索如果让计算机的处理器想人脑一样去做事情,结果各种失败,于是一些自然语言处理的先驱们变开始重新思考这个问题,就像Cpu一样 处理器的处理速度由零点几一次又一次升级到三点几一样,突然发现,当前的技术已经无法再提高cpu的频率来提高运算速度了(或者提高需要很大的成本),怎么办,于是双核出现了,四核出现了,多核出现了,工程师很聪明,知道换一种方法去解决问题,如果有一天拥有一定的技术(或者成本降低了) cpu的频率会进一步提高的,并接应该是高频加多核。使用统计模型去进行自然语言的处理其实也是这样,当使用计算机模拟人脑出现瓶颈,当前技术无法成功的模拟人脑去做自然语言的处理,但是事情又不得不做时,基于统计模型的方法便提了出来,经过验证发现能成功解决很多问题,随着模型越来越完善,出错率也越来越低。这便成为一种对自然语言处理的主流方法。就像cpu采用多核一样,如果有一天我们能使用足够计算机模拟人的神经网络 再结合 统计模型的建模,我认为那才是真正的人工智能,据说google模拟神经网络系统成功得是系统自己识别了猫这个概念。这真是让人期待啊!

     其实基于统计模型分析处理自然语言也经历了先是通过语法分析,发现太困难了,语法总是变得,而且有的还具有二义性,不太可行,后来便提出了基于统计规则处理,也就是如果计算机问你吃了没,你会回答 1.吃了 2,都饿死了你说呢?3,都消化的差不多了,4,各种方言版,计算机如果真想分析你到底吃了没,如果你的回答根本就不合乎语法,比如流行语,根本不代表吃了,但是当前就代表吃了的语义,基于语法分析根本无法处理这种 "元芳你怎么看?" 或者很困难,但是基于统计规则就简单多了,例如如果大家针对元芳你怎么看提问,计算机会根据分析词库,针对“元芳你怎么” 看回答各个词出现的 词频 分析应该出什么结果,计算机可能会给出“老衲没意见”,他不明白“老衲没意见” 代表什么意义,但是大家都这么说,这个回答针对元芳你怎么看出现的次数很多而已。好了简单记录这么多。

 

欢迎喜欢深入了解推荐系统和mahout的兄弟加入群     推荐系统之Mahout  135918911

1
0
分享到:
评论
3 楼 comsci 2013-02-01  

  最有可能大规模应用的神经网络技术应该是这样的,我猜想的

  在由若干个比较普通的多核心PC机组成的集群中,对每一个CPU核心进行虚拟化,一个多核心CPU可以模拟2N+1个或者更多的神经元,那么这个集群可以模拟一个小规模的神经计算网络。。。成本可以控制,那么一般的公司应该负担得起。。。。

  当然,这需要在软件上面有相应的技术实现。。。。。。

  我猜想,INTEL他们在CPU上面实现超线程技术,有可能就是希望走这一步。。一个物理核心模拟出多个虚拟核心,一个虚拟核心就是一个或者多个神经元
2 楼 davidxiaozhi 2013-02-01  
嗯,确实这样,神经网络的实现目前也只有像google这样的大公司有这个实力,如果能够降低神经网络实现的成本,并且能够普及,估计自然语言处理这个领域就要发起一次新的革命了,期待那一天.
1 楼 comsci 2013-01-30  

如果用硬件来实现神经网络,成本可能太高了,只有几家大公司有这个能力
如果神经网络能够用较低成本的普通PC集群来实现,然后用软件来构造,那么推广的前景还不错。。。。

相关推荐

    自然语言处理-人名识别

    采用统计与规则相结合的混合策略,提出一种中国人名的自动识别方法.该方法利用知识库中的统计信息,对 中国人名作初步的提取,分析中国人名构成的内部特征和外部特征,提取出特征集,并总结出相应的识别规则,对...

    自然语言处理发展

    本文档介绍了当前自然语言处理发展的几个特点,涵盖了未来自然语言的发展方向。

    计算机自然语言处理

    计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言 单位(字、词、语句、篇章等等)进行转换、传输、存贮、分析等加工处理的 科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系...

    计算机统计自然语言处理PDF

    基础篇论述了自然语言处理技术的数学基础和中文语言处理特有的自动分词技术; 原理篇论述了基于统计和基于语言学规则的语言处理技术的基本原理; 应用篇论述了在音字转换、自动文摘、信息检索、手写体识别等应用领域中...

    自然语言处理技术基础

    第一部分介绍基于规则的自然语言处理技术, 分别从语法和语义两个层面入手。首先介绍了几种语法系统的形式化表示方案, 在此基础上, 介绍了几种典型的上下文无关句法分析和基于复杂特征的句法分析方法。在语义层面, ...

    最新自然语言处理(NLP)研究综述与内容介绍

    早期的自然语言处理研究存在着基于规则的符号主义和基于概率的随机统计经验主义两种不同的方法。符号主义主张通过建立符号处理系统,由人工整理和编写初始的语言知识表示体系(通常为规则),构造相应的推理程序,系统...

    NLP汉语自然语言处理原理与实践.pdf 高清 完整 带书签

    第1章 中文语言的机器处理 11.1 历史回顾 21.1.1 从科幻到现实 21.1.2 早期的探索 31.1.3 规则派还是统计派 31.1.4 从机器学习到认知计算 51.2 现代自然语言系统简介 61.2.1 NLP流程与开源框架 61.2.2...

    论文研究-基于规则的句子相似度计算 .pdf

    基于规则的句子相似度计算,张子宪,张德东,句子相似度计算是诸多自然语言处理任务的基础,一般采用规则或统计的方法计算句子相似度,但是统计方法也离不开语言规则,本文从

    NLP自然语言处理(二)——中文分词篇.pdf

    基于规则的分词在已经建⽴好词库的前提下,通过扫描⽂本内容匹配到词库中,若词库中存在⽂本中某词,则把该词单独提取出来。 基于统计的分词需要建⽴语料库并设计分词模型,将中⽂⽂本通过训练好的模型进⾏⾃动分词...

    Custom-Named-Entity-Recognition:自然语言处理 | NER | 空间

    NER 可以使用统计或基于规则的方法来实现,这两种方法都需要大量标记的训练数据,并且通常以完全或半监督的方式进行训练。 注意:此存储库包含 ICDAR 2019 扫描收据 OCR 和信息提取鲁棒阅读挑战的任务 3(从扫描...

    NLP-Series:人工智能与深度学习实战 - 自然语言处理篇

    深入浅出 Python 机器学习与自然语言处理 20 年来,NLP 的技术也经历了从基于语法语义规则系统(1970s-1990s)迁移到基于统计机器学习的框架(2000s-2014)并进一步发展为基于大数据和深度学习的 NLP 技术范式(2014...

    论文研究-构建和剖析中英三元组可比语料库.pdf

    显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到应用系统的性能。为了克服平行语料库固有的缺陷,提出构建和剖析中英三元组可比语料库的技术研究。这项研究...

    中文版多角度对大语言模型综述

    架构的预训练语言模型在解决各种自然语言处理任务方面表现出强大的能力。由于研究人员发现扩大模型规模可以提高模型能力,因此 他们通过将参数增加到更大的尺寸来进一步研究该效应。有趣的是,当参数规模超过一定...

    hanlp分词解析字符串.zip

    在自然语言处理领域,分词是基础且重要的一步。分词的准确度直接影响到后续的文本分析、信息抽取等任务的效果。而HanLP作为一款优秀的中文自然语言处理工具,其分词功能得到了广泛的应用和认可。 首先,让我们来了解...

    5000长文来杠,我们造不出自己的ChatGPT?

    20世纪60年代:科学家开始研究基于规则的自然语言处理方法,即使用规则手动编写程序,以实现自然语言的分析和生成。 20世纪80年代:出现了基于统计机器学习的自然语言处理方法,如隐马尔可夫模型和条件随机场等。这

    论文研究-依存关系语义角色标注研究.pdf

    句子边界识别是词性标注和句法分析等自然语言处理系统的基础问题。提出了一种统计与规则相结合的维吾尔语句子边界识别方法,首先利用歧义段落分类算法分类段落,第二步对无歧义段落进行基于规则的句子边界识别,最后...

    python项目基于语音识别的智能垃圾分类系统.zip

    它结合了自然语言处理(NLP)和机器学习方法,旨在提高垃圾分类的准确性和效率。 主要特性和功能可能包括: 1. **语音识别**:能够准确识别用户的口语输入,并理解其含义。 2. **垃圾分类知识库**:包含广泛的垃圾...

    语言:for适用于Java和JVM的最准确的自然语言检测库,适用于长文本和短文本

    快速资讯 该库试图解决非常短的单词和短语甚至比tweet短的语言检测 利用统计和基于规则的方法 超过70种语言的性能优于Apache Tika , Apache OpenNLP和Optimaize Language ...对于自然语言处理应用程序中的语言数据

    统计学习方法_李航

    《统计学习方法》是统计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。 《统计学习方法》 第1章统计学习...

    利用统计量和语言学规则提取多字词表达 (2011年)

    基于特定领域的语料库,利用统计和语言学规则相结合的方法提取多字词表达(Multiword expressions)。首先利用领域高频词作为种子词提取候选串,进一步利用各种统计量、多字词表达边界过滤规则对候选串进行噪声剔除,...

Global site tag (gtag.js) - Google Analytics