自然语言处理--从规则到统计 -

davidxiaozhi

浏览: 236670 次
性别:
来自: 北京

最近访客更多访客>>

djyy3273

denon8

pudi

bolixiyang

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

自然语言处理--从规则到统计

博客分类：

数学之美系列笔记

数学之美机器学习人工智能统计建模 mahout

目前各大互联网公司都如火如荼的在研发者自己的推荐业务，因此机械学习、人工智能，数据统计分析建模变成了一个当下很热门的研究方向，那么计算机如何智能的处理自然语言呢，比如最近流行的小黄鸡应用，你的一问一答，他都会憨态可掬的作出很黄很暴力的回答。那么他是怎么处理和分析语言的呢，其实任何一种语言都是一种编码方式，人说话其实就是把想表达的意思进行编码，编码形式可以使声音也可以是电流也可以是手语，接受者在对应相应的解码便得到信息，这其实就是语言的数学本质。其实在早期针对计算机如何对语言处理，我们的先人也是这么认为，就是计算机如果想处理自然语言就必须想人脑一样去处理事情，看过西游记吧，孙悟空经常说的一句就是，妖精那里逃，这里的妖精其实就是像人一样，但不是人，但是又让你看不出来他不是人。怎么感觉像一句经典台词，you know i don't know you know i don't know ,其实这就是人工智能，伟大的先贤们苦苦思索如果让计算机的处理器想人脑一样去做事情，结果各种失败，于是一些自然语言处理的先驱们变开始重新思考这个问题，就像Cpu一样处理器的处理速度由零点几一次又一次升级到三点几一样，突然发现，当前的技术已经无法再提高cpu的频率来提高运算速度了（或者提高需要很大的成本），怎么办，于是双核出现了，四核出现了，多核出现了，工程师很聪明，知道换一种方法去解决问题，如果有一天拥有一定的技术（或者成本降低了） cpu的频率会进一步提高的，并接应该是高频加多核。使用统计模型去进行自然语言的处理其实也是这样，当使用计算机模拟人脑出现瓶颈，当前技术无法成功的模拟人脑去做自然语言的处理，但是事情又不得不做时，基于统计模型的方法便提了出来，经过验证发现能成功解决很多问题，随着模型越来越完善，出错率也越来越低。这便成为一种对自然语言处理的主流方法。就像cpu采用多核一样，如果有一天我们能使用足够计算机模拟人的神经网络再结合统计模型的建模，我认为那才是真正的人工智能，据说google模拟神经网络系统成功得是系统自己识别了猫这个概念。这真是让人期待啊！

其实基于统计模型分析处理自然语言也经历了先是通过语法分析，发现太困难了，语法总是变得，而且有的还具有二义性，不太可行，后来便提出了基于统计规则处理，也就是如果计算机问你吃了没，你会回答 1.吃了 2，都饿死了你说呢？3，都消化的差不多了，4，各种方言版，计算机如果真想分析你到底吃了没，如果你的回答根本就不合乎语法，比如流行语，根本不代表吃了，但是当前就代表吃了的语义，基于语法分析根本无法处理这种 "元芳你怎么看？" 或者很困难，但是基于统计规则就简单多了，例如如果大家针对元芳你怎么看提问，计算机会根据分析词库，针对“元芳你怎么” 看回答各个词出现的词频分析应该出什么结果，计算机可能会给出“老衲没意见”，他不明白“老衲没意见” 代表什么意义，但是大家都这么说，这个回答针对元芳你怎么看出现的次数很多而已。好了简单记录这么多。

欢迎喜欢深入了解推荐系统和mahout的兄弟加入群推荐系统之Mahout 135918911

1
顶

0
踩

分享到：

自然语言处理--信息模型 | GT-P7300刷机打电话

2013-01-29 18:13
浏览 2617
评论(3)
分类:行业应用
查看更多

3 楼 comsci 2013-02-01

最有可能大规模应用的神经网络技术应该是这样的，我猜想的

在由若干个比较普通的多核心PC机组成的集群中，对每一个CPU核心进行虚拟化，一个多核心CPU可以模拟2N+1个或者更多的神经元，那么这个集群可以模拟一个小规模的神经计算网络。。。成本可以控制，那么一般的公司应该负担得起。。。。

当然，这需要在软件上面有相应的技术实现。。。。。。

我猜想，INTEL他们在CPU上面实现超线程技术，有可能就是希望走这一步。。一个物理核心模拟出多个虚拟核心，一个虚拟核心就是一个或者多个神经元

2 楼 davidxiaozhi 2013-02-01

嗯，确实这样，神经网络的实现目前也只有像google这样的大公司有这个实力，如果能够降低神经网络实现的成本，并且能够普及，估计自然语言处理这个领域就要发起一次新的革命了，期待那一天.

1 楼 comsci 2013-01-30

如果用硬件来实现神经网络，成本可能太高了，只有几家大公司有这个能力
如果神经网络能够用较低成本的普通PC集群来实现，然后用软件来构造，那么推广的前景还不错。。。。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

自然语言处理--从规则到统计

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

自然语言处理--从规则到统计

评论

发表评论

相关推荐

自然语言处理--信息模型

最近访客更多访客>>