今天拜读了数学之美的第一章,例举的例子感觉真是浅显易懂,这里不禁要对吴军老师的写作功底拜服,下面谈谈对信息模型的理解,数字、文字和语言作为信息的载体,他们的目的都是记录和传播信息,就像我们的老祖先一样乌拉乌拉几句,对方就明白了,你丫的骂我,拿起石头就扔过去了,其实他们的这种交流可以概括为
信息1--编码(也就是怪叫)---信息2(听到的声音)-----解码----信息1(得到原始信息),其实这就是一个简单的信息模型 信息1刚开始也就是我们的信息源 -- 信息2也就是声音可以看做信道,看到没我们的老祖先也懂得合理利用信息模型。
当我们祖先的叫声种类和形式越来越多时,事情也越来越多时大家都记不住了怎么办,于是文字、数字变产生了,用来记录,大家抓的兔子越来越多,大家的money越来越多,怎么办,刚开始还可以数手指头,手指头数着数着不够了怎么办,聪明的现代人肯定会说脚趾头啊,说这句的人太聪明了,其实玛雅人就是这样的。于是大于10的怎么办,必须有一种形式啊,于是进制变产生了,笨笨的我们的祖先还有欧洲的祖先,不会用脚指头,于是便逢十进一 10进制变产生了,聪明的玛雅人知道脚趾头不够用了才想到进制,于是他们便是20进制,想想玛雅的孩子多苦,背诵一个乘法表19*19那就是一个围棋盘啊,而我们只需要九九乘法口诀就搞定一切了。看样子有时太聪明也是不好滴。但是在采取十进制的时候由于我们的祖先比较财富比较多,于是我们的十进制是采用乘法表示 例如 99999=9*10000+9*1000 +9*100+9*10 +9 那我们七个数字就可以表示一百万啊,当时作为先进的欧洲代表罗马人由于财富很少,但是在他们眼里那也是很有钱了,他们采用的是加减法表示也就是一个数字的值是10个数字的中选取几个数字的和或者差, 可想而知,他们要表示1百万那手得抽经了,但是由于他们过着茹毛饮血的生活 物质及其匮乏,他们就是这样坚持了几千年,认为加减法完全够了,知道后来工业革命后,有很多钱了有很多钞票了,这才发现写不过来,才发明了M在M上划线表示几万和几十万。 这里中国的个十百千兆 和罗马人的ⅠⅡⅢⅣⅤ都引入了朴素编码的概念,在中国编码规则是乘法,在罗马是加法,明显中国的比罗马的做法要高明很多,编码更有效。当我们的词汇越来越多时,多的我们记不住的时候产生新的词汇有点不合适了,于是古人便使用一个字或者一个词风别代表多个意思如
日 名词太阳、表示太阳东升西降也就是一天,还有就是骂人的意思了。于是概念的一次概括和归类就开始了,这种概念的聚类,在原理上与我们今天的自然语言处理或者机器学习的聚类有很大的相似性。
古代人的在木有发明纸张以前,都是靠竹简,你想想老以前始皇帝皮奏折都是找人用筐来计量的,都是几筐几筐的,你想想大臣们刻几个字多么不容易,所以我觉得这也是中国文言文为什么流行的原因,精简、信息量大,类似于我们今天的电报,你父病危速归,也就是信息熵非常大,也就是可以通过简单几个字就明白全部意思。关于信息熵后面再扯。古人这么不容易,天天刻竹简,于是有人想偷懒,慢慢的把常用的字的笔画越来少,越来越好写,刚开始大家还不屑,你这孩子怎么能随便修改文字,那可是仓颉大圣创下的啊,慢慢的大家都绝得笔画少不错,也就是慢慢接受了,其实是手痛给累的。因此我们现在的汉字是常用的笔画很少很精简,容易写,那些生僻字 笔画多难写,这其实很符合最短编码原理(熟悉计算机的同学可能知道霍夫曼树),书写使用文言文,而我们日常确使用白话交流,这中现象和通信工程的原理又类似,信道宽,信息不必压缩,信道窄,则信息必须压缩,古人交流时信道宽,传输不费力,不用压缩直接白话文交流,而书写,想象 几箩筐竹简吧,还是压缩压缩少些几个字吧,这就需要古人把白话文压缩成当时能看懂的文言文,书写,阅读者在解压缩,看看我们的古人多么聪明,虽然他们不懂信息论。但是汉朝以后的大儒们对论语的解读确实各有各的看法,因此从这点看信息熵的大小也根据时代有关呢
欢迎喜欢深入了解推荐系统和mahout的兄弟加入群 推荐系统之Mahout 135918911
相关推荐
Python自然语言处理-BERT模型实战课程旨在帮助同学们快速掌握当下NLP领域最核心的算法模型BERT的原理构造与应用实例。通俗讲解BERT模型中所涉及的核心知识点(Transformer,self-attention等),基于google开源BERT...
自然语言处理-基于预训练模型的方法 笔记
自然语言处理-HMM模型。北大教授讲义,阐述和普及hmm相关知识。
自然语言处理 - 大模型(LLMs)面试题 详细请试读。
深度学习自然语言处理-Transformer模型.zip
Python自然语言处理-BERT模型实战课程旨在帮助同学们快速掌握当下NLP领域最核心的算法模型BERT的原理构造与应用实例。通俗讲解BERT模型中所涉及的核心知识点(Transformer,self-attention等),基于google开源BERT...
哈工大的那本书,很好的一本书。 html/website/markdown 格式请查阅本人博客:https://zenmoore.github.io
自然语言处理
Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。Transformer是:“首个完全抛弃RNN的recurrence,CNN的convolution,仅用attention来做特征抽取的模型。“ 本文简介了...
自然语言处理
自然语言处理
自然语言处理 - 斯坦福 _ 曼宁教授长文梳理:NLP的四个时代,横跨70年,指出模型发展前景!
自然语言处理
自然语言处理常用模型方法总结 自然语言处理常用模型方法总结
自然语言处理
国科大自然语言处理-课后编程作业,任务为图像标注Python源码+文档说明+数据库+模型 - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审...
关键词:目标检测、目标跟踪、图像识别、图像分类、视频分析、自然语言处理、自然语言分析、计算机视觉、人工智能、AIGC、AI、大模型、多模态大模型、API、Docker、镜像、API市场、云市场、国产软件、信创 ...
关键词:目标检测、目标跟踪、图像识别、图像分类、视频分析、自然语言处理、自然语言分析、计算机视觉、人工智能、AIGC、AI、大模型、多模态大模型、API、Docker、镜像、API市场、云市场、国产软件、信创 ...
自然语言处理和语音识别中必须的语言模型工具自然语言处理和语音识别中必须的语言模型工具自然语言处理和语音识别中必须的语言模型工具自然语言处理和语音识别中必须的语言模型工具自然语言处理和语音识别中必须的...
自然语言处理概述 什么是自然语言处理 自然语言处理的典型应用 自然语言处理的基本任务 自然语言处理的基本策略和实现方法 自然语言处理的难点 自然语言处理所涉及的学科 基于规则的自然语言处理方法(理性方法,...