`
鹿鸣
  • 浏览: 4611 次
  • 来自: 吉林
最近访客 更多访客>>
社区版块
存档分类
最新评论
文章列表
    上一次我写的宋词分析,是在Windows环境下的,缺省编码是GBK(936),所以在处理UTF-8的时候,需要转换为GBK,再进行处理分析。     不过现在已经是ruby1.9版了,那么就改一下,在uft-8下处理程序,主要就是把原宋词文件内容从gbk编码为utf-8,再进行相应的处理,dos下需要chcp 65001转换为utf-8编码,再执行才可以看到正确结果,否则就是乱码。     我用的SciTE,在Options->Open Global Options File中,code.page=65001,output.code.page=65001去除前面的#,就可以正确处理 ...
在今年3月份的,就看到这个帖子《东风何处是人间》了,对宋词进行分词计数,当时就保存了这个帖子,想以后有时间写个ruby版的。后来就忘记了 近期这个帖子大火啊,也终于抽出时间写ruby版的了。 个人水平有限,程序写的很糟糕,至少比原文的看着复杂多了,不知道是否能有ruby高手给大家写个示例。 数据:《全宋词》文本 #coding: utf-8 require "iconv" s1 = Iconv.conv 'gbk','utf-8',"," s2 = Iconv.conv 'gbk','utf-8',"。" s3 = ...
一个烂大街的题,前两天刚好看到别人解这个题,用c++实现的,网上还有很多的java版的等等,我就改成了ruby版的,ruby版的程序算是比较短的了吧,还是有些函数式的影子,而不是纯粹的ruby化面向对象。 小明和小强都是张老师的学生,张老师的生日是M月N日,2人都知道张老师的生日   是下列10组中的一天,张老师把M值告诉了小明,把N值告诉了小强,张老师问他们知道他的生日是那一天吗?   3月4日 3月5日 3月8日   6月4日 6月7日   9月1日 9月5日   12月1日 12月2日 12月8日   小明说:如果我不知道的话,小强肯定也不知道   小强说:本来我也不知道,但是现在我知道 ...
呵呵,如果大家都在起点看过200本以上的小说,就能知道小明好在哪里了。 不种马,不YY,写实的现在在起点已经很难很难找了。支持小明的很多都是起点5、6甚至7级的用户和VIP,这样的人都觉得起点在逐步的堕落,看看首页的类门户小说介绍,还有强推的垃圾作品,小明只是一个导火索,让大家发泄一下而已。 写小明的是个16岁的高中生,其实也未必能写的这样象小学生的作品,只是适逢其会吧。 而且小明的一些语言也是有亮点存在的。大家可以自己体会一下。
Global site tag (gtag.js) - Google Analytics