上一次我写的
宋词分析,是在Windows环境下的,缺省编码是GBK(936),所以在处理UTF-8的时候,需要转换为GBK,再进行处理分析。
不过现在已经是ruby1.9版了,那么就改一下,在uft-8下处理程序,主要就是把原宋词文件内容从gbk编码为utf-8,再进行相应的处理,dos下需要chcp 65001转换为utf-8编码,再执行才可以看到正确结果,否则就是乱码。
我用的SciTE,在Options->Open Global Options File中,code.page=65001,output.code.page=65001去除前面的#,就可以正确处理utf-8文字了。
嗯,Windows就是麻烦,Linux和mac一直想玩玩,但是单位无法上网,需要联网的东西太费事了。
还有就是改写为utf-8版后,计数和gbk版的不同了,gbk版的,和原文的计数一致,utf-8版的,一是计数多了,二是很多后面的也提到了前面,不知道为什么,也许是gbk->utf-8转换的时候,一些文字出现问题了吧。
#coding: utf-8
require "iconv"
NUM1 = 2 #分词长度
NUM2 =500 #显示大于多少的记录
def splitword(s,l) #分词,s是字符串,l是字符分词长度
lt = s.length
k = Array.new
0.upto(lt-l) do |i|
k<<s[i..i+l-1]
end
return k
end
t = Time.now
x = Array.new #记录分词结果的数组
File.open("ci.txt", "r") do |file|
file.each do |line|
line = Iconv.conv("UTF-8//IGNORE","GBK", line)
line.chomp!
column = line.split(/,|。|!|?|、/) #使用标点分割
column.delete_if {|i| i.length >10 } #去除大于10个字的语句
column.each do |col|
splitword(col,NUM1).each{|i| x<<i} if col.length>NUM1 # 分词
end
end
end
h = Hash.new
h = x.inject(Hash.new(0)){|hash,x| hash[x] += 1; hash} #把数组内容进行计数为hash
h.delete_if {|key, value| value <NUM2} #去除hash中小于指定数值的部分
y = Array.new
y = h.sort {|a,b| b[1]<=>a[1]} # 从大到小排序
y.each_index {|i| puts "#{i+1} #{y[i][0]} = #{y[i][1]}" }
puts "运行时间是:"<<(Time.now-t).to_s<<"秒"
分享到:
相关推荐
唐诗宋词选读(苏教版完整版).pdf
Python文本挖掘方法辅助宋词自然景观意象分析
自然语言理解 宋词词频统计统计宋词的单字词,双字词等输出的是单字词和双字词的词典文件文件中包括相应的词和频度
唐诗宋词 电子版有三百首唐诗和宋词。不错的啊
输入词牌,基于宋词的词典和宋词的词牌,可以随机或者按照语言模型,自动生成宋词
我整理的word版经典唐诗宋词,以便于背诵,方便各位读者。
python获取的宋词三百首数据库
唐诗宋词300首, 包含作者的姓名,题目, 内容, 简介等各种信息
1.唐诗宋词是一种艺术,艺术具有审美价值,欣赏唐诗宋词产生的共鸣和联想,能够起到陶冶情操、净化心灵、启迪人生等各种作用; 2.唐诗宋词描写涉及的内容广泛,囊括到唐宋时期人们生活的方方面面,对于很多方面的研究都有...
宋词词牌格律
唐诗宋词选读(苏教版完整版)(20211010020705).pdf
唐诗300首,宋词300首,中小学课本包含的部分,带有原文与注释,可直接导入mysql数据库,在中小学类学习软件中方便使用
(精品)最美的60句宋词:宋词中的名句精选.pdf
宋词中出现的大量镜子的意象,其审美指向大多都蕴含着光阴流逝、容貌随时间逝去而衰老的无奈、深闺生活的百无聊赖及思念他人时彷徨的心境等细腻的感情。宋词中的镜子意象,一方面反映了当时人们的生活境况及词人敏感...
【学案导学设计】2015高中语文 专题检测十一“极其工”“极其变”的南宋词 苏教版选修《唐诗宋词选读》
通过全宋词训练RNN,随机生成宋词
唐诗宋词-我的爱国诗分析.docx
基于Python的对全宋词的数据分析与可视化源码+使用文档+全部资料(优秀项目).zip基于Python的对全宋词的数据分析与可视化源码+使用文档+全部资料(优秀项目).zip基于Python的对全宋词的数据分析与可视化源码+使用...
宋词查询管理系统-DELPHI源代码 可以查询宋词,挺好玩的
使用多种机器学习算法对宋词的风格进行了分类...同时,对实验的结果进行了回溯分析,定量分析了哪些单字对宋词风格的判定起到更大的作用。这种分析方法可以推广,用来作为作者写作风格的特征进行更进一步的研究分析。