统计单词出现频率

san_yun

浏览: 2594524 次
来自: 杭州

最近访客更多访客>>

空城旧梦why

sd3870181

alexqdjay

hanmiao

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

算法

这里有一个大文本，文件请从 http://10.125.9.144:8000/document.zip 获取，在解压后大约有20m（实际比赛时文件是1.1G）。文本中都是英文单词，空格以及英文的标点符号: [.,;-~"?'!] （句号，逗号，分号，破折号，波浪号，双引号，问号，单引号，感叹号）

请统计出该文本中最常出现的前10个单词(不区分大小写)。请注意，在统计中这20个单词请忽略（the, and, i, to, of, a, in, was, that, had, he, you, his, my, it, as, with, her, for, on)

#http://stackoverflow.com/questions/4215472/python-take-max-n-elements-from-some-list
import re, collections
import heapq

ignore_words = ['the','and','to','in','a','that','he','was','it','his','of', 'is', 'with', 'as', 'i', 'had', 'for', 'at', 'by', 'on','not', 'be', 'from', 'but', 's', 'you', 'or', 'her', 'him', 'which']

def words(text): 
    return re.findall('[a-z]+', text.lower())

def train(features):
    model = collections.defaultdict(lambda: 1)
    for f in features:
        model[f] += 1
    return model

import time
starttime = time.time()
f = file('/duitang/data/nltk_data/big.txt').read()
endtime = time.time()
exe_time = (endtime - starttime)*1000
print 'read',exe_time

starttime = time.time()
f = words(f)
endtime = time.time()
exe_time = (endtime - starttime)*1000
print 're',exe_time

starttime = time.time()
f = train(f)
endtime = time.time()
exe_time = (endtime - starttime)*1000
print 'dict',exe_time

starttime = time.time()
max_list=heapq.nlargest(40,f,key=f.get)
nmax_list = []
for m in  max_list:
    if m in ignore_words: continue
    nmax_list.append(m)
print nmax_list

endtime = time.time()
exe_time = (endtime - starttime)*1000
print 'sort',exe_time

分享到：

使用tesseract-ocr破解网站验证码 | String的indexOf实现

2013-10-07 20:58
浏览 887
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

统计单词出现频率

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

统计单词出现频率

评论

发表评论

相关推荐

ConcurrentHashMap 的实现原理

BloomFilter——大规模数据处理利器

Base64笔记

运算符的优先级

beansdb使用的压缩算法-Quicklz压缩算法

跳表SkipList的原理和实现

一种高效无锁内存队列的实现

拆分文件统计topN的问题

Integer的numberOfLeadingZeros方法解释

rank排名算法整理

利用switch判断各种case

如何创建一个短链服务

HAProxy的独门武器：ebtree

Reddit评论排名算法

大数据量，海量数据 处理方法总结

STL系列

java Map排序（按key和按value）

算法文档集合

各种进制基础知识

布隆过滤器

最近访客更多访客>>

大数据量，海量数据处理方法总结