今天去笔试个java职位,要求写个统计不同词的出现次数,我java写不出来,写了几句py代码上去。
回来后,在群上讨论了一下,写了以下三个方法,前两种我写的,最后一种是别人写的
三种方法用时的比较:
0.405999898911
--------------------------------
1.32800006866
--------------------------------
0.905999898911
import random
import time
def make_case (n):
library = ['aa','bb','cc','ee','dd','ff','gg','hello','google','world','ibm','facebook','sex','girl','program']
#library = ['aa','bb','cc']
result = []
word_len = len(library)-1
for i in range(n):
result.append(library[random.randint(0,word_len)])
return result
def wc1(ss):
result = {}
for i in ss:
try:
result[i] += 1
except:
result[i] = 1
#for i in result:
#print i,result[i]
def wc2(ss):
ss.sort()
num = 1
prev = 0
for i in range(1,len(ss)):
if ss[prev] == ss[i]:
num += 1
else:
# print ss[prev],num
num = 1
prev = i
#print ss[prev],num
def wc3(ss):
temp = set(ss)
for i in temp:
#print i,ss.count(i)
tem = ss.count(i)
def write_line():
print '-----------------------------------'
def test():
temp = make_case(1000000)
t1 = time.time()
wc1(temp)
print time.time()-t1
write_line()
t2 = time.time()
wc2(temp)
print time.time()-t2
write_line()
t3 = time.time()
wc3(temp)
print time.time()-t3
if __name__ == "__main__":
test()
分享到:
相关推荐
C编写,用链表实现单个词在文本中出现次数的计算。比较简单。
基于关键词Jarccard距离...字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
主要给大家介绍了关于如何巧用HashMap一行代码统计单词出现次数的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
关键词密度的计算方式,简单的讲就是说,假如你的某一个页面上总共有100个词,而关键词在该页面出现的次数是2次,那么我们就可以说关键词密度是2%。不过,这只是一个简单的例子来解释这个概念。因为搜索引擎在检索该...
1. 读取文档并分词。要求给定一篇.txt英文文档,计算机读入并统计该篇文章由哪些词组成,按字母顺序输出出现过的词已经每个词的出现频率。
│ 开篇词 数学,编程能力的营养根基.mp4 │ 01 从计数开始,程序员必知必会的数制转换法.mp4 │ 02 逻辑与沟通,怎样才能讲出有逻辑的话?.mp4 │ 05 求极值:如何找到复杂业务的最优解?.mp4 │ 06 向量...
& Ghemawat, S., "MapReduce: Simplified Data Processing on Large Clusters", OSDI'04 实例:微博年度热词统计 某一年度所有微博内容中各个词出现的次数 根据次数进行排序,排名前TopK的词作为年度热词 第 一 步 ...
第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M) (还有其它的归一化公式,这里是最基本最直观的公式)第四步...
再根据微博的效应函数和生命周期形成待推荐的微博列表,计算用户标签及其同义词在待推荐微博列表中出现的次数,将出现次数较多的TOP-k条微博推荐给用户。通过实验验证,该算法能够有效地解决用户标签的稀疏性问题,...
2000-2021年上市公司数字化转型数据(MD&A报告词频、文本统计) 1、时间:2000-2021年 2、来源:上市公司NB 3、范围:上市公司 ...去除停顿词,统计上述词汇在MD&A文本中出现的次数 计算数字化转型程度、各维度水平
自动摘要可为文档提供简洁的摘要。 在本文中,我提出了一种统计方法来解决独立于域的单文档摘要中的文本生成问题。... 通过使用词干提取机制,可以计算单词的出现次数,并以出现次数和出现次数的格式显示结果。
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的竞赛项目学习资料,作为...核心思想如下:首先一个词在该条评论中出现的次数与该分成正比,这样某个词
倒数词计算每个单词在文本中使用次数的简单工具您可以在看到它的运行情况
1.本项目基于jieba的中文分词库提取新闻中的关键词,获得相关内容,使用杰卡德相似系数计算不同新闻的相似度,在用户浏览某一新闻时,实现推荐相关新闻。 2.项目运行环境:Python环境、node.js前端环境和MySQL数据库...
然后,该应用程序会计算每个文档中的单词数、句子数以及在每个 PDF 文档中找到给定词典中的每个单词的次数。 然后将结果保存在 results.xls 文件中使用的库Apache PDFBox 处理 PDF 文档 (pdfbox-1.8.7.jar) Apache ...
本文知识点介绍来自斯坦福大学CS224N课程lecture6语言模型部分 语言模型 语言模型可以预测一个序列接下来会...计算上图n-gram和(n-1)-gram的比例是通过计算他们在大型语料库中出现的次数的比例: 举个例子:As the p
TF-IDF自然语言处理领域中计算文档中词或短语的权值的方法,是词频(Term Frequency,TF)和逆转文档频率(Inverse Document Frequency,IDF)的乘积。TF指的是某一个给定的词语在该文件中出现的次数。这个数字通常...
TF-IDF自然语言处理领域中计算文档中词或短语的权值的方法,是词频(Term Frequency,TF)和逆转文档频率(Inverse Document Frequency,IDF)的乘积。TF指的是某一个给定的词语在该文件中出现的次数。这个数字通常...
名称:Wordcount2(写于 2008 年 4 月 8 日,更正于 2012 年 8 月 8 日) ... 目的: 此功能从纯文本文档 (.txt) 中读取字母数字单词... 第二列包含单词的频率(即该单词在文档中出现的次数)。 最后一列包含单词的相对
考虑这个问题:计算在一个大的文档集合中每个词出现的次数.用户将写和下面类似的伪代码: map(String key,String value): //key:文档的名字 //value:文档的内容 for each word w in value: EmitIntermediate(w,"1...