`
ipython
  • 浏览: 290305 次
  • 性别: Icon_minigender_1
  • 来自: 佛山
社区版块
存档分类
最新评论

计算不同的词出现的次数

阅读更多

今天去笔试个java职位,要求写个统计不同词的出现次数,我java写不出来,写了几句py代码上去。
回来后,在群上讨论了一下,写了以下三个方法,前两种我写的,最后一种是别人写的
三种方法用时的比较:

0.405999898911
--------------------------------
1.32800006866
--------------------------------

0.905999898911

 

import random
import time

def make_case (n):
    library = ['aa','bb','cc','ee','dd','ff','gg','hello','google','world','ibm','facebook','sex','girl','program']
    #library = ['aa','bb','cc']
    result = []
    word_len = len(library)-1
    for i in range(n):
        result.append(library[random.randint(0,word_len)])

    return result

def wc1(ss):
  result = {}
  for i in ss:
    try:
      result[i] += 1
    except:
      result[i] = 1
  
  #for i in result:
    #print i,result[i]
    

def wc2(ss):
    ss.sort()
    num  = 1
    prev = 0
    for i in range(1,len(ss)):
        if ss[prev] == ss[i]:
            num += 1
        else:
           # print ss[prev],num
            num = 1
            prev = i
    #print ss[prev],num
    
def wc3(ss):
    temp = set(ss)
    for i in temp:
        #print i,ss.count(i)
        tem = ss.count(i)


def write_line():
    print '-----------------------------------'

def test():
    temp = make_case(1000000)

    t1 = time.time()
    wc1(temp)
    print time.time()-t1

    write_line()

    t2 = time.time()
    wc2(temp)
    print time.time()-t2

    write_line()

    t3 = time.time()
    wc3(temp)
    print time.time()-t3


if __name__ == "__main__":
    test()
 
分享到:
评论

相关推荐

    用链表计算单个词出现次数

    C编写,用链表实现单个词在文本中出现次数的计算。比较简单。

    计算文本相似度

    基于关键词Jarccard距离...字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

    如何巧用HashMap一行代码统计单词出现次数详解

    主要给大家介绍了关于如何巧用HashMap一行代码统计单词出现次数的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧

    关键词计算

    关键词密度的计算方式,简单的讲就是说,假如你的某一个页面上总共有100个词,而关键词在该页面出现的次数是2次,那么我们就可以说关键词密度是2%。不过,这只是一个简单的例子来解释这个概念。因为搜索引擎在检索该...

    Pathon绘制词云

    2.第二步是计算每个词在文本中出现的频率,生成一个哈希表。词频用于确定一个词的重要性 3.根据词频的数值按比例生成一个图片的布局,类IntegralOccupancyMap 是该词云的算法所在,是词云的数据可视化方式的核心。...

    java词频统计

    1. 读取文档并分词。要求给定一篇.txt英文文档,计算机读入并统计该篇文章由哪些词组成,按字母顺序输出出现过的词已经每个词的出现频率。

    程序员的数学课2021年

    │ 开篇词 数学,编程能力的营养根基.mp4 │ 01 从计数开始,程序员必知必会的数制转换法.mp4 │ 02 逻辑与沟通,怎样才能讲出有逻辑的话?.mp4 │ 05 求极值:如何找到复杂业务的最优解?.mp4 │ 06 向量...

    第七章-《大数据导论》大数据处理平台.pdf

    & Ghemawat, S., "MapReduce: Simplified Data Processing on Large Clusters", OSDI'04 实例:微博年度热词统计 某一年度所有微博内容中各个词出现的次数 根据次数进行排序,排名前TopK的词作为年度热词 第 一 步 ...

    主题模型Python工具包Gensim.zip

    第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M) (还有其它的归一化公式,这里是最基本最直观的公式)第四步...

    词频统计pta概述详解.pdf

    归一化计数法:将每个词语的出现次数除以总词数,得到每个词语的频率。 TF-IDF法:综合考虑词语在文本中的出现频率(TF)以及在整个语料库中的普遍程度(IDF)。TF-IDF = TF * IDF。 基于统计模型的词频计算...

    词频统计的概要介绍与分析

    简单计数法直接统计每个词语在文本中出现的次数,归一化计数法则将每个词语的出现次数除以总词数得到频率。而TF-IDF则综合考虑了词语在文本中的出现频率以及在整个语料库中的普遍程度,是一种更为精确的词频计算方法...

    论文研究-基于用户标签的微博推荐算法.pdf

    再根据微博的效应函数和生命周期形成待推荐的微博列表,计算用户标签及其同义词在待推荐微博列表中出现的次数,将出现次数较多的TOP-k条微博推荐给用户。通过实验验证,该算法能够有效地解决用户标签的稀疏性问题,...

    perl 词频统计

    在linux下用vi编译的使用正则表达式来对语料中每个词出现次数进行统计,以及对语料的预处理!

    2000-2021年上市公司数字化转型数据(MD&A报告词频、文本统计)

    2000-2021年上市公司数字化转型数据(MD&A报告词频、文本统计) 1、时间:2000-2021年 2、来源:上市公司NB 3、范围:上市公司 ...去除停顿词,统计上述词汇在MD&A文本中出现的次数 计算数字化转型程度、各维度水平

    Auto Summarization tool using java:自动摘要可为文档提供简洁的摘要。-开源

    自动摘要可为文档提供简洁的摘要。 在本文中,我提出了一种统计方法来解决独立于域的单文档摘要中的文本生成问题。... 通过使用词干提取机制,可以计算单词的出现次数,并以出现次数和出现次数的格式显示结果。

    云移杯-景区口碑评价分值预测初赛第9源码+学习说明.zip

    【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的竞赛项目学习资料,作为...核心思想如下:首先一个词在该条评论中出现的次数与该分成正比,这样某个词

    countwords:计算每个单词在文本中使用次数的简单工具

    倒数词计算每个单词在文本中使用次数的简单工具您可以在看到它的运行情况

    基于Django+node.js+MySQL+杰卡德相似系数智能新闻推荐系统-机器学习算法应用(含Python源码)+数据集

    1.本项目基于jieba的中文分词库提取新闻中的关键词,获得相关内容,使用杰卡德相似系数计算不同新闻的相似度,在用户浏览某一新闻时,实现推荐相关新闻。 2.项目运行环境:Python环境、node.js前端环境和MySQL数据库...

    PDF-Word-Count-Ver-3:旨在搜索目录及其子目录以查找 PDF 文档的应用程序。 然后,该应用程序会计算每个文档中的单词数、句子数以及在每个 PDF 文档中找到给定词典中的每个单词的次数。 然后将结果保存在 results.xls 文件中

    然后,该应用程序会计算每个文档中的单词数、句子数以及在每个 PDF 文档中找到给定词典中的每个单词的次数。 然后将结果保存在 results.xls 文件中使用的库Apache PDFBox 处理 PDF 文档 (pdfbox-1.8.7.jar) Apache ...

    nlp-tutorial代码注释1-1,语言模型、n-gram简介

    本文知识点介绍来自斯坦福大学CS224N课程lecture6语言模型部分 语言模型 语言模型可以预测一个序列接下来会...计算上图n-gram和(n-1)-gram的比例是通过计算他们在大型语料库中出现的次数的比例: 举个例子:As the p

Global site tag (gtag.js) - Google Analytics