`

编程实现统计文本文件中某个单词的出现频率,并输出统计结果

阅读更多

用HashMap来解决
假设单词不存在跨行的,每个单词用,. ;分割    

import java.io.*;
import java.util.*;

public class FindWord {
	public void countNum()throws IOException{
		BufferedReader br=null;
try{
	br= new BufferedReader(new FileReader("D://111.txt"));
			Map map= new HashMap();
for(String s=br.readLine(); s!=null; s=br.readLine()){
	StringTokenizer st= new StringTokenizer(s,",. ;");
	while(st.hasMoreTokens()){
		String temp=st.nextToken();
		if(map.containsKey(temp)){
	map.put(temp, new Integer((Integer)map.get(temp)+1));
					}else{
		map.put(temp, new Integer(1));
					}
					
				}
			}
for(Iterator it=map.entrySet().iterator();it.hasNext();){
Map.Entry<String, Integer> entry=(Map.Entry<String, Integer>)it. next();        
System.out.println(entry.getKey()+"-->"+entry.getValue());
			}
		}catch(Exception e){
			e.printStackTrace();	
		}finally{
			br.close();		
		}		
	}
public static void main(String[] args)throws IOException{
	FindWord fw=new FindWord();
	fw.countNum();
	}

}

 

分享到:
评论

相关推荐

    统计一篇文档中每个单词出现的次数,频率

    从一片文档中提取出所有的单词(word),然后计算每个单词出现的频率(次数),按照一定的次序将排序好的单词以“word(频率)”的形式打印出来。 可以按照频率高低,或者单词顺序打印所有出现的单词。

    文本英文单词统计

    可以用简单的图形界面显示文本所有英文单词的数目,并可以查询固定单词的个数

    python实现统计文本中单词出现的频率详解

    本文实例为大家分享了python统计文本中单词出现频率的具体代码,供大家参考,具体内容如下 #coding=utf-8 import os from collections import Counter sumsdata=[] for fname in os.listdir(os.getcwd()): if os....

    Python统计单词出现的次数

    这道题在实际应用场景中使用比较广泛,比如统计历年来四六级考试中出现的高频词汇,记得李笑来就利用他的编程技能出版过一本背单词的畅销书,就是根据词频来记单词,深受学生喜欢。这就是一个把编程技能用来解决实际...

    大数据实验四-MapReduce编程实践

    2、实现统计HDFS系统中多个文本文件中的单词出现频率。 三.实验过程截图及说明 1、在本地创建多个文本文件并上传到Hadoop: (1)创建本地存放文件的文件夹: (2)使用vim命令向文件里添加内容: (3)在Hadoop里...

    用Python分析文本数据的词频.zip

    它的主要功能是通过Python编程来自动处理和分析文本数据,统计其中各个单词出现的频率。该工具包首先会读取用户指定的文本文件,然后使用Python的内置字符串函数或正则表达式库来分割文本,提取出所有的单词。接着,...

    大工软院大二姜国海小学期-第二次作业&huffman;.zip

    3. 编写程序求出1万以内的所有素数,并将这些素数输出到一个文本文件中,每行文本只包含一个素数数据。 该文本文件内容要求可以用记事本程序来查看。 4. 编写程序求出1万以内的所有素数,然后再判断这些素数中...

    Hadoop2.6版本真分布式配置文档

    要的积分多 一定有我的理由 肯定比网上搜索到的要好很多呢 么么哒 欢迎评价

    理解TF-IDF:文本挖掘与信息检索的关键加权技术

    它考虑了单词在文档中的出现频率以及在整个语料库中的频率,以确定其权重。高频出现在文档中但低频在语料库中的词汇被视为重要,反之亦然。搜索引擎广泛使用TF-IDF来评估文档与用户查询的相关性,以决定搜索结果排名...

    基于C++实现的自适应文本检索系统源码+项目运行说明+数据(课程大作业).zip

    基于C++实现的自适应文本检索系统源码+项目运行说明+数据(课程大作业).zip 此次作业完成了任务:“每一次检索后对返回的文档执行相关反馈的判断,重新生成查询”。项目全部使用C++语言,并且独自从零开始编写。代码...

    Linux高级bash编程

    使用xargs分析单词出现的频率 12-9. 使用 expr 12-10. 使用 date 命令 12-11. 分析单词出现的频率 12-12. 那个文件是脚本? 12-13. 产生10进制随机数 12-14. 使用 tail 命令来监控系统log 12-15. 在一个脚本中模仿 ...

    程序员面试刷题的书哪个好-programming_projects:编程_项目

    统计字符串中的单词数目——统计字符串中单词的数目,更复杂的话从一个文本中读出字符串并生成单词数目统计结果。 文本编辑器——记事本类型的应用,可以打开、编辑、保存文本文档。可以增加单词高亮和其它的一些...

    中文分词学习版

    词频:即词组在广域的所有汉语词组中出现的相对频率值。 此功能可对拆分出的汉语词组进行词频标识。为开发人员在对搜索关键词的理解分析上提供有效的参考,以提高检索精度。整个词频标识是以各大报刊媒体文章为基础...

    程序员面试刷题的书哪个好-tiny-task:编程小练习

    统计字符串中的单词数目——统计字符串中单词的数目,更复杂的话从一个文本中读出字符串并生成单词数目统计结果。 RSS源创建器——可以从其它来源读取文本并将其以RSS或者Atom的格式发布出去。 实时股价——可以查询...

    Advanced Bash-Scripting Guide <>

    使用xargs 分析单词出现的频率 12-9. 使用 expr 12-10. 使用 date 命令 12-11. 分析单词出现的频率 12-12. 那个文件是脚本? 12-13. 产生10 进制随机数 12-14. 使用 tail 命令来监控系统log 12-15. 在一个脚本中模仿...

    EmEditor Pro(文本编辑器) V15.9.0 绿色中文版

    也许是因为使用了Vim的缘故,当然,还有一个主要原因是最近使用文本编辑器编写TXT文件频率很高,之后选择其他的文本编辑器,polaris都 会优先考虑对TXT文件类型的可配置性。这方面Vim是一个很好的选择。前面说过,...

    python中字符串前面加r的作用

    本文实例讲述了python中字符串前面加r的作用。分享给大家供大家参考。具体分析如下: ... 您可能感兴趣的文章:python统计文本字符串里单词出现频率的方法Python字符串逐字符或逐词反转方法Python合并字符串

    hw-16-2-p21ajoliet:GitHub Classroom创建的hw-16-2-p21ajoliet

    编写一个程序,提示用户输入文本文件的名称,并生成一个输出文件,该文件是原始文件的副本,但带有行号。 新文件应名为copy_filename.txt ,其中filename.txt是原始文件的名称。 此新文件中每行的前四个字符应为3位...

Global site tag (gtag.js) - Google Analytics