用HashMap来解决
假设单词不存在跨行的,每个单词用,. ;分割
import java.io.*;
import java.util.*;
public class FindWord {
public void countNum()throws IOException{
BufferedReader br=null;
try{
br= new BufferedReader(new FileReader("D://111.txt"));
Map map= new HashMap();
for(String s=br.readLine(); s!=null; s=br.readLine()){
StringTokenizer st= new StringTokenizer(s,",. ;");
while(st.hasMoreTokens()){
String temp=st.nextToken();
if(map.containsKey(temp)){
map.put(temp, new Integer((Integer)map.get(temp)+1));
}else{
map.put(temp, new Integer(1));
}
}
}
for(Iterator it=map.entrySet().iterator();it.hasNext();){
Map.Entry<String, Integer> entry=(Map.Entry<String, Integer>)it. next();
System.out.println(entry.getKey()+"-->"+entry.getValue());
}
}catch(Exception e){
e.printStackTrace();
}finally{
br.close();
}
}
public static void main(String[] args)throws IOException{
FindWord fw=new FindWord();
fw.countNum();
}
}
分享到:
相关推荐
从一片文档中提取出所有的单词(word),然后计算每个单词出现的频率(次数),按照一定的次序将排序好的单词以“word(频率)”的形式打印出来。 可以按照频率高低,或者单词顺序打印所有出现的单词。
可以用简单的图形界面显示文本所有英文单词的数目,并可以查询固定单词的个数
本文实例为大家分享了python统计文本中单词出现频率的具体代码,供大家参考,具体内容如下 #coding=utf-8 import os from collections import Counter sumsdata=[] for fname in os.listdir(os.getcwd()): if os....
这道题在实际应用场景中使用比较广泛,比如统计历年来四六级考试中出现的高频词汇,记得李笑来就利用他的编程技能出版过一本背单词的畅销书,就是根据词频来记单词,深受学生喜欢。这就是一个把编程技能用来解决实际...
2、实现统计HDFS系统中多个文本文件中的单词出现频率。 三.实验过程截图及说明 1、在本地创建多个文本文件并上传到Hadoop: (1)创建本地存放文件的文件夹: (2)使用vim命令向文件里添加内容: (3)在Hadoop里...
它的主要功能是通过Python编程来自动处理和分析文本数据,统计其中各个单词出现的频率。该工具包首先会读取用户指定的文本文件,然后使用Python的内置字符串函数或正则表达式库来分割文本,提取出所有的单词。接着,...
3. 编写程序求出1万以内的所有素数,并将这些素数输出到一个文本文件中,每行文本只包含一个素数数据。 该文本文件内容要求可以用记事本程序来查看。 4. 编写程序求出1万以内的所有素数,然后再判断这些素数中...
要的积分多 一定有我的理由 肯定比网上搜索到的要好很多呢 么么哒 欢迎评价
它考虑了单词在文档中的出现频率以及在整个语料库中的频率,以确定其权重。高频出现在文档中但低频在语料库中的词汇被视为重要,反之亦然。搜索引擎广泛使用TF-IDF来评估文档与用户查询的相关性,以决定搜索结果排名...
基于C++实现的自适应文本检索系统源码+项目运行说明+数据(课程大作业).zip 此次作业完成了任务:“每一次检索后对返回的文档执行相关反馈的判断,重新生成查询”。项目全部使用C++语言,并且独自从零开始编写。代码...
使用xargs分析单词出现的频率 12-9. 使用 expr 12-10. 使用 date 命令 12-11. 分析单词出现的频率 12-12. 那个文件是脚本? 12-13. 产生10进制随机数 12-14. 使用 tail 命令来监控系统log 12-15. 在一个脚本中模仿 ...
统计字符串中的单词数目——统计字符串中单词的数目,更复杂的话从一个文本中读出字符串并生成单词数目统计结果。 文本编辑器——记事本类型的应用,可以打开、编辑、保存文本文档。可以增加单词高亮和其它的一些...
词频:即词组在广域的所有汉语词组中出现的相对频率值。 此功能可对拆分出的汉语词组进行词频标识。为开发人员在对搜索关键词的理解分析上提供有效的参考,以提高检索精度。整个词频标识是以各大报刊媒体文章为基础...
统计字符串中的单词数目——统计字符串中单词的数目,更复杂的话从一个文本中读出字符串并生成单词数目统计结果。 RSS源创建器——可以从其它来源读取文本并将其以RSS或者Atom的格式发布出去。 实时股价——可以查询...
使用xargs 分析单词出现的频率 12-9. 使用 expr 12-10. 使用 date 命令 12-11. 分析单词出现的频率 12-12. 那个文件是脚本? 12-13. 产生10 进制随机数 12-14. 使用 tail 命令来监控系统log 12-15. 在一个脚本中模仿...
也许是因为使用了Vim的缘故,当然,还有一个主要原因是最近使用文本编辑器编写TXT文件频率很高,之后选择其他的文本编辑器,polaris都 会优先考虑对TXT文件类型的可配置性。这方面Vim是一个很好的选择。前面说过,...
本文实例讲述了python中字符串前面加r的作用。分享给大家供大家参考。具体分析如下: ... 您可能感兴趣的文章:python统计文本字符串里单词出现频率的方法Python字符串逐字符或逐词反转方法Python合并字符串
编写一个程序,提示用户输入文本文件的名称,并生成一个输出文件,该文件是原始文件的副本,但带有行号。 新文件应名为copy_filename.txt ,其中filename.txt是原始文件的名称。 此新文件中每行的前四个字符应为3位...