分词去停用词词频统计 -

forever1220

浏览: 33923 次

最近访客更多访客>>

minxiaomin

Jm8320933

wojiazaiyugang

kzmaker

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

分词去停用词词频统计

博客分类：

文本预处理

文本预处理

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import ICTCLAS.I3S.AC.ICTCLAS50;
/**
* 分词去停用词后词频统计（设定阈值，去掉低频值）
* @author Administrator
*
*/
public class Tongji1 {

static String[] stopWords=new String[636];//停用词个数
public static void loadStop() throws IOException {
//ArrayList stopwords=new ArrayList();//存放词语
        BufferedReader fr = new BufferedReader(new InputStreamReader(new FileInputStream(".\\Data\\stopwords_utf8.txt"),"utf-8"));
        String word=null;
        int count=0;
        word=fr.readLine();
        while(word!=null){
        //stopwords.add(word);
        stopWords[count]=word;
        count++;
        word=fr.readLine();
        }//省去每次加载停用词
}
public static String removeAll(String str){//去除停用等，同时去除词性标注
String RAll="";
String[] allWords = str.split(" ");
for(int i=0;i<allWords.length;i++){
int pos = allWords[i].lastIndexOf("/");
String temp="";
if(pos>0)
temp=allWords[i].substring(0,pos).trim();
if(temp.equals(" ")||temp.equals("　")||temp.equals(""))
;
else
RAll=RAll+temp+" ";
}
return RAll;
}
public static String removeW(String str){//去除标点符号
String removeW="";
String[] allWords = str.split(" ");
for(int k=0;k<allWords.length;k++){
        int pos = allWords[k].lastIndexOf("/");
        if(pos>0){
            String temp2=allWords[k].substring(pos+1,pos+2);//词性标注
        if(temp2.equals("w")||temp2.equals(""))//w标点或者为空
        ;
        else
    removeW=removeW+allWords[k]+" ";
        }
        }
return removeW;
}
public static String removeStop(String str){//去除停用等，但是保留词性标注
String afterStop="";
boolean flag=true;
String[] allWords = str.split(" ");
for(int k=0;k<allWords.length;k++){
        int pos = allWords[k].lastIndexOf("/");
        int n;
        if(pos>0){
            String temp1=allWords[k].substring(0, pos);//中文不包括词性标注
            String temp2=allWords[k].substring(pos+1,pos+2);//词性标注
            flag=true;
        if(temp2.equals("　")||temp2.equals("t")||temp1.equals("")||temp1.equals(" ")||temp2.equals("s")||temp2.equals("z")
        ||temp2.equals("d")||temp2.equals("p")||temp2.equals("c")||temp2.equals("u")||temp2.equals("e")||temp2.equals("y")
        ||temp2.equals("o")||temp2.equals("h")||temp2.equals("k")||temp2.equals("m")||temp2.equals("x")||temp2.equals("q")){
        //t时间词，s处所词，z状态词，d副词，p介词，c连词，u助词，e叹词，y语气词，o拟声词，h前缀，k后缀，m数词,q量词，x英语等字符串
        flag=false;
    }else
    for(n=0;n<stopWords.length;n++){
    if(temp1.equals(stopWords[n])){//去除停用词
    flag=false;
    break;
    }
    }
    if(flag)
        afterStop=afterStop+allWords[k]+" ";
        }
        }
return afterStop;
}
public static void testICTCLAS_FileProcess(String inDirectory,String OutDirectory)
{
try
{
ICTCLAS50 testICTCLAS50 = new ICTCLAS50();
//分词所需库的路径
String argu = ".";
//初始化
if (testICTCLAS50.ICTCLAS_Init(argu.getBytes("gb2312")) == false)
{
System.out.println("Init Fail!");
return;
}
testICTCLAS50.ICTCLAS_SetPOSmap(2);
// String OutDirectory="D:\\trian\\";
//         String inDirectory="D:\\articals\\";
//         File dirOut = new File(OutDirectory);
//         File fileOut[] = dirOut.listFiles();
//         for (int i = 0; i < fileOut.length; i++) {//先删除所有输出目录中的文件
//         if(fileOut[i].isFile())
//         fileOut[i].delete();
//         System.out.println("删除了"+fileOut[i].getName());
//         }
        String usrdir = "userdict.txt"; //用户字典路径
byte[] usrdirb = usrdir.getBytes();//将string转化为byte类型
//第一个参数为用户字典路径，第二个参数为用户字典的编码类型(0:type unknown;1:ASCII码;2:GB2312,GBK,GB10380;3:UTF-8;4:BIG5)
int nCount = testICTCLAS50.ICTCLAS_ImportUserDictFile(usrdirb, 2);//导入用户字典,返回导入用户词语个数
System.out.println(nCount+"个自定义词…………");
        File dirIn= new File(inDirectory);
        File fileIn[] = dirIn.listFiles();
        for (int i = 0; i < fileIn.length; i++) {
        String Inputfilename=fileIn[i].getPath();
byte[] Inputfilenameb = Inputfilename.getBytes();//将文件名string类型转为byte类型
//分词处理后输出文件名
String Outputfilename =OutDirectory+fileIn[i].getName();
byte[] Outputfilenameb = Outputfilename.getBytes();//将文件名string类型转为byte类型
//文件分词(第一个参数为输入文件的名,第二个参数为文件编码类型,第三个参数为是否标记词性集1 yes,0 no,第四个参数为输出文件名)
if(testICTCLAS50.ICTCLAS_FileProcess(Inputfilenameb, 0, 1, Outputfilenameb)==false){
System.out.println(fileIn[i].getPath()+"没有分词…………");
}
else
System.out.println(fileIn[i].getPath()+"分词成功，这是第"+i+"个文档");
        }
      //保存用户字典
testICTCLAS50.ICTCLAS_SaveTheUsrDic();
//释放分词组件资源
testICTCLAS50.ICTCLAS_Exit();
}
catch (Exception ex)
{
}
}

public static HashMap<String, Integer> every(String str){
String out="";
HashMap<String, Integer> wordmap= new HashMap<String, Integer>();
String[] words=str.split(" ");
int count=words.length;
System.out.println(count);
String[] strTongji=new String[count];//词
int[] strTimes=new int[count];//词频
for(int k=0;k<count;k++){//初始化
strTimes[k]=0;
strTongji[k]="";
}
for(int i=0;i<count;i++){//

if(words[i].equals("")||words[i].equals(" ")||words[i].equals("　"))
;
else{
for(int j=0;j<count;j++){//存储着最终的统计词
if(strTongji[j].equals("")){//如果最终统计词表为空则添加进去
strTongji[j]=words[i];
//System.out.println(words[i]);
strTimes[j]++;
break;
}else {
if(words[i].equals(strTongji[j])){//终统计词表中存在这个表里就词频数加1
strTimes[j]++;
break;
}
}
}}
}
for(int n=0;n<count;n++){
if(!strTongji[n].equals("")&&strTimes[n]!=0)
wordmap.put(strTongji[n],strTimes[n]);
else
break;
}
return wordmap;
}

public static void compute(String InDirectory,String OutDirectory) throws IOException{
loadStop();
BufferedWriter bw = null;
File dirIn= new File(InDirectory);
        File fileIn[] = dirIn.listFiles();
        for(int i=0;i<fileIn.length;i++){
        bw = new BufferedWriter(new FileWriter(new File(OutDirectory+fileIn[i].getName())));//文件名称
        String str="";
        BufferedReader reader = new BufferedReader(new FileReader(InDirectory+fileIn[i].getName()));//读取页数大于1的文件内容
        String line = null;
        line=reader.readLine();
        while (line != null) {
        line=removeW(line);
        line=removeStop(line);
        String temp=removeAll(line);
        str=str+" "+temp;
        line=reader.readLine();

        }
        reader.close();//
        List<Map.Entry<String, Integer>> sortedlist = new ArrayList<Map.Entry<String,Integer>>(every(str.trim()).entrySet());

    Collections.sort(sortedlist , new Comparator<Map.Entry<String, Integer>>() {
        public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
        if((o2.getValue() - o1.getValue()) > 0){
        return 1;
        }
        else
        return -1;
        }
    });

    for (int j = 0; j < sortedlist.size(); j++) {
    Map.Entry entry = sortedlist.get(j);
    //根据词频取词，大于2的词
    if((Integer)entry.getValue()>2)
    bw.write(entry.getKey().toString() + " " + entry.getValue().toString()+"\r\n");
    }
        bw.close();
        }
}

public static void main(String[] args) throws IOException {

testICTCLAS_FileProcess("E:语料库路径\\","D:\\分词后生成路径\\");//将文档分词
compute("D:\\分词后生成路径\\","D:\\词频统计路径\\");

}

}

分享到：

java.lang.OutOfMemoryError: Java heap sp ... | 特征提取计算——TF-IDF

2014-07-30 21:35
浏览 3056
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面: 这个工具不仅能够对文本进行基本的处理，如分词、词干提取和去除停用词，还提供了用户界面，使得操作更加直观易用。 1. **分词**：分词是将连续的汉字序列切分成有意义的词语单位，它是中文信息处理的基础。常见的...

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面）: 在这个项目中，我们主要探讨的是如何通过分词、词干提取、去停用词等预处理技术来有效地进行词频统计，并且提供了一个具有图形用户界面的工具，使得操作更为直观和便捷。首先，让我们了解一下分词。分词是将连续的...

中文分词常用停用词文档: 4. **后处理**：对去除停用词后的结果进行进一步处理，如词频统计、情感分析等。 ### 六、示例代码（Python）假设使用jieba分词工具对一段中文文本进行分词，并去除停用词： ```python import jieba from ...

cmd-bat-批处理-脚本-Screenshot.zip: cmd-bat-批处理-脚本-Screenshot.zip

升\降压电路的自计算表格及公式表达: 公式主要来自于德州仪器的datasheet 以及一些电路公式表达式

2025年自动检测生产线项目大数据研究报告.docx: 2025年自动检测生产线项目大数据研究报告.docx

cmd-bat-批处理-脚本-deactivate.zip: cmd-bat-批处理-脚本-deactivate.zip

cmd-bat-批处理-脚本-happy05 1.zip: cmd-bat-批处理-脚本-happy05 1.zip

基于MATLAB的单相光伏并网逆变器仿真研究: 在单相光伏逆变器相关领域，涉及诸多关键环节。首先，光伏系统建模是基础，其中光伏板作为能量来源，其特性建模至关重要。最大功率点跟踪（MPPT）技术用于确保光伏板输出功率最大化，而Boost升压电路则负责将光伏板输出的较低电压提升至适合逆变器处理的水平。在控制策略方面，电压电流双闭环控制是实现稳定输出的关键，通过精确控制电压和电流，保证逆变器的性能。最终目标是使并网电流波形达到标准正弦波形，以满足电网接入要求。希望与大家深入交流这些内容，共同探讨技术细节与优化方案。

cmd-bat-批处理-脚本-JoinDomain.zip: cmd-bat-批处理-脚本-JoinDomain.zip

cmd-bat-批处理-脚本-ppcp.zip: cmd-bat-批处理-脚本-ppcp.zip

最新修复版走路赚钱乐步2.0任务平台系统源码: 内附详细安装教程，亲测搭建无问题。一、乐步交易流程----购买乐步糖果方法一：在卖方市场选择合适的卖家或者用手机号定向查询特定卖家步骤一：点击首页下方【交易中心】。步骤二：点击【卖单列表】，选择合适的卖家或者用手机号搜索特定卖家，确定卖家之后点击该卖家后方的【购买】。步骤三：点击之后，系统会显示该卖家的收款信息。按照系统显示的收款信息付款，（付款备注交易订单号）付款完成之后上传凭证，等待卖家确认收款并且支付糖果。方法二：挂单买入糖果步骤一：点击首页下方【交易中心】。步骤二：点击【买单列表】--【发布买单】，填写购买糖果单价、数量、交易密码，点击【确定】，买单发布，等待匹配成交。二、乐步交易流程----出售乐步糖果方法一：在买方市场选择合适的买家或者用手机号定向查询特定买家步骤一：点击首页下方【交易中心】。步骤二：点击【买单列表】，选择合适的买家或者用手机号搜索特定买家，确定买家之后点击该买家后方的【出售】。步骤三：点击之后，系统会提示买家付款，买家按照系统提示的账号给卖家付款（付款备注交易订单号），付款完成之后上传凭证，等待卖家确定并且支付糖果。方法二：挂单卖出糖果步骤一：点击首页下方【交易中心】。步骤二：点击【卖单列表】--【发布卖单】，填写出售糖果单价、数量、验证码、交易密码，点击【确定】，卖单发布，等待匹配成交。

多媒体技术及应用实验三（音视频编码转换软件开发）: 包括一个python源程序和一个.exe文件

永磁同步电机速度环控制中的多种PID自整定技术及其应用 RBF神经网络: 内容概要：本文探讨了永磁同步电机（PMSM）速度环控制中多种PID自整定技术的应用，包括RBF神经网络PID、基于分解合并机制的RBF神经网络PID、基于小波神经网络的PID、粒子群算法优化PID、天牛须算法优化PID以及模糊PID自整定。每种技术都通过具体的数学模型和代码片段进行了详细的解释，旨在提升PMSM速度环控制的精度和效率。适合人群：从事电机控制系统研究和开发的技术人员，尤其是对PID自整定技术和智能算法感兴趣的工程师。使用场景及目标：适用于需要改进现有PMSM速度环控制系统的场合，目标是通过引入先进的PID自整定技术，提高系统的响应速度、稳定性和鲁棒性。其他说明：文中不仅介绍了各种技术的基本原理，还提供了部分Python代码示例，帮助读者更好地理解和实践这些方法。同时，强调了不同技术之间的对比和优势，便于读者根据实际情况选择最合适的技术路径。

桔子云测评小程序V1.1.1+前端.zip: 桔子云测评小程序，做专业测评系统小程序平台，支持微信小程序和抖音小程序，为网友提供心理测试，帮助你更好地了解自己的兴趣、性格、能力等特点，找到适合自己的成长之路。盈利模式流量主、激励视频解锁、单独付费测评、VIP会员付费等功能特色 1、支持定义3种题型：单题型、多题型、有因子多题型 2、因子题型支持算法自定义分析 3、答案支持单独自定义分享海报 4、IOS端可设置联系客服索取激活码付费方式 5、支持量表导入 6、支持跳转其他小程序 7、支持分销推广版本号：1.1.1 – 多开商业版【修复】添加项目出现分类串联问题【修复】快速测试出现结果错误问题【优化】重新测试体验流程 toutiao前端、微信前端都需要提交审核

2025年职称计算机考试题型及大纲.doc: 2025年职称计算机考试题型及大纲.doc

cmd-bat-批处理-脚本-TV no signal color bars.zip: cmd-bat-批处理-脚本-TV no signal color bars.zip

实证数据-2009-2023上市公司-绿色治理绩效数据-社科经管.rar: 该数据集为2009-2023年中国上市公司绿色治理绩效（GGP）面板数据，覆盖1557家上市公司，数据来源于华证ESG评级、上市公司年报及社会责任报告等公开披露信息。核心指标包括污染物排放达标/未达标得分、突发环境事故、环境违法事件、ISO14001认证情况等12项环境治理指标，采用Janis-Fadner系数法计算综合绩效值（GGP），反映企业在环境合规、绿色运营及社会责任履行等方面的表现。数据经学术团队整理校验，参考《管理世界》等期刊的测度方法，可直接用于ESG表现、绿色创新等领域的实证研究。部分样本包含财务指标匹配数据，便于多维度分析。

基于GJO-TCN-BiGRU-Attention的Matlab多变量时间序列预测算法及应用 BiGRU Matlab源码与数据集：GJO-TCN-BiGRU-Attention金豹算法优化多变量时间: 内容概要：本文介绍了利用Matlab实现的基于GJO-TCN-BiGRU-Attention算法的时间序列预测方法。该方法结合了时间卷积网络(TCN)、双向门控循环单元(BiGRU)以及注意力机制，用于多变量时间序列预测。文中详细描述了模型架构的设计思路及其各部分的功能，如TCN层用于捕捉长期依赖关系，BiGRU处理双向时序特征，而注意力层则赋予不同特征不同的权重。此外，还探讨了参数优化的方法——采用金豹优化(GJO)算法调整学习率、神经元数目、注意力机制的关键参数等超参数，并提供了完整的源代码和数据集。实验结果显示，该模型在电力负荷预测任务中表现出色，相比单一模型提升了大约8个百分点。适用人群：对时间序列预测感兴趣的科研工作者、研究生及以上水平的数据科学家和技术爱好者。使用场景及目标：适用于需要进行高精度多变量时间序列预测的应用场合，比如能源管理系统的负荷预测、金融市场趋势分析等领域。目标是提高预测准确性，降低误差。其他说明：文中提到一些实践经验，例如避免TCN层数过多导致梯度爆炸的问题，推荐使用RobustScaler进行数据标准化处理，以及选择合适的序列滑窗长度等技巧。

二十四节气之立秋节气介绍.pptx: 二十四节气之立秋节气介绍.pptx

最近访客 更多访客>>