一、概念
二、特征选择方法总结
一、概念
特征词选择和特征词权重
1.特征词选择:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。
常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutualInformation)、潜在语义分析LSA、期望值交叉算熵、文本证据权、termstrength(TS)、GSSCoefficient、oddsratio。
2.特征词权重:每一个特征项的重要程度
常见的算法:TF-IDF,TF的改进,信息熵的引用
3.区别:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。
二、特征选择方法总结
1.文档频率
词条的文档频率(document frequency)是指在预料中出现该词条的文档的数目。只有当某词条在较多的文档中出现时才被保留下来,DF值低于某个阈值的词条是低频词,将这样的词条从原始特征空间中移除,不但能够降低特征空间的维数,而且还有可能提高分类的精度。
DF是一种最简单的词约简技术,由于具有相对于预料规模的线性复杂度,所以它能够容易地被用于大规模的语料特征选择中。
缺点:对低文档频的特征项不可靠,而且不能说明词条和类别的相关性
2.互信息
在互信息算法中,采用计算特征词 t 和类别 c 之间的相关度:
其中, A 为在类别 c 中特征词 t 出现的文档数; B 为在除了类别 c 的其他类别中特征词 t 出现的文档数; C 为在类别 c 中特征词 t 未出现的文档数; N 为所有类别中的文档数的总和。如果共有 m 个类别,那么每个特征词将得到 m 个相关度值,取这 m 个值的平均值作为每个特征词的权值,权值大的特征词被保留的可能性大。
3. 信息增益
信息增益 (IG) 是公认较好的特征选择方法,它刻画了一个词语在文本中出现与否对文本情感分类的影响,即一个词语在文本中出现前后的信息嫡之差。某个词语的信息增益值越大,说明它对分类的贡献就越大。信息增益的计算见公式:
P(Ci) ,表示类别 Ci 出现的概率,其实只要用 1 除以类别总数就得到了(这是说你平等的看待每个类别而忽略它们的大小时这样算,如果考虑了大小就要把大小的影响加进去)。
P(t) ,就是特征 t 出现的概率,只要用出现过 t 的文档数除以总文档数就可以了
P(Ci|t) 表示出现 t 的时候,类别 Ci 出现的概率,只要用出现了 T 并且属于类别 Ci 的文档数除以出现了 T 的文档数就可以了
缺点 :信息增益最大的问题还在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓 “ 全局 ” 的特征选择(指所有的类都使用相同的特征集合),而无法做 “ 本地 ” 的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。
4. 开方拟和检验方法 (CHI 统计 )
开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否
5. 潜在语义分析LSA
LSA思想方法最初应用于文本信息检索领域有效地解决了同义词和多义词的问题,通过识别文本中的同义词, LSA将信息检索精度提高了10%--30%
随着应用领域的不断拓展, LSI在信息过滤、信息分类/聚类、交叉语言检索、信息理解、判断和预测等众多领域中得到了广泛的应用。(语义,降维)
相关推荐
然而,人们还是总结出了文本挖掘的通用方法。本章介绍如何用强大却出奇简单的朴素贝叶斯算法消除社会媒体用语的歧义。朴素贝叶斯算法在计算用于分类的概率时,为简化计算,假定各特征之间是相互独立的,因此名字中...
朴素贝叶斯 分类算法数据集文本挖掘(Text Mining,从文字中获取信息)是一个比较宽泛的概念,这一技术在如今每天都有海量文本数据生成的时代越来越受到关注。目前,在机器学习模型的帮助下,包括情绪分析,文件分类...
这种从数据中“淘金”,从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘;...
基于贝叶斯及KNN算法的newsgroup文本分类器,eclipse工程 程序运行方法:用eclipse打开工程,并将newsgroup文档集解压到 F:\DataMiningSample\orginSample目录下,同时在F:\DataMiningSample\ 下建好如附件“F盘...
(multimediadatamining)、隐私保护数据挖掘(privacy-preservingdatamining)到文本数据挖掘(textmining)和Web挖掘(Webmining),再到社交媒体挖掘(socialmediamining)都是由应用推动的。工程性和集合性决定...
分类法生成器 ###关联: ... 但是,机器学习方法的问题在于它们(1)需要专门的数据挖掘人员(2)不能清楚描述属于该主题的内容和不属于主题的内容,这使得领域专家无法轻松地进行交互。 另一种选择
生物信息学(蛋白质结构分析、基因组识别)、社会...通过介绍现阶段图数据挖掘技术的研究进展,总结了图数据挖掘的特点、现实意义、主要问题以及应用场景,讨论并预测了图数据,尤其是不确定图数据研究的发展趋势和热点。
真棒知识图 精选的很棒的知识图教程,项目和社区的列表。 中文和英文资源分别以语言列出。 请随时拉请求添加链接。 目录 文件 我写纸质便笺并将其张贴在问题中。...从文本中挖掘知识图: WSDM 2018教程中的一个教
并依照任务框架对现有技术进行了分类,基本类型为论坛文本预处理、主题挖掘算法和主题建模,详细阐述了以上三类论坛主题挖掘技术的基本特征和典型方法,进行了比较与总结,对论坛主题挖掘当前存在的问题及其发展趋势...
本文总结Sum-Product Networks这一新的深度概率模型的研究进展,先介绍了固定结构的Sum-Product Networks的参数学习方法,再介绍了根据不同的输入数据而进行的结构和参数学习方法。并且介绍了判别式和生成模型的Sum-...
基于Gensim的Python的文本分析方法:TFIDF LDA1、简介2、中文文本预处理3、Gensim文本挖掘3.1 TFIDF文本分析3.2 LDA文本分析4、总结 1、简介 文本数据的挖掘在当今互发达的联网环境下显得越来越具有价值,数据分析师...
│ 任务125:拒绝服务介绍、DoS分类、个人DoS分类方法.mp4 │ 任务126:Syn-Flood、IP地址欺骗.mp4 │ 任务127:Smurf、Sockstress.mp4 │ 任务128:TearDrop.mp4 │ 任务129:DNS放大.mp4 │ 任务130:SNMP放大.mp4...
大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.该文对大规模层次分类问题进行了分析.首先,给出了大规模层次...最后总结了各种大规模层次分类问题求解方法并指出了未来的研究方向.
然后通过数据挖掘方法的方法实现中文分词,利用LDA聚类模型获得分词向量化从而获得用户文本的特征向量,接着利用改进的TF-IDF分类方法实现对用户不同维度信息的预测,从而构建了用户的互联网基础属性特征。其次通过对...
本书是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。本书理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的...
《统计学习方法》是统计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。 《统计学习方法》 第1章统计学习...
灾害响应管道项目 ...CRISP-DM(跨行业数据挖掘标准) 4业务理解 业务目标:使灾难响应组织能够通过分析文本消息以解码所报告的问题,从而将从不同渠道(直接和社交媒体)接收的传入文本消息分类为不
目前,MapReduce已经被用于自然语言处理、机器学习及大规模图处理等领域。...然后对MapReduce近年来在文本处理各个方面的应用进行分类总结和整理;最后对MapReduce的系统和性能方面的研究也做了一些介绍与展望。
目前应用于欺诈检测和 安全、一系列广泛的自动化助理以及挖掘非结构化数据等领域。代表*厂商包括:Basis Technology、Coveo、ExpertSystem、Indico、Knime、Lexalytics、Linguamatics、Mi ndbreeze、Sinequa、...