最新文章列表

自然语言处理工具pyhanlp分词与词性标注

  Pyhanlp分词与词性标注的相关内容记得此前是有分享过的。可能时间太久记不太清楚了。以下文章是分享自“baiziyu”所写(小部分内容有修改),供大家学习参考之用。 简介 pyhanlp是HanLP的Python接口。因此后续所有关于pyhanlp的文章中也会写成HanLP。HanLP是完全用Java自实现的自然语言处理工具包。特点是完全用Java实现不引入第三方工具包。完全开源。中文 ...
adnb34g 评论(0) 有616人浏览 2019-05-18 10:10

基于gibbsLDA的文本分类

之前几篇文章讲到了文档主题模型,但是毕竟我的首要任务还是做分类任务,而涉及主题模型的原因主要是用于text representation,因为考虑到Topic Model能够明显将文档向量降低维度,当然TopicModel可以做比这更多的事情,但是对于分类任务,我觉得这一点就差不多了。   LDA之前已经说到过,是一个比较完善的文档主题模型,这次试用的是JGibbsLDA开源的LDA代码做L ...
u010223750 评论(0) 有3959人浏览 2016-05-06 15:46

达观数据:文本大数据的机器学习自动分类方法

  随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程(达观数据科技联合创始人张健)。文本分类有着广泛的应用场景,例如:       新闻网站包含大量报道文章,基于文章内容,需要将这些文章按题材进行自动分类(例如自动 ...
大数据顾问 评论(1) 有4842人浏览 2016-01-07 13:42

LIBSVM学习——文本分类

最近期末事儿比较多,没什么大东西,最近在使用libsvm做文本分类,虽然感受到了LIBSVM的便捷之处,但是也感受到了Libsvm的调参的复杂性,写下来Mark一下   文本分类,使用的是路透社的语料最为训练和测试数据集,原始的语料有91类大概十几万篇文章,由于以一些类的数量太少(本次实验室将一个类别下的文本数量少于100篇的过滤)而不具备训练价值(对于有监督的学习而言),最后我们得到的是8个 ...
u010223750 评论(0) 有6064人浏览 2015-12-30 15:11

文本分类步骤

From:http://palydawn.blog.163.com/blog/static/18296905620124171155256/ Keywords: 文本分类 分词 停用词 文本特征 特征向量 布隆过滤器 ICTCLAS 1. 序言      最近一直在做 ...
forever1220 评论(0) 有2069人浏览 2014-07-30 08:51

数据挖掘-文本分类:特征选择方法总结

一、概念 二、特征选择方法总结   一、概念    特征词选择和特征词权重    1.特征词选择:特征词选择是为了降低文本表示的维度,而特征词权 ...
dengqsintyt 评论(0) 有5400人浏览 2014-07-27 16:02

朴素贝叶斯在文本分类中的应用

       听过朴素贝叶斯的人,知道多项式朴素贝叶斯是神马,伯努利贝叶斯是神马吗?如果不知道,请继续读下去。       其实所谓的“多项式 ...
yzmduncan 评论(0) 有11014人浏览 2013-08-29 16:50

分类算法综述

    分类的概念很简单,就是给出一个样本x,判断样本所属的类别y,分类器就是映射函数f: y=f(x)。当然,这个函数是需要根据以往的经验(大量已知 ...
yzmduncan 评论(0) 有2699人浏览 2013-08-25 15:44

贝叶斯文本分类 java实现

    昨天实现了一个基于贝叶斯定理的的文本分类,贝叶斯定理假设特征属性(在文本中就是词汇)对待分类项的影响都是独立的,道理比较简单,在中文分类系统中,分类的准确性与分词系统的好坏有很大的关系,这段代码也是试验不同分词系统才顺手写的一个。     试验数据用的sogou实验室的文本分类样本,一共分为9个类别,每个类别文件夹下大约有2000篇文章。由于文本数据量确实较大,所以得想办法让每次训练的结果都 ...
AngelAndAngel 评论(3) 有12626人浏览 2012-09-25 15:15

特征选择方法之信息增益【转】

除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择, ...
bjwyl66 评论(0) 有1726人浏览 2012-08-27 17:18

文本去重第一步:基于内容的文本相似性计算

转载自 yshjava的个人博客主页 《文本去重第一步:基于内容的文本相似性计算》 为何要计算文档相似性       在今年年初的时候,我开始尝 ...
杨胜寒 评论(2) 有7612人浏览 2012-06-14 10:15

基于本体语义标注

    本体是哲学中的概念,主要是描述实体,以及实体与实体之间的关系。本文包含三部分,首先介绍下本体在哲学中是啥(根据自己的理解,精确性 ...
单眼皮大娘 评论(0) 有2502人浏览 2012-04-20 16:56

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics