Libsvm是台湾大学林智仁教授等研究人员开发的一个用于支持向量机分类,回归分析及分布估计的c/c++开源库。另外,它也可以用于解决多类分类问题。
Weka是一个开源的机器学习软件,集成了数据预处置、机器学习算法、可视化功效,实现了大部分常见的机器学习算法,包含分类。Weka是国外有名教材《Data Mining: Practical Machine Learning Tools and Techniques (Second Edition)》所采取的试验平台。
Yale与Weka相竞争的另一个开源的机器学习软件是Yale,自称实现了Weka的所有算法,兼容Weka的数据格式。现在其开源版本已经更名为RapidMiner。
Bow与Weka和Yale不同,Bow是专门为文本处理设计的开源包。Bow包括三个部分:Rainbow(文本分类)、Arrow(文本检索)和Crossbow(文本聚类)。
Classifier4j
常见的文本分类方法
Rocchio方法
每一类断定一个中心点(centroid),计算待分类的文档与各类代表元间的间隔,并作为判定是否属于该类的判据。Rocchio方法最早由[Hull, 1994]引进文本分类范畴,后来又有很多文章进行了改良。Rocchio方法的特点是容易实现,效力高。毛病是受文本集散布的影响,比如计算出的中心点可能落在相应的类别之外[Sebastiani, 2002]。
朴素贝叶斯(naive bayes)方法
将概率论模型应用于文档自动分类,是一种简单有效的分类方法。应用贝叶斯公式,通过先验概率和类别的条件概率来估量文档对某一类别的后验概率,以此实现对此文档所属类别的断定。[Lewis, 1998]介绍了朴素贝叶斯方法的发展和各种变体及特点。
K近邻(K-Nearest Neightbers, KNN)方法
从训练集中找出与待分类文档最近的k个邻居(文档),根据这k个邻居的类别来判定待分类文档的类别。KNN方法的长处是不需要特征选取和训练,很轻易处理类别数目多的情形,缺陷之一是空间复杂度高。KNN方法得到的分类器是非线性分类器。此方法最早由[Yang & Chute,1994]提出。
支持向量机(SVM)方法
对于某个类别,找出一个分类面,使得这个类别的正例和反例落在这个分类面的两侧,而且这个分类面满足:到最近的正例和反例的间隔相等,而且是所有分类面中与正例(或反例)距离最大的一个分类面。SVM方法最早由[Joachims,1998]引进到文本分类中。SVM方法的长处是应用很少的练习集;毛病是太依附于分类面邻近的正例和反例的地位,具有较大的偏执
分享到:
相关推荐
利用开源框架构建基于深度神经网络的短文本分类器.pdf
开源图像类别分类器 用法: 创建词汇表并将其保存在文件中。 ./run.py -v <images> -o <images>: is a path to a folder containing the images that will construct the vocabulary from them. <vocab>: ...
tweetokenize, 基于 Twitter 数据的分类器分类与预处理 tweetokenize基于正则表达式的Twitter的。 专注于标记和预处理以训练分类器对情绪。情绪或者情绪的分类。用作在 python 包装器之间进行粘附和自然语言工具包...
启动后你就可以开始储存密码,在 KeePass Password Safe 软件中已经有一些预设的密码...多样:软件是开源的,数据库除了在Windows可以使用,在Linux、MacOS X、PocketPC、Symbian、BlackBerry、PalmOS等都可以使用。
个人基于谷歌开源的BERT编写的文本分类器(基于微调方式),可自由加载NLP领域知名的预训练语言模型BERT、 Roberta、ALBert及其wwm版本,同时适配ERNIE1.0. 该项目支持两种预测方式: (1)线下实时预测 (2)服务端...
机器学习的开放项目三元分类器
8、设置墙纸失败9、Sveil最新版通告窗口不能自动关闭10、tiny_mce在IE浏览器中错误11、在IE浏览器中添加/编辑分类JavaScript错误12、sql语句表名前缀失败13、添加货币不允许重复14、在IE、Opera浏览器中不能打开分类...
这四个部分相互关联,尽管从概念上讲,DORI、新的临床决策支持用户界面和 EyesFirst 分类器都可以单独使用。 EyesFirst 分类器是一个 MATLAB 程序,它通过许多统计分析来确定视网膜图像的各种特征。 它被赋予一个 ...
演示/分类器.py:用于训练和使用分类器的演示。 演示/classifier_webcam.py:演示如何在网络摄像头流上使用经过训练的分类器。 评估:LFW 准确性评估脚本。 openface:Python 库代码。 models:开放面和第三方库的...
C++基于Qt编写的BP神经网络分类器演示程序源码。 特性如下: 1.支持多隐藏层,支持各隐层节点数调节 2.最多支持6类样本的分类 3.使用2个线程进行运算,分别为训练线程和绘图线程,训练连续 4.可以在训练过程中...
COCOWO1.0开源博客源码 多浏览器兼容,能够很好得兼容Mozilla,IE等浏览器 功能强大的文章编辑器,同时兼容两种编辑方式.在线编辑器采用FckEditor. COCOWOBLOG采用的UBB编辑器由Blog作者独立开发.支持自定义面板和...
通过对多个网上开源项目(Nbear三层开发结构+jquery菜单+DotNetTextBox在线编辑器控件+Anthem.net Ajax框架)整合而成的一个Ajax无刷新整合型网站开源框架! 安装调试: 1.打开SQL Server Management Studio,登录SQL...
音频分类器是能够预测声音是否存在的模型。 这种分类器的创建通常很困难,需要专家的帮助。 EasyClassifier旨在使经验不足的用户可以更直观地创建优质的音频分类器。 对于指南,请查看我们的Wiki:...
注意:此项目处于beta阶段。 但是,我计划将其开发成一个更... SimpleFileSorter具有一个简单的概念,即搜索用户指定的文件夹,以根据扩展名或用户指定的位置将所有文件分类为子文件夹。 我们致力于使该程序简单易用。
该系统是一个贝叶斯分类器,根据决策选项的条件概率计算(和比较)决策。 该系统目前根据一些选定的特征对鸢尾花数据集中的 3 组花朵进行分类。 使 Iris 脱颖而出的概念是使用“窗口”。 采样时将窗口与阈值结合在...
5、将量具一一编号,按按规格、名称、厂家进行检索分类。 6、可根据量具的合格与否进行检索分类。 7、可设置量具的使用有效期,便于到期后进行提醒检定。 8、快捷的一键增加规格相同的多件量具,编号自动填写,其它...
tensorflow_image_classifier, 在Youtube上,TensorFlow图像分类器演示 @Sirajology Tensorflow图像分类器这是TensorFlow中的'图像分类器in的代码,在上是。 使用这里 CodeLab插件作为指南。 这个教程也很有帮助。...
matlab中洋红色代码设计最小错误率分类器 作者: 奈穆尔·哈克 F 1 目标 本实验的目的是使用高斯分布建模的后验概率对一些样本点进行分类,以计算似然概率。 这种分类器的目的是在分类过程中最小化错误率。 因此,该...
这是一个 C++ 的朴素贝叶斯文本分类器库,可以对文本中的垃圾邮件、基因、情感类型进行分类。 自 1950 年代以来,朴素贝叶斯已被广泛研究。 它在 1960 年代初期以不同的名称引入文本检索社区,并且仍然是文本分类的...
榆木分类器分类 ELM和FLN分类该代码在matlab中生成2个clands的rand数据并将其绘制并通过ELM,FLN分类器进行分类