介绍
这个Mahout例子的源码来自一个分类维基百科数据的导出工具,可以Naive贝叶斯或者附加的 Naive贝叶斯在Mahout的实现。下面将描述这个例子,导出维基的数据,然后分类到不同的块。这些块是根据国家进一步分类的。根据这些分割,分离器训练使能够预测,一个未曾看到过的文章被分类到那个国家。
运行例子
1.下载维基百科
数据
2.解压文件,得到enwiki-latest-pages-articles.xml
3.创建目录$MAHOUT_HOME/examples/temp,拷贝这个xml到这里
4.牵出数据
$MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $MAHOUT_HOME/examples/temp/enwiki-latest-pages-articles10.xml -o wikipedia/chunks -c 64
我们强烈的建议,备份这个结果到另外一个目录,这样下次就不需要同样操作这个步骤如果发生意外情况
5.创建chunks到HDFS,进行如下核实
hadoop fs -ls wikipedia/chunks
将列出所有的文件,如chunk-0001.xml...
6.基于分割的维基百科数据,创建国家
$MAHOUT_HOME/bin/mahout wikipediaDataSetCreator -i wikipedia/chunks -o wikipediainput -c $MAHOUT_HOME/examples/src/test/resources/country.txt
7.验证创造出的数据
hadoop fs -ls wikipediainput
你将能够看到part-r-00000这个文件
8.Train分离器
$MAHOUT_HOME/bin/mahout trainclassifier -i wikipediainput -o wikipediamodel
这个模型文件将能够从HDFS上的wikipediamodel目录获取到
9.Test分离器
$MAHOUT_HOME/bin/mahout testclassifier -m wikipediamodel -d wikipediainput
原文连接:https://cwiki.apache.org/confluence/display/MAHOUT/Wikipedia+Bayes+Example
分享到:
相关推荐
Chinese-Text-Classification-Pytorch-master。 数据齐全,说明文档详细。点击即用! # 训练并测试: # TextCNN python run.py --model TextCNN # TextRNN python run.py --model TextRNN # TextRNN_Att python ...
cnn-text-classification-tf-master,一个卷积神经网络的小实例,基于TensorFlow
PyTorch-Image-Models-Multi-Label-Classification-main.zip
基于TensorFlow在中文数据集上的简化实现,使用了字符级CNN和RNN对中文文本进行分类,达到了较好的效果。
朴素贝叶斯分类 描述 该存储库包含一些演示,这些演示在我的名... docker run -p 8888:8888 -e ENABLE_JUPYTER_LAB=YES naive-bayes 这将提示您连接到 (假设您将端口保持不变),并将对笔记本电脑和数据进行预准备。
Bert-Pytorch-TextClassification-master
CNN-for-Sentence-Classification-in-Keras, 在Keras中用于句子分类的卷积神经网络 基于的卷积神经网络在句子分类中的应用训练卷积网络的情感分析。 根据"用于句子分类的卷积神经网络"的,链接 。 灵感由 Denny ...
机器学习分类模型 Introduction-to-ML-Classification-Models-using-scikit-learn-master.zip
城市声音分类,下载visual studio 2017,直接打开.sln文件,即可使用
基于分词与BP网络的文本分类 首先下载整个文件,BP文本分类-语义特征提取.rar主要存放了相关的数据集 代码主要包括: 1.特征提取 首先对文本信息进行分词处理,采用基于字符串匹配的方法: 依次截取一到多个词,...
PYNQ Classification - Python on Zynq FPGA for Neural Networks
对树叶分类问题进行的一个matlab编码,文档中有树叶的原始数据以及通过卷积神经网络对树叶分类代码的实现,包括特征提取以及树叶分类,准确率达93%。
EEG-Emotion-classification-master_merelyts3_said63o_songc4x_DEAP情绪识别_DEAP数据集下载_源码.zip
分类工具箱-Classification-MatLab-Toolbox.rar 模式识别matlab工具箱,包括SVM,ICA,PCA,NN等等模式识别算法
xgboost训练数据,Mushroom Classification。Mushroom Classification--xgboost训练数据
新闻文本分类算法
肿瘤图片分类代码,可应用于医疗病理学图片的分类(可通用于各种医疗图像图片的分类),具有良好的效果,可供大家学习
otto-group-product-classification-challenge数据
Text Classification example 文本分类 例子 Text Classification example 文本分类 例子 Text Classification example 文本分类 例子 Text Classification example 文本分类 例子
MNIST分类多项式vs高斯朴素贝叶斯 数据集是通过load_digits()方法从sklearn.datasets导入的。 探索数据集: 标签:0 灰色的 标签:1 单纯疱疹病毒 标签:2 X.shape()显示有1797个示例,每个示例具有64个功能。 ...