最新文章列表

利用Mahout实现在Hadoop上运行K-Means算法

class="full-post-title">利用Mahout实现在Hadoop上运行K-Means算法   一、介绍Mahout     Mahout是Apache下的开源机器学习软件包,目前实现的机器学习 ...
wbj0110 评论(0) 有755人浏览 2014-05-14 19:10

Mahout的相似性度量(相似度算法)

User CF 和 Item CF 都依赖于相似度的计算,因为只有通过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐。上文简单的介绍了相似性的计算,但不完全,下面就对常用的相似度计算方法进行详细的介绍:   1. 基于皮尔森相关性的相似度 —— Pearson correlation-based similarity 皮尔森相关系数反应了两个变量之间的线性相关程度,它 ...
wbj0110 评论(0) 有1495人浏览 2014-04-11 10:40

Mahout的安装配置与使用

 Mahout 是Apache旗下的一个机器学习和数据挖掘的分布式框架,包括聚类,分类,协同过滤,关联规则挖掘等 经典的算法。      1. 安装Maven      wget http://apache.etoak.com//maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz 下载 最新版本的Maven. tar xv ...
wbj0110 评论(0) 有765人浏览 2014-04-08 17:37

Mahout协同推荐简单实例

Mahout给我们提供的强大的协同过滤算法。需要新建一个基于Maven的工程,下面是 pom.xml需要导入的包。
wbj0110 评论(0) 有704人浏览 2014-04-04 09:41

Mahout 快速入门(一)

本实例是基于用户推荐的事例教程,来源于apache mahout http://mahout.apache.org/users/recommender/userbased-5-minutes.html 1. 准备数据。利用mahout 提供的简单的数据,生成数据文件dataset.csv。每一列分别表明 用户ID ItemID value(表明一种关系,用户对该商品的评级) 1,10,1.0 1, ...
TRAMP_ZZY 评论(0) 有1024人浏览 2014-03-29 10:32

用Hadoop构建电影推荐系统

用Hadoop构建电影推荐系统 转自:http://blog.fens.me/hadoop-mapreduce-recommend/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcata ...
秦昭襄王 评论(0) 有3701人浏览 2014-02-19 09:49

Mahout系列----MinHash聚类

Map:   Vector featureVector = features.get();     if (featureVector.size() < minVectorSize) {       return;     }     // Initialize the MinHash values to highest     for (int i = 0; i < numHa ...
thd52java 评论(0) 有1665人浏览 2013-12-05 16:01

Mahout – 机器学习

wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz tar -xzvf mahout-distribution-0.8.tar.gz cd mahout-distribution-0.8 sudo vi /etc/profile 增加:     export PATH= ...
wbj0110 评论(0) 有799人浏览 2013-12-03 09:43

mahout中LDA简介以及示例

翻译自: https://cwiki.apache.org/confluence/display/MAHOUT/Latent+Dirichlet+Allocation   简介: Latent Dirichlet Allocation (Blei et al, 2003)是一个强大的学习方法将words聚到一些topics里面,以及把一些document表示成topics的一些集合。 ...
sharp-fcc 评论(1) 有4241人浏览 2013-11-18 13:07

Mahout系列之----kmeans 聚类

Kmeans是最经典的聚类算法之一,它的优美简单、快速高效被广泛使用。 Kmeans算法描述 输入:簇的数目k;包含n个对象的数据集D。 输出:k个簇的集合 ...
thd52java 评论(2) 有3203人浏览 2013-11-10 12:26

Mahout系列之------Canopy算法

Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。 (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p。 (3)计算S中所有点到p的距离dist (4)若dist<t1,则将相应点归到C,作为弱关联。 (5)若dist<t2,则将相应点移出S,作为强关联。 (6)重复(2)~(5), ...
thd52java 评论(0) 有1286人浏览 2013-11-09 14:49

mahout系列之-----相似度

Mahout推荐系统中有许多相似度实现,这些组件实现了计算不能User之间或Item之间的相似度。对于数据量以及数据类型不同的数据源,需要不同的 相似度 ...
thd52java 评论(0) 有2215人浏览 2013-11-09 14:47

Mahout 系列之----距离度量

x = (x1,...,xn) 和y = (y1,...,yn) 之间的距离为   (1)欧氏距离   EuclideanDistanceMeasure     (2)曼哈顿距离  ManhattanDistanceMeasure      (3)马氏距离MahalanobisDistanceMeasure 马氏距离是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。 ...
thd52java 评论(0) 有1106人浏览 2013-11-09 14:43

Mahout系列之----共轭梯度预处理

    对于大型矩阵,预处理是很重要的.常用的预处理方法有:                    (1) 雅克比预处理                      (2)块状雅克比预处理                 (3)半LU 分解                         (4)超松弛法
thd52java 评论(0) 有1724人浏览 2013-11-09 12:34

Mahout 系列之----共轭梯度

无预处理共轭梯度       要求解线性方程组 ,稳定双共轭梯度法从初始解 开始按以下步骤迭代:   任意选择向量 使得 ,例如, 对
thd52java 评论(0) 有2414人浏览 2013-11-09 12:11

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics