机器学习中比较实用的是推荐引擎和分类算法
分类算法-k近邻 能有效的提高图片识别的成功率。
还有可以作为垃圾邮件的过滤器。
----------------
推荐引擎
基于用户 GenericUserBasedRecommender
相似度+ 邻域
相似度 UserSimilarity
实现的算法有
PearsonCorrelationSimilarity -- 皮尔逊
EuclideanDistanceSimilarity -- 欧式距离
TanimotoCoefficientSimilarity -- 谷本系数
邻域 UserNeighborhood
实现的算法
NearestNUserNeighbordhood -- 近邻
ThresholdUserNeighborhood -- 基于阀值
基于物品 GenericItemBasedRecommender
只要考虑相似度 接口为 ItemSimilarity
实现算法和基于用户的一样
基于模型
Slope-One
Slopeone算法不同于前面提到的基于相似度的算法,他计算简单快速,对新用户推荐效果不错,数据更新和扩展性都很不错,预测能达到和基于相似度的算法差不多的效果,很适合在实际项目中使用。
基本原理:
用户 | 对itema打分 | 对itemb打分 |
X | 3 | 4 |
Y | 2 | 4 |
Z | 4 | ? |
用户Z对itemb的打分可能是多少呢? Slope one算法认为:所有用户对事物A对itemb的打分平均差值是:((3 - 4) + (2 - 4)) / 2 = -1.5,也就是说人们对itemb的打分一般比事物A的打分要高1.5,于是Slope one算法就猜测Z对itemb的打分是4 + 1.5 = 5.5
分布式
物品之间的共现矩阵 和基于物品的ItemSimilarity (也是放到一个矩阵中)很相似。
只是这个矩阵太大无法放在一台机器上, 按行来切分
类似于 物品X/物品i:次数i, 物品j:次数j, 物品k:次数k
最后乘以该用户的评分向量, 得到最后的结果。
实现相当复杂 可以直接在hadoop平台中调用RecommenderJob 来运行。
----------------------
mahout--使用
pyhton--原理
回归 -- 计算预测值
场景 销售量预测
线性回归 Y=4*X1+18*X2 4和18 是回归系数
非线性回归(多项式) Y=4*X1/18*X2
回归的目标是找到最佳拟合线
过拟合现象 - 考虑了太多的噪声
关联分析 -- Apriopri
有点像推荐算法中的物物共现矩阵
P(尿布)=4/5 P(尿布,葡萄酒)=3/5
P(葡萄酒|尿布)=P(尿布,葡萄酒)/P(尿布)=3/4
当物品成千上万时,想找到支持度大于0.8的物物关系,遍历的做法会非常的慢。
Apriopri原理
如果一个项集是非频繁的, 那么它所有的子项集也是非频繁的。
FP-growth 频繁项集
场景 搜索引擎自动补全查询词项, 找出经常在一起出现的词对 (共现词)
支持向量机
二类分类器, 当用其解决多类问题时, 则需要额外的方法对其扩展。
支持向量,就是离分割超平面最近的那些点。
SMO计算最大化支持向量
分享到:
相关推荐
机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问...
机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较...
python机器学习教程_从零开始掌握Python机器学习:⼗四步 教程 Python 可以说是现在最流⾏的机器学习语⾔,⽽且你也能在⽹上找到⼤量的资源。你现在也在考虑从 Python ⼊门机器学习吗?本教程或 许能帮你成功上⼿,...
机器学习源码,供机器学习初学者下载,主要用的语言是python.
机器学习公式推导与代码实现 很多同学在学习机器学习的时候,理论粗略看一遍之后就直接上手编程了,非常值得表扬。但是他不是真正的上 手写算法,而是去直接调用 sklearn 这样的 package,这就不大妥当了。笔者不是...
机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码...
数据挖掘与机器学习课程设计-基于深度学习对数据进行分析识别课设合集,包含动物识别、 手写数字识别、猫狗识别、鸟类分类。 数据挖掘与机器学习课程设计-基于深度学习对数据进行分析识别课设合集,包含动物识别、 ...
机器学习极大地扩展了评估经济面板数据的工具范围。 本文将各种机器学习方法应用于波士顿房屋数据集,这是机器学习的标志性试验场。 尽管机器学习通常缺乏线性回归的明显解释性,但基于决策树的方法却对数据集特征的...
《数据挖掘与机器学习》教学大纲 (2).pdf《数据挖掘与机器学习》教学大纲 (2).pdf《数据挖掘与机器学习》教学大纲 (2).pdf《数据挖掘与机器学习》教学大纲 (2).pdf《数据挖掘与机器学习》教学大纲 (2).pdf《数据挖掘...
李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码...
机器学习 Tom M.mitchell 中文版 课后题答案 ;全书讲解ppt;西安电子科技大学研究生期末考试题目 机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能?近年 来,机器学习被成功地应用于很多...
python编程资料,实用,可自行学习.除此之外还可学习机器学习算法。
机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf机器学习入门与实战(scikit-learn和...
模式识别与机器学习期末考查试题及参考答案(20210221222717).pdf模式识别与机器学习期末考查试题及参考答案(20210221222717).pdf模式识别与机器学习期末考查试题及参考答案(20210221222717).pdf模式识别与机器学习...
东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生...
01-机器学习_(python数据类型详解) 01-机器学习_(python语言与numpy库) 02-机器学习_(knn分类算法与应用) - 简化版 03-机器学习_(贝叶斯分类算法与应用) 04-机器学习_(kmeans聚类算法与应用) 05-机器学习_...
机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器...
这个资源是包含python的PPT资源,快来加入机器学习吧。
BAT机器学习面试1000题系列 1 前言 1 BAT机器学习面试1000题系列 2 1 归一化为什么能提高梯度下降法求解最优解的速度? 22 2 归一化有可能提高精度 22 3 归一化的类型 23 1)线性归一化 23 2)标准差标准化 ...
清华大学-学堂在线 大数据机器学习课件笔记系列:概述、机器学习的基本概念、模型性能评估、感知机、聚类、贝叶斯分类器及图模型、决策树和随机森林、逻辑斯谛回归与最大熵模型、支持向量机 SVM、核函数与非线性 SVM...