`
Tristan_S
  • 浏览: 361500 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

机器学习

 
阅读更多
机器学习中比较实用的是推荐引擎和分类算法
分类算法-k近邻  能有效的提高图片识别的成功率。
还有可以作为垃圾邮件的过滤器。

----------------
推荐引擎
基于用户 GenericUserBasedRecommender
相似度+ 邻域
相似度 UserSimilarity
   实现的算法有
    PearsonCorrelationSimilarity  -- 皮尔逊
    EuclideanDistanceSimilarity -- 欧式距离
    TanimotoCoefficientSimilarity  -- 谷本系数
邻域  UserNeighborhood
   实现的算法
   NearestNUserNeighbordhood  -- 近邻
   ThresholdUserNeighborhood -- 基于阀值

基于物品  GenericItemBasedRecommender
只要考虑相似度 接口为 ItemSimilarity
实现算法和基于用户的一样

基于模型
Slope-One
Slopeone算法不同于前面提到的基于相似度的算法,他计算简单快速,对新用户推荐效果不错,数据更新和扩展性都很不错,预测能达到和基于相似度的算法差不多的效果,很适合在实际项目中使用。

基本原理:
用户对itema打分对itemb打分
X34
Y24
Z4?

用户Z对itemb的打分可能是多少呢? Slope one算法认为:所有用户对事物A对itemb的打分平均差值是:((3 - 4) + (2 - 4)) / 2 = -1.5,也就是说人们对itemb的打分一般比事物A的打分要高1.5,于是Slope one算法就猜测Z对itemb的打分是4 + 1.5 = 5.5


分布式
物品之间的共现矩阵 和基于物品的ItemSimilarity (也是放到一个矩阵中)很相似。
只是这个矩阵太大无法放在一台机器上, 按行来切分
类似于 物品X/物品i:次数i, 物品j:次数j, 物品k:次数k
最后乘以该用户的评分向量, 得到最后的结果。

实现相当复杂 可以直接在hadoop平台中调用RecommenderJob 来运行。




----------------------

mahout--使用
pyhton--原理

回归 -- 计算预测值
场景 销售量预测

线性回归  Y=4*X1+18*X2   4和18 是回归系数
非线性回归(多项式)  Y=4*X1/18*X2 

回归的目标是找到最佳拟合线
过拟合现象 - 考虑了太多的噪声

关联分析 -- Apriopri
有点像推荐算法中的物物共现矩阵

P(尿布)=4/5   P(尿布,葡萄酒)=3/5
P(葡萄酒|尿布)=P(尿布,葡萄酒)/P(尿布)=3/4

当物品成千上万时,想找到支持度大于0.8的物物关系,遍历的做法会非常的慢。

Apriopri原理
如果一个项集是非频繁的, 那么它所有的子项集也是非频繁的。


FP-growth  频繁项集
场景 搜索引擎自动补全查询词项, 找出经常在一起出现的词对 (共现词)

支持向量机
二类分类器, 当用其解决多类问题时, 则需要额外的方法对其扩展。
支持向量,就是离分割超平面最近的那些点。
SMO计算最大化支持向量



分享到:
评论

相关推荐

    机器学习/深度学习500问

    机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问...

    机器学习部分课后习题答案(较完整)

    机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较...

    python机器学习教程-从零开始掌握Python机器学习:十四步教程.pdf

    python机器学习教程_从零开始掌握Python机器学习:⼗四步 教程 Python 可以说是现在最流⾏的机器学习语⾔,⽽且你也能在⽹上找到⼤量的资源。你现在也在考虑从 Python ⼊门机器学习吗?本教程或 许能帮你成功上⼿,...

    机器学习实战源代码.rar_python机器学习_机器学习_机器学习代码_机器学习实战_机器学习源码

    机器学习源码,供机器学习初学者下载,主要用的语言是python.

    机器学习30讲.pdf

    机器学习公式推导与代码实现 很多同学在学习机器学习的时候,理论粗略看一遍之后就直接上手编程了,非常值得表扬。但是他不是真正的上 手写算法,而是去直接调用 sklearn 这样的 package,这就不大妥当了。笔者不是...

    机器学习matlab源代码.rar

    机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码机器学习matlab源代码...

    数据挖掘与机器学习课程设计-基于深度学习对数据进行分析识别课设合集.zip

    数据挖掘与机器学习课程设计-基于深度学习对数据进行分析识别课设合集,包含动物识别、 手写数字识别、猫狗识别、鸟类分类。 数据挖掘与机器学习课程设计-基于深度学习对数据进行分析识别课设合集,包含动物识别、 ...

    面板数据机器学习简介-研究论文

    机器学习极大地扩展了评估经济面板数据的工具范围。 本文将各种机器学习方法应用于波士顿房屋数据集,这是机器学习的标志性试验场。 尽管机器学习通常缺乏线性回归的明显解释性,但基于决策树的方法却对数据集特征的...

    《数据挖掘与机器学习》教学大纲 (2).pdf

    《数据挖掘与机器学习》教学大纲 (2).pdf《数据挖掘与机器学习》教学大纲 (2).pdf《数据挖掘与机器学习》教学大纲 (2).pdf《数据挖掘与机器学习》教学大纲 (2).pdf《数据挖掘与机器学习》教学大纲 (2).pdf《数据挖掘...

    李宏毅 机器学习 课程作业代码

    李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码李宏毅 机器学习 课程作业代码...

    机器学习Tom M.mitchell课后题ppt

    机器学习 Tom M.mitchell 中文版 课后题答案 ;全书讲解ppt;西安电子科技大学研究生期末考试题目 机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能?近年 来,机器学习被成功地应用于很多...

    Python机器学习实践指南.zip_python_python 教程_python 机器学习_python机器学习_机器学习

    python编程资料,实用,可自行学习.除此之外还可学习机器学习算法。

    机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf

    机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf机器学习入门与实战(scikit-learn和Keras)课件—决策树.pdf机器学习入门与实战(scikit-learn和...

    模式识别与机器学习期末考查试题及参考答案(20210221222717).pdf

    模式识别与机器学习期末考查试题及参考答案(20210221222717).pdf模式识别与机器学习期末考查试题及参考答案(20210221222717).pdf模式识别与机器学习期末考查试题及参考答案(20210221222717).pdf模式识别与机器学习...

    东南大学软件学院研究生机器学习期末大作业.pdf

    东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生...

    机器学习常用各类算法详解

    01-机器学习_(python数据类型详解) 01-机器学习_(python语言与numpy库) 02-机器学习_(knn分类算法与应用) - 简化版 03-机器学习_(贝叶斯分类算法与应用) 04-机器学习_(kmeans聚类算法与应用) 05-机器学习_...

    机器学习课件(外国大学).zip

    机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器学习课件(外国大学).zip机器...

    机器学习机器学习机器学习python的PPT资源

    这个资源是包含python的PPT资源,快来加入机器学习吧。

    BAT机器学习面试1000题系列

    BAT机器学习面试1000题系列 1 前言 1 BAT机器学习面试1000题系列 2 1 归一化为什么能提高梯度下降法求解最优解的速度? 22 2 归一化有可能提高精度 22 3 归一化的类型 23 1)线性归一化 23 2)标准差标准化 ...

    清华大学-学堂在线-大数据机器学习课件笔记.zip

    清华大学-学堂在线 大数据机器学习课件笔记系列:概述、机器学习的基本概念、模型性能评估、感知机、聚类、贝叶斯分类器及图模型、决策树和随机森林、逻辑斯谛回归与最大熵模型、支持向量机 SVM、核函数与非线性 SVM...

Global site tag (gtag.js) - Google Analytics