`
eric_weitm
  • 浏览: 234994 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

机器学习知识梳理一

阅读更多

一、统计学概要

    1、研究X与Y之间的关系,最理想的是找到一个映射,使得Y=f(X),但是实际当中很难找到,也就是搞不清楚X与Y之间到底是什么定量的关系,宏观上表现出来的就是结果的不确定性。尽管,每一次输入X时,得到什么Y是不确定的,但是当重复次数足够多时,出现某个结果的可能性可以计算出来的,研究这种微观的不确定,但是宏观上是确定的学科就是统计学。

    2、大数定律: 实验次数足够多时可以用频率代替概率

    3、中心极限定理 多个相互独立的随机因素来共同影响一个结果时,结果一般遵守正态分布;正态分布是二项分布的极限情况;

设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

    4、样本(整体是一个随机变量,会得到样本概率):观察n次,每次观察的结果都是一个随机变量,这n个随机变量独立、同分布,这n个随机变量合在一起叫做 样本X=(X1, X2, X3...)  样本整体的分布是每个分布的乘积

    5、最大似然估计:点估计的一种,其基本想法是能取到的样本值肯定是概率大的,所以能使整个的概率最大的参数xita,就是参数的估计值。也就是样本固定,让theta变化,取出哪个theata让整个似然函数取到极值,就认为是那个参数。这个值与样本值有关系。求解时可以先取对数,再求导数=0

    6、回归分析:分析变量之间的关系。确定性:函数关系 不确定性:变量是随机变量,用均值作为参考点

通过点图大概估计形式,之后因为样本值符合正态分布,进而整体的联合分布是确定的,进而极大似然函数确定,进而可以求出参数

    7、估计的评价(使用哪个估计量为结果比较靠谱?):无偏、有效、相合性

 

二、基本概念

    1、人工智能:让机器像人一样聪明。人工智能发展历史:机器能够推理(符号化和逻辑)、机器需要知识来支撑推理(专家系统)、自动化的获得知识(机器学习)。

    2、机器学习:人工智能的一个分支,主要是让机器学会总结经验(没有办法去创造或“顿悟”,仅仅是归纳)。其输入是训练数据,输出是X、Y的联合分布或者是X、Y之间的映射关系。机器能处理问题不是因为程序员书写了程序,而是因为机器自己可以学习知识,即程序里的算法是机器自己学习到的。

机器学习的发展历史:类似于决策树的符号系统(模拟人类对概念的判断)、类似于神经网络的连接系统(最主要的问题是调整参数,整个思考的过程是黑箱)、统计学习(支持向量机 核方法)、深度学习(自动找到和描述特征)

深度学习的缺点:缺乏理论,需要调参的技巧,需要极大的数据和计算能力,但是容易入门和学习

    3、解决的问题:

    1》分类问题(结果是有限的可能) 如 是否垃圾邮件、股票是否涨、图片里是狗、猫、还是人?

常用算法:逻辑回归(工业界最常用),支持向量机,随机森林,朴素贝叶斯(NLP中常用),深度神经网络(视频、图片、语音等多媒体数据中使用)。

    2》回归问题(结果有无限个可能)如 北京2个月后的房价

常用算法:线性回归,普通最小二乘回归(Ordinary Least Squares Regression),逐步回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)

    3》聚类问题(找到相似的数据) 如 用户群体划分   也叫无监督学习

常用算法:K均值(K-means),基于密度聚类,LDA

    4、三要素

     模型(model):输入、输出的联合分布律或对应的函数族(带有需要确定的参数)

    策略(strategy):模型评价的准则

    算法(algorithm):根据策略,确定模型的算法

损失函数:预测值与真实值之间的差异

风险函数:损失函数的期望,当样本足够多时,可以用经验风险来替代(极大似然估计)

经验风险:对训练集误差的期望

常见的策略:经验风险最小化(极大似然估计)、

结构风险:(structural risk minimization SRM)添加一个惩罚项 J(f)

    5、泛化能力:预测新数据时的准确程度

过拟合:预测的参数比真实的还多(太多的细节反而不是总体的规律),也就是归纳的层次太低(过拟合一定有,关键是怎么减少)

处理方法:在经验风险之外添加一个惩罚项

分享到:
评论

相关推荐

    机器学习笔记.pdf

    本笔记是在学习吴恩达机器学习过程中做的电子笔记,希望可以帮助大家查阅一些知识点或者帮助大家学习这个课程。主要讲了线性回归,逻辑回归,支持向量机,聚类,降维,异常检测,以及OCR技术和推荐系统的搭建。

    机器学习思维导图

    常用机器学习算法的思维导图,梳理了所有相关知识,很适合对各部分的整体把握与补遗。推荐使用MindManager思维导图软件查看 目录: 1.机器学习基础.mmap 2.k-近邻算法.mmap 3.决策树.mmap 4.基于概率论的分类方法:...

    Python数据挖掘与机器学习开发实战的常见试题与参考答案.pdf

    机器学习是一门理论性和实践性都比较强的技术学科。为了帮助大家对这些知识点进行梳理和理解,以便能够更好地应对招聘单位所出的机器学习方面的面试题,笔者准备了些这方面的试题,希望能够对大家有所帮助。

    于剑-机器学习每章重点

    该资源是针对于剑老师的《机器学习从公里到算法》该书各章节知识点的汇总,是很多学校研究生课程的必修课,均为本人亲自整理和书写。

    机器学习笔记.docx

    自己整理的机器学习笔记,包含一些机器学习的基本概念知识,希望对大家入门机器学习有帮助!需要的可以下载看一下!

    随机森林、LSTM、SVM、线性回归四种机器学习方法预测股价

    通过多种机器学习股票价格预测,包括随机森林...这对我的机器学习知识有一定帮助,也希望能帮助到需要它的人。 全部为jupterbook格式,代码注释全面且执行效果都在。 适合个人学习、课程团队作业、毕业设计参考等。

    机器学习wine葡萄酒数据集

    有关于在机器学习中的,机器学习中用到的wine葡萄酒数据集,文件中包含自己整理的变量名称的完整数据集。

    机器学习-计算学习理论精选-PPT

    本PPT精心挑选了机器学习领域的关键知识点,通过生动的图表、丰富的案例和前沿的研究成果,为观众呈现了一场精彩纷呈的学术盛宴。 在这份PPT中,我们首先介绍了机器学习的基本概念和分类,帮助观众建立起对机器学习...

    大厂过来人总结整理的机器学习+深度学习+图像处理-c++等视觉算法岗面试必备知识点(快速掌握).zip

    大厂过来人总结整理的机器学习+深度学习+图像处理_c++等视觉算法岗面试必备知识点(快速掌握).zip 包含机器学习、深度学习、图像处理、c++等视觉算法岗面试必备基础知识。 该项目主要包含了本人秋招历程中整理的一些...

    机器学习算法地图

    很多同学在学机器学习和深度学习的时候都有一个感受:所学的知识零散、不系统,缺乏整体感,这是普遍存在的一个问题。在这里,SIGAI 对常用的机器学习和深度学习算法进行了总结,整理出它们之间的关系,以及每种算法...

    机器学习概率统计基础知识

    从网上整理的机器学习概率统计基础知识,包括概率基础知识、贝叶斯、极大似然等相关知识

    重新整理深度学习相关知识

    重新整理深度学习相关知识。里面包含线性神经网络、多层感知机、卷积神经网络、现代神经网络、循环神经网络等。包含:算法、代码、项目、电子书等。让深度学习可平易近人。关于机器学习的项目,新手可作为入门项目...

    机器学习.zip 包括课件、习题和知识点整理

    1.属于监督学习的机器学习算法是:贝叶斯分类器 2.属于⽆监督学习的机器学习算法是:层次聚类 3.⼆项式分布的共轭分布是:Beta分布 4.多项式分布的共轭分布是:Dirichlet分布 5.朴素贝叶斯分类器的特点是:假设样本...

    python机器学习基础教程.xmind

    python机器学习基础教程 思维导图 第1,第2章,逐步更新 使用Xmind打开 帮助梳理巩固知识点 纯手打 供交流学习使用

    《机器学习 100 天》-Siraj Raval-中文版!

    100-Days-Of-ML-Code 是 Avik-Jain 的机器学习项目,超赞的配图,清晰的知识点梳理,是入门机器学习非常好的项目。内容包括:数据预处理、线性回归、逻辑回归、K最邻近算法、支持向量机、深度学习专项课程等.特色...

    统计机器学习理论综述

    目前机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型,按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主义),对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:...

    Python-国外一名开发者小哥整理的机器学习路线图

    Data-Science-Study-Paths-March-2019 国外一名开发者小哥整理的机器学习路线图在 GitHub 上特别火。项目包括职业进阶路径、专业知识讲解、工具介绍等。另外小哥还搞了个 Facebook 群组,并不断往上面更新信息。

    机器学习的数学基础

    自己整理的机器学习相关的概率论、高等代数、线性代数、相关的基础知识。

    机器学习、深度学习面试笔试题300+.pdf

    最新版的机器学习和深度学习面试题目,从牛客等各大网站整理剖析,整合整理,共300多道经典题目。 涉及机器学习和深度学习理论和实践等各方面的知识,底层的知识偏多一些!

    [笔记]机器学习&深度学习要点小梳理.pdf

    主要内容为机器学习、深度学习常用算法、模型训练及工程应用笔记梳理总结,适合工程学习和求职面试时ML、DL知识复习。

Global site tag (gtag.js) - Google Analytics