机器学习实际上是一个比较古老的领域。这些年突然火了起来,原因很可能是硬件的发展,网络以及数据的 爆发式增长,然后机器学习开始越来越实际,可以帮我们做很多事情。
本博客将记录我学习机器学习的过程以及一些理解。
首先选择的是吴恩达大师的课程《机器学习》,这是一门机器学习的入门课程,并不需要太多数学知识,也比较全面,个人比较推荐。
那么机器学习到底是什么鬼? 算法。还是一系列的算法,解决的是特定领域的算法。什么领域呢,机器学习要解决的问题,就是我们说的举一反三,或者是自动找出规律(模式)的问题。举个例子,给你说个地点,房屋的面积,那么你就大概可以估算出这个房子的价格。如果要使用程序来解答这样的问题,就可以算是一个机器学习的问题。
首先,我们需要给出一系列的数据,房子的位置,房屋面积,房间数量,楼层等等数据,并且给出这些房子的价格,通过已有的数据,来预测某一系列条件下,房屋的价格。这是所谓的监督学习。
其次,我们要选定对房价有影响的特征,这些特征例如房屋面积,房间数量,位置,楼层等等。这就是特征选择。
最后,我们要选择一个模型来描述房价。通过已有数据来看,是线性模型还是逻辑模型?亦或是神经网络等等。
如果我们把特征减少到房屋面积,那么我们得到的就是最简单的一个线性函数拟合的问题。可以看成是求解
y = a + bx 的问题,我们需要做的,就是寻找a, b 使得函数 y = a + bx 最大拟合我们的已知数据。
这里的y 可以看做是房价,a 是一个最低价格, b则是需要寻找的参数,x则是我们说的面积。
好了,这些基本可以用以下这幅图来说明问题。
Trainning Set就是我们的已知数据。用来训练的数据。
Learning Algorithm 则是选择的机器学习算法,当然这里还没给出。是用来寻早a,和b参数的。
h函数则是模型函数, 也就是我们的 y = a + bx 这个函数用来预测最终价格的。
那么我们这里最关心的就是,如何寻找 a, b参数呢?
请看下图,这里蓝色的直线,实际上正是我们的 函数 y = a + bx ,然而实际上,红色的叉是实际情况。
对于人来说,可能一步就能够划一条这样的蓝线最好的拟合红色的叉。如何让算法
找到这条蓝线呢?
我们还是从最原始的想法来,那就是蓝线尽可能多的穿过红色的叉。那么我们引入一个概念,
方差。
方差可以看做是实际红叉,与蓝线的实际差的平方。而我们要做的,就是尽量调整蓝线的a,b参数减少方差,最小的方差,自然就是我们要的蓝线。
Cost Function就是我们的方差累加,这里除以2*m,m表示的是训练数据的个数。
最终目的,是的Cost Funtion 最小化。
接下来我们就引入了梯度下降的算法。
这里出现的是 求导的符号。也就是对Cost Function求导。
求导后的公式。微积分好的同学可以自己推导,其实也很简单。
这里的theta 就是上面的a,b
这里容易误解的是,阿尔法是什么,这个可以叫学习速率。我们学得快,必然就可能找不到最优解,如果学得慢,好像没人想学得慢。 而阿尔法之后的公式,其实就是对 Cost Function的求导所得,也就是Cost Function的变化率,通过同时更新 参数 theta0, theta1, 我们可以收敛到一个最小值(虽然可能是局部优化)。
当然这些用于单个变量的线性回归问题,确实很简单,实际中可能涉及多变量,那么计算量是巨大的,我们也会遇到很多优化算法,但是大致的一个监督算法,线性回归就出来了。
梯度下降的形象图示。
机器学习的算法还有很多。从大的分类上来开,还有无监督算法,也就是分类算法。
当然如果遇到非连续的预测模型,那么就可能用逻辑回归。如果遇到更复杂的情况,神经网络也许可以用的上。
接下来,我们就要脑补一些知识了。上面提到的,求导,接下来还有矩阵,线性代数的知识, 还有当然就是概率论了。如果你不深入研究这些算法,那么跳过也是可以的。
相关推荐
斯坦福大学 2014 机器学习教程 个人笔记(V5.26) 课程概述 课程地址:https://www.coursera.org/course/ml Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以获取新的 知识或技能,重新...
机器学习基础概述-阿里巴巴技术联盟 -直接ppt.md,根据ppt改编的md笔记档,方便实用。
清华大学-学堂在线 大数据机器学习课件笔记系列:概述、机器学习的基本概念、模型性能评估、感知机、聚类、贝叶斯分类器及图模型、决策树和随机森林、逻辑斯谛回归与最大熵模型、支持向量机 SVM、核函数与非线性 SVM...
机器学习课程笔记完整版 机器学习 目录 机器学习算法课程定位、目标 定位 课程以算法、案例为驱动的学习,伴随浅显易懂的数学知识 作为人工智能领域(数据挖掘/机器学习方向)的提升课程,掌握更深更有效的解决...
机器学习通过对数据进行预测来分析研究和构造算法,根据输入建立模型,以做出决策或预测。我们研究了不同的机器学习方法及其技术,作了一个简单的分类及总结,适合机器学习的初始学习者阅读。
本人整理的笔记 机器视觉和机器学习领域的推荐书籍列表!
本人黄海广博士,以前写过吴恩达老师的机器学习个人笔记。有朋友报名了课程,下载 了这次课程的视频给大家分享。Coursera的字幕不全,同学们在学习上感觉非常不方便,因 此我找志同道合的朋友翻译和整理字幕,中英文...
一:基本概述 1.什么是人工智能 2.什么是机器学习 3.什么是深度学习 4.人工智能vs机器学习vs深度学习 二:神经网络的发展历史(三起两落) 三:机器学习的典型应用 四:课程小结
Seldon Core:Kubernetes机器学习部署平台 Seldon Core:快速、行业就绪的 ML 一个开源平台,可在 Kubernetes 上大规模部署您的机器学习模型。 概述 Seldon 核心将您的 ML 模型(Tensorflow、Pytorch、H2o 等)或...
这些课程专为已有一定基础(基本的编程知识,熟悉 Python、对机器学习有基本了解), 想要尝试进入人工智能领域的计算机专业人士准备。介绍显示:“深度学习是科技业最热门 的技能之一,本课程将帮你掌握深度学习...
Tensorflow 1.5.0 的学习笔记(资料整理) 适合初学者入门(PDF幻灯片形式,400多页幻灯片),是最近一段时间的Tensorflow的学习笔记(实验环境为Mac OS10.13.2)。内容包含了: 1.Tensorflow简介,2.Python数值计算...
Coursera 深度学习教程中文笔记课程概述 这些课程专为已有一定基础(基本的编程知识,熟悉 Python、对机器学习有基本了解), 想要尝试进入人工智能领域的计算机专业人士准备。介绍显示:“深度学习是科技业最热门 ...
Jupyter笔记本概述了创建机器学习预测模型的过程。 根据众多统计数据,例如大学统计,预计的选秀顺位,身体状况和年龄,预测当前选秀中的“共赢”高峰。 我尝试了多种模型,并根据我的判断为数据选择了性能最好的...
简介facets项目包含两个用于理解和分析机器学习数据集的可视化:Facets概述和Facets Dive。 这些可视化被实现为Polymer Web组件,并得到Type简介的支持。Facets项目包含两个用于理解和分析机器学习数据集的可视化:...
吴恩达的深度学习笔记翻译,里面的目录已经做好,可以直接作为书去打印,欢迎大家下载。课程概述 这些课程专为已有一定基础(基本的编程知识,熟悉Python、对机器学习有基本了解),想要尝试进入人工智能领域的...
(完整版)Python基础学习笔记 (完整版)Python基础学习笔记全文共69页,当前为第1页。(完整版)Python基础学习笔记全文共69页,当前为第1页。Python 基础学习笔记 (完整版)Python基础学习笔记全文共69页,当前为第1页。...
⼈⼯智能实践:TensorFlow笔记学习(⼀)——⼈⼯智能概述 概 述 ⼀、 基本概念 1、什么是⼈⼯智能 ⼈⼯智能的概念:机器模拟⼈的意识和思维 重要⼈物:艾伦·麦席森·图灵(Alan Mathison Turing) ⼈物简介:1912...
Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工...
概述 k-近邻算法采用测量不同特征值之间的距离方法进行分类 优缺点 优点:精度高、对异常值不敏感、唔数据输入假定 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型 标称型:标称型目标变量的结果...