拓扑数据分析与机器学习的相互促进

0顶
0踩

2015-10-10 10:47 by 副主编 mengyidan1988 评论(2) 有3932人浏览

算法数据分析机器学习

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

【编者按】拓扑数据分析（TDA）和机器学习（ML）的区别与联系让不熟悉TDA的人扑朔迷离，本文通过两个定义，解释了TDA和ML的不同，以及TDA和ML如何相互促进，为何会相互促进，并通过一个设备故障分析的案例（5000个样本，复杂度适中，48个连续特征）来进行证明。

对拓扑数据分析（TDA）不熟悉的人，经常会问及一些类似的问题：“机器学习和TDA两者之间的区别？”，这种问题的确难以回答，部分原因在于你眼中的机器学习（ML）是什么。

下面是维基百科关于机器学习的说明：

引用

机器学习研究算法学习和构造，能从数据中进行学习并做出预测。这种算法通过从输入实例中建立模型，目的是根据数据做出预测或决策，而不是严格地遵循静态程序指令。

大多数人可能会认为TDA是机器学习的一种形式，但我觉得，在这些领域工作的人可能都不会赞成这一说法。

机器学习的具体实例比任何一个TDA的例子更像机器学习。同样，TDA的实例比任何一个机器学习的例子看起来更像是TDA。

为了解释TDA和ML两者的不同，更重要的是证明TDA和ML是如何相互促进以及为何会相互促进，我将给出两个非常简单的定义，然后用一个真实的实例进行说明。

定义ML：假定一个数据参数模型，并根据数据来学习模型参数的任意方法。
定义TDA：只把数据点间的“相似性”概念用来构建数据模型的任意方法。

在这种观点中，ML模型更加具体和详细，而且模型的成功取决于它对未知数据的拟合程度。它的优势是，当数据能很好的拟合模型时，其结果尤为突出——几乎能够完美的理解那些有明显噪声的数据。

TDA的优点是它的通用性。

对于TDA，任何相似性概念都可以拿来使用。相反，对于ML，你需要一个（或更多）强化的相似性概念，与其它任何方法一起发挥作用。

例如，给你一长串的名字，你是无法根据它来预测出身高和体重。你需要更多的信息。

主要因素是拓扑算法对小误差的容忍度很大——即便你的相似性概念在某种程度上存在缺陷，只要它存在“几分相似”，TDA算法一般就会产生一些有用的东西。

TDA方法的通用性还有另一个优于ML技术的地方，当ML方法拟合效果很好的时候，TDA方法仍然有效——即ML方法经常创建详细的能生成相似性概念的内部状态，使TDA和ML能够更深层次的洞悉数据。

听起来还不错，但是这通常会走向极端（或者如果你觉得小误差的容忍度偏低，或是模糊度不够），这意味着一切都有可能发生。

那么，来举个特例吧。

随机森林分类器是一个组合学习方法，在训练过程中，建立大量的决策树并在这些“森林”（决策树集合）的基础上使用“多数规则”对非训练数据进行分类。

尽管建立树的过程相当有趣并且也很灵活，但它们没有相关的细节。对于随机森林，你只要记住，它通过把一系列决策树的集合应用到已知数据点上，然后返回一系列的“叶节点”（决策树中，到输入"下落"的叶子）。

在正常的操作下，每棵树的每个叶子节点都有一个相关的类别C，可以解释为“当一个数据点位于树的该节点时，在很大程度上它就属于该类别C”。随机森林分类器通过从每棵树上统计“叶节点类别投票总数”来选出胜出者。尽管在大规模的数据类型上高度有效，但该过程会丢掉大量的信息。

如果你关心的是对数据类别的最佳猜测，那么你不会想看到额外的信息，但有时候你会需要更多的信息。这种“无关的”信息可以转换成一个距离函数，通过把两个数据点之间的距离定义为它们各自“叶节点”之间差异的倍数。

两个数据点的距离函数是一个很好的度量（事实上，是在转换后的数据集上的汉明距离），而且这样我们可以把TDA应用到上面。

例如，让我们来看看从下面链接的样本中随机选取的5000个样本点：https://archive.ics.uci.edu/ml/datasets/Dataset+for+Sensorless+Drive+Diagnosis.

该数据集复杂度适中，有48个连续特征，这些特征似乎是硬盘驱动中无法解释的电流信号。数据还包括一个类别列，它有11个可能的取值，描述的是光盘驱动组件不同的状况（故障模式，也许吧？）。很明显可以在特征列上计算欧几里得距离，然后通过类来给图形着色。由于我们对于特征项一无所知，所以首先要尝试的事情就是查看邻近晶状体情况。其结果是一个普通的斑点。

这让人有些失望！

接着，使用一些内部的调试功能，我看到邻近晶状体的一个散点图，我知道为什么如此糟糕了——它看起来像是一颗圣诞树。

很显然，在欧氏度量中没有类的定位。

然而，如果你在数据集上建立一个随机森林，分类器会有一个非常小的out-of-bag误差，这强烈的表明了分类器性能的可靠性。

因此，我尝试使用随机森林的汉明距离来作图，这种度量下的邻近晶状体如下图所示：

这看起来很不错。只要确定我们也看到了邻近晶状体的散点图就行，上图的结果表明：

很明显，从线图和散点图可以看出，随机森林“看”复杂结构的能力要低于分类的标准水平，并被TDA给证实了。原因就是RF没有充分使用“不相关的”数据——而TDA充分的利用了这些数据并且从这些信息中得到了大量的好处。

然而，一些人可能会说，这种结构是虚构的——这也许是我们在系统的某处使用算法人工生成的？在这种数据集下，我们不能真正识别它，因为对于该类别的其它信息我们一无所知。

不过，基于设备老化时收集的数据，我们在消费者数据上使用随机森林来度量分析成千上万的复杂设备可能的故障模式。类别是基于设备因为不同的原因（并不是所有的原因都是由故障导致的）而返厂的事后分析完成的。

在这个例子中，我们发现随机森林度量标准在故障识别层面做的很好，并且我们得到的图片特征和上面这些也相似。更重要的是，我们发现在给定的故障模式中的特定组，有时有不同的原因。

在这些情况下得出的结论是：我们在使用TDA和RF时没有做进一步的空间分解，这些原因可能会更难发现。

我们刚才看到的例子表明，TDA与机器学习可以一起使用，并且得到的效果比使用单个技术更好。

这就是我们所说的ML&TDA：同时使用更好。

原文链接：How TDA and Machine Learning Enhance Each Other（译者/刘帝伟审校/刘翔宇、朱正贵、李子健责编/仲浩）

查看图片附件

分享到：

0
顶

0
踩

评论共 2 条请登录后发表评论

2 楼 qzy927513 2015-10-12 10:48

qzy927513 写道

1 楼 qzy927513 2015-10-12 10:47

发表评论

您还没有登录,请您登录后再发表评论

根据科学研究，人类大脑皮层的70%活动都在处理视觉信息。如果人工智能赋予机器能够像人类一样思考、处理事情的能力，计算机视觉将承担巨大作用。作为一门研究如何使机器“看”的科学，计算机视觉已成为人工智能的重要分支，等同于人工智能的大门。提到计算机视觉研究，就不得不提起近年来一个冉冉升起的“学术新星”——何恺明。从高考满分状元到“CVPR最佳论文奖”第一位华人得主，再到“深度残差网络”在ImageNet比赛中击败谷歌等公司夺得第一……“80后”的他早已众多光环加身。在学界，他被视为天才少年，也被称为“大神”，不断地为学界提供着诸多有分量的研究成果。何恺明从小就成为“别人家的孩子” 用“年少

IQA图像质量评价数据集介绍(LIVE、TID2013、CSIQ、LIVEC、KonIQ-10K)

向AI转型的程序员都关注了这个号????????????LIVE数据集 LIVE数据集是最大的可用注释图像质量数据集，由奥斯汀的德克萨斯大学图像和视频工程实验室于2006年建立，整个数据集的参考图片来源于互联网和摄影光盘中收集的29张高分辨率和高质量的彩色图像，包括人脸图片、动物图片、特写镜头、广角拍摄图片、自然场景、人造物体以及具有不同前景/背景配置的图像。 LIVE数据集包括779幅...

道路裂缝坑洼图像开源数据集汇总

向AI转型的程序员都关注了这个号????????????CrackForest数据集数据集下载链接：http://suo.nz/2wdNdXCrackForest数据集是一个带注释的道路裂缝图像数据库，可以大致反映城市路面状况。道路裂缝坑洼图像数据集数据集下载链接：http://suo.nz/3eEDlj这个数据集是一个极具挑战性的集合，包含 5,000 多张野外道路上的坑洼图像。这些图像是使用我们的众包平台从 2...

回归学术圈，何恺明MIT第一堂AI课

这篇论文是2019年、2020年和2021年Google Scholar Metrics中被引用次数最多的论文，同时也构建了现代深度学习模型的基本组成部分（例如在Transformers、AlphaGo Zero和AlphaFold等领域的应用）。2016年，何恺明凭借ResNet再次荣获CVPR的最佳论文奖，此外，他的另一篇论文入围了CVPR2021的最佳论文候选。大家好，3月7日，麻省理工学院电气工程与计算机科学系副教授·何恺明，迈上讲台，并成功地进行了他人生中的首堂教学课程。而助教的人数高达17人！

【开源】度小满中文金融对话大模型

向AI转型的程序员都关注了这个号????????????在轩辕系列大模型研发过程中，我们积累了大量的高质量数据和模型训练经验，构建了完善的训练平台，搭建了合理的评估流水线。在此基础上，为丰富轩辕系列模型矩阵，降低轩辕大模型使用门槛，我们进一步推出了XuanYuan-6B系列大模型。不同于XuanYuan-13B和XuanYuan-70B系列模型在LLaMA2上继续预训练的范式，XuanYuan-6B是我们从零开始进...

用SegNet进行室内布局语义分割

向AI转型的程序员都关注了这个号????????????人工智能大数据与深度学习公众号：datayx用SegNet进行室内语义分割。依赖NumPyTensorflowKerasOpen...

宜信OCR技术探索与实践|直播速记

宜信OCR技术探索与实践|宜信技术沙龙第12期导读：随着人工智能的热度上升，图像识别这一分领域也渐渐被人们所关注。在公司的业务中，有很多扫描、拍照单据、凭证等进行识别的需求。为了帮助业务实现这些图片文档的识别和结构化，我们进行了一系列的实践和探索，最终确定了深度学习的文字检测和识别模型，作为主要的实现手段，从而满足了业务上的需求。实践过程中，我们遇到过一系列的问题和难点，最终都一一解...

人工智能大神何凯明往事与风华岁月

机器视觉牛人何凯明的小传

何恺明目前的学术成果是否够得上计算机视觉领域历史第一人？

链接：https://www.zhihu.com/question/424149824编辑：深度学习与计算机视觉声明：仅做学术分享，侵删作者：远处群山https://www.zhihu.com/question/424149824/answer/1508320686计算机视觉的历史第一人既不是何恺明，也不是Thomas Huang，而是David Marr，计算机视觉的最高奖就叫Marr奖。评价一...

何恺明在招实习生和博士后！

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【CV算法和求职】交流群扫描下方二维码，加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文搞科研，强烈推荐！何恺明（Kaiming He）在个人主页上官宣招收研究实习生和博士后，将于2024年春天/夏天入职！感兴趣(且足够自信的)的同学可以去试试哈~主页：ht...

NLP推理与语义相似度数据集

向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayxChinese NLP Toolkits 中文NLP工具Toolkits 综合NLP工具包THULAC 中文词法分析工具包by 清华 (C++/Java/Python)NLPIRby 中科院 (Java)LTP 语言技术平台by 哈工大 (C++)pylypLTP的python封...

医学自然语言处理相关资源整理

向AI转型的程序员都关注了这个号????????????人工智能大数据与深度学习公众号：datayxChinese_medical_NLP医疗NLP领域（主要关注中文）评测数据集与...

TableBank——表格检测识别数据集

1. 论文：https://arxiv.org/pdf/1903.01949.pdf 2. 代码：https://github.com/doc-analysis/TableBank 3. 数据：https://doc-analysis.github.io/tablebank-page/index.html 4. 数据下载并解压下载的是多个zip文件，如何解压zip分卷： cat TableBank.zip.00* > TableBank.zip unzip TableBank.zip ...

[转载]由简至美的最佳论文_拔剑-浆糊的传说_新浪博客

原文地址：由简至美的最佳论文作者：微软亚洲研究院作者：何恺明视觉计算组那是2009年4月24日的早上，我收到了一封不同寻常的email。发信人是CVPR 2009的主席们，他们说我的文章获得了CVPR 2009的最佳论文...

何恺明一作MAE收录CVPR 2022 Oral！高达87.8%准确率！自监督领域新代表作

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达作者：happy |转载自：极市平台导读何恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders。所提MAE极为简单：对输入图像进行块随机mask并对遗失像素进行重建。该方案使得所得高精度模型具有很好的泛化性能：仅需ImageNet-1K，ViT-Huge取得了8...

何恺明霸榜！近10年里的具有影响力的一作（年轻）AI学者大盘点！谷歌机构排名第一！...

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达作者 |维克多编辑 | 岑峰转载自：AI科技评论过去十年，哪些学者为人工智能（AI）领域作出了突出贡献？今日，清华...

何恺明新作品：VITDet

论文复现：VITDet：目标检测的视觉Transformer主干网络

基于40万表格数据集TableBank，用MaskRCNN做表格检测

向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayxTableBank：高质量的标注表格数据集虽然人类在视觉上可以很容易地判断出一个表格...

何恺明图像去雾Matlab代码

何恺明等人研究出的基于暗通道的经典图像去雾算法，不仅可以还原图像的颜色和能见度，同时也能利用雾的浓度来估计物体的距离。 (The classic fog removal algorithm based on dark channel, which was developed by He Kaiming and others, not only can restore the color and visibility of images, but also can estimate the distance of objects by using the concentration of fog.)

0顶0踩