`

干货 | 从菜鸟到老司机_数据科学的 17 个必用数据集推荐

阅读更多
原文链接:http://click.aliyun.com/m/24147/
摘要: ◆ ◆ ◆ 菜鸟入门 1. Iris 数据集 在模式识别文献中,Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有 4 列 150 行。



0?wx_fmt=jpeg

◆ ◆ ◆

菜鸟入门



1. Iris 数据集
在模式识别文献中,Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有 4 列 150 行。



典型问题:在可用属性基础上预测花的类型。



2. 泰坦尼克数据集
泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。借助一些教程和指导,泰坦尼克数据集可以让你深入了解数据科学。通过对类别、数字、文本等数据的结合,你能从该数据集中总结出最疯狂的想法。该数据集更重视分类问题,共有 12 列 891 行。



典型问题:预测泰坦尼克号上生还的幸存者人数。



3. 贷款预测数据集
在所有行业中,最为倚重数据分析技术的就是保险业。贷款预测数据集可以让保险公司对即将面对的挑战、选择的应对方式和影响有一个清晰的认识。与泰坦尼克数据集相同,它也是一个分类问题,该数据集共有 13 列 615 行。



典型问题:预测贷款申请能否得到批准。



4. 大市场销售数据集
零售业也是数据分析技术的重度使用者之一,它们可以利用分析数据来优化整个商业流程。利用数据科学技术,管理人员可以准确的完成产品分配、库存管理、供货和打包等复杂流程。这一数据集的名字已经透露出了它的属性,它就是商店的交易记录,主要解决回归问题。该数据集共有 12 列 8523 行。



典型问题:预测销售情况。
原文链接:http://click.aliyun.com/m/24147/
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics