`

数据挖掘导论-概述

 
阅读更多

1、数据挖掘概念

数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。数据挖掘是数据库中知识发现(knowledge discovery database KDD)不可缺少的 部分,而KDD是将未加工过的数据转换为有用信息的过程,包括数据预处理、数据挖掘和后处理等过程。

数据预处理:目的是将未加工的输入数据转化成适合分析的形式,包括融合多个数据源的数据,清洗数据以消除噪声或者重复的观测值,选择与当前数据挖掘人物相关的记录和特征。

2.数据挖掘任务分类

(1)预测建模(predictive modeling)包括分类(classification,用于预测离散的目标变量)和回归(regression),用于预测连续的目标变量。

(2)关联分析(association analysis),用来发现描述数据中强关联特征的模式,所发现的模式通常用蕴含规则或者特征子集的形式表示。

(3)聚类分析(cluster analysis) ,目标是发现紧密相关的观测值组群,使与属于不同簇的观测值相比,属于同一簇的观测值相互之间近可能类似。

(4)异常检测(anomaly detection),识别特征显著不同域其它数据的观测值。这样的观测值称为异常点或者离群点。

分享到:
评论

相关推荐

    数据挖掘导论 中文完整版

    数据挖掘导论(完整版)(全面介绍数据挖掘的理论和方法)基本信息原书名: Introduction to Data Mining原出版社: Addison Wesley作者: (美)Pang-Ning Tan Michael Steinbach Vipin Kumar译者: 范明 范宏建丛书名: ...

    大数据与云计算基础入门教程 大数据技术知识系列教程大数据导论 全部PPT课件资源 共12个章节.rar

    【课程简介】 本课程适合所有需要学习大数据技术知识的同学,课件内容制作精细,由浅入深,适合入门或进行...11-大数据导论-第十一章-机器学习与数据挖掘(共31页).ppt 12-大数据导论-第十二章-Spark(共22页).ppt

    完整版大数据课件集合11-大数据导论-第十一章-机器学习与数据挖掘(共31页).ppt

    11.1 概述 11.2 机器学习与数据挖掘的关系 11.3 大数据与相关课程的关系 11.4 机器学习过程 11.5 机器学习算法 11.6 数据挖掘应用 11.7 拓展学习

    数据挖掘概述课件(浙江大学)

    浙江大学研究生课件,共160页,详细介绍了数据挖掘的理论与算法,以及数据挖掘相关的论文和国际会议

    AI人工智能培训资料(培训PPT+示例代码).zip

    数据挖掘数据分析-1-导论 数据挖掘数据分析-2-机器学习 数据挖掘数据分析-3-数据预处理 数据挖掘数据分析-4-数据仓库 数据挖掘数据分析-5-分类1-kNN 数据挖掘数据分析-5-分类3-决策树ID3 数据挖掘数据分析-5-分类3-C...

    人工智能导论-机器学习

    人工智能与大数据技术导论,包括人工智能概述、AI产业、机器学习、深度学习、神经网络和数据挖掘的知识,对银行行业、医疗行业和工农业的大数据进行调查,

    物联网导论复习.docx

    (5)管理处理智能化:物联网高效可靠组织大规模数据,与此同时,运筹学,机器学习,数据挖掘,专家系统等决策手段将广泛应用于各行各业。 (6)应用服务链条化:以工业生产为例,物联网技术覆盖从原材料引进,生产...

    第十一章-《大数据导论》教育大数据.pdf

    教育大数据 1 第十一章 教育大数据 教育大数据 本章内容 概述教育大数据的发展现状(第12.1节) 介绍常见的教育大数据采集和应用场景,总结其数据特点和具有代表性的应用功能点( 第12.2节)。 选取教育大数据分析的...

    数据库系统导论(第七版)

    21.7 数据挖掘 535 21.8 小结 536 练习 537 参考文献和简介 538 部分练习答案 540 第22章 时态数据库 541 22.1 引言 541 22.2 时态数据 542 22.3 问题是什么 544 22.4 时间间隔 548 22.5 间隔类型 549 22.6 间隔上的...

    数据库系统导论(第7版) part 1

    21.7 数据挖掘 535 21.8 小结 536 练习 537 参考文献和简介 538 部分练习答案 540 第22章 时态数据库 541 22.1 引言 541 22.2 时态数据 542 22.3 问题是什么 544 22.4 时间间隔 548 22.5 间隔类型 549 22.6 间隔上的...

    数据库系统导论(第7版) part 2

    21.7 数据挖掘 535 21.8 小结 536 练习 537 参考文献和简介 538 部分练习答案 540 第22章 时态数据库 541 22.1 引言 541 22.2 时态数据 542 22.3 问题是什么 544 22.4 时间间隔 548 22.5 间隔类型 549 22.6 间隔上的...

    《大数据概论 [陈明 编著] 2015年版》

    《大数据概论》主要介绍大数据概论,内容包括大数据概述、科学研究第四范式、分布系统设计的CAP 理论、NoSQL 数据库、复杂网络、MapReduce 分布编程模型、大数据存储、大数据分析、大数据挖掘、大数据可视化、大数据...

    大三下学期期末复习.zip

    │ │ │ │ 第11章 大数据处理.ppt │ │ │ │ │ │ │ └─code │ │ │ 111.txt │ │ │ FileSplit.py │ │ │ Hadoop_map.py │ │ │ Hadoop_Reduce.py │ │ │ Map.py │ │ │ Reduce.py │ │ │ ...

Global site tag (gtag.js) - Google Analytics