数据、信息、知识、智慧是信息系统的几个层次,挖掘的目的是获得知识甚至智慧,即对于信息的归纳和演绎的能力。筛选的演进过程是 sql查询--搜索---推荐--聚类、分类。
一、关于数据
统计描述、可视化、相似性和相异性;规约(简化),小波变换,主成分分析(PCA)
二、可以做哪些事情
http://www.cnblogs.com/tornadomeet/p/3395593.html
1、相关性:相关系数、回归分析。FP Growth算法和Eclat算法
2、分类:
线性、对数线性、逻辑回归
树形(符号):C4.5 CART(结果是条件概率)
概率:朴素贝叶斯、贝叶斯网络、EM算法
神经网络:(感知的时候有网络,推理和工作的时候有规则)BP->深度学习->DBN RBM CNN(适合于模式识别)
SVM(存数学优化):线性可分、核技巧
组合:bagging(投票)、adaboost(考虑之前效果)、随机森林(多个CART)
3、聚类:
划分方法:K-means
密度聚类:DBSCAN OPTICS DENCLUE
层次聚类:BIRCH Chameleon
基于网格(先画好格子):STING,CLIQUE,WaveCluster
基于概率(数据之间满足概率分布函数,用数据拟合分布):COBWEB算法、GMM(Gaussian Mixture Model),神经网络算法有SOM(Self Organized Maps)
4、异常检测
三、分类算法的比较
http://www.cyzone.cn/a/20170422/310196.html
回归(Regression):建立函数关系,例子:交通流量分析、邮件过滤
决策树:擅长对一系列不同特征、品质、特性进行评估,例子:信用评估、赛马结果
随机森林:大规模数据集和存在大量且有时不相关特征的项。例子:用户流失分析、风险评估
朴素贝叶斯:小数据集上有显著特征,例子:情感分析、消费者分类
隐马尔可夫模型:预测隐藏状态,例子:面部表情分析、气象预测
循环神经网络(Recurrent neural network):存在大量有序信息时,例子:图像分类与字幕添加、政治情感分析。
长短期记忆(Long short-term memory,LSTM)与门控循环单元神经网络(gated recurrent unit nerual network):自然语言处理、翻译
卷积神经网络(convolutional neural network):卷积是指来自后续层的权重的融合,可用于标记输出层。当存在非常大型的数据集、大量特征和复杂的分类任务时。图像识别、文本转语音、药物发现
四、理解
回归:函数拟合
树:if else的规则
概率:联合分布
网:不是找到函数映射关系或联合分布律,而是将类似于函数映射的关系,通过神经网络的节点权值和偏置来记录和表达,其真正的函数解析式很多时候是无法直接写出的(所以叫做ai黑盒),算法不复杂,依赖数据(形象思维)
svm:严格的数学函数,算法复杂、数据依赖小
五、深度学习
别的机器学习方法最难的是降维、特征选择和标记等预处理,但是深度学习的特点是自动的提取分类需要的低层次或者高层次特征(用大数据去学习feature,适合于声音、图像、翻译、情绪分析等特征不明显的数据)。之后根据这些特征为输入进一步进行处理。
六、应用领域
文本挖掘与自然语言处理
图像、计算机视觉
语音
http://blog.csdn.net/lanchunhui/article/category/5842379/7
https://github.com/justdark/dml
相关推荐
当前流行教育数据挖掘与学习分析工具概览.pdf
完整版数据挖掘数据分析课程SPSS软件实习实训实战教材教程 第01章 SPSS概览_数据分析实例实战引人入门.rar
对文本挖掘结果应用其他数据挖掘模型,以便根据文本分析结果预测或分类。 12.3文本挖掘概览 本章介绍文本分类。由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的一个重要主题。我们将建立一个Rapid...
大数据时代数据挖掘与分析 讲师 杨庆跃 2015.8.11 目录 一、导入:移动互联网、云计算、物联网 二、什么是大数据 三、大数据应用现状与应用热点 四、数据分析与挖掘概述 六、聚类分析--客户分群 五、关联分析--交叉...
1.1 数据的输入和保存 1.1.1 SPSS的界面 1.1.2 定义变量 1.1.3 输入数据 1.1.4 保存数据 1.2 数据的预分析 1.2.1 数据的简单描述 1.2.2 绘制直方图 1.3 按题目要求进行统计分析 1.4 保存和导出分析结果 1.4.1 保存...
2019年中国挖掘机械行业概览.pdf
我们将建立一个RapidMiner挖掘流程,来学习如何通过连接到生物医学期刊网站,获取蛋白质相关论文的web数据,从中找到用户关心的某些信息内容:某蛋白质近年来论文发表数量趋势,及该蛋白质论文的作者、联系邮箱、...
新能源车辆数据概览演示案例 实时统计 本月行驶里程TOP5 报警车辆TOP5 电池报警车辆TOP10 车辆充电高峰时间 车型分类 行业分类
数据挖掘技术概览:涉及聚类(如k-means)、分类算法(逻辑回归、决策树)、回归分析以及关联规则发现等方法的运用。 机器学习实战应用:介绍监督学习(如训练模型预测)和无监督学习(如聚类分析)在R中的实现,并...
SQL Server 2005盛宴系列,历时半年通过3大分系列的46次课程,从“技术概览”、“基础应用”、“高级应用”三个方面逐级递进,带您领略SQL Server 2005的无上技术美味。下面是课程美食地图,助您了解此系列的课程...
数据挖掘及其算法概览,数据仓库,数据集成,Deep Web 集成与查询,关联规则,决策树
统计学是机器学习与数据挖掘的重要基础学科。本套思维导图精心整理了机器学习与数据挖掘领域所必备的统计学知识,对学习者进行提升非常有帮助。 目录: 0-统计-导图概览.png 1-描述性统计: 「表格和图形法」.png 2-...
探索Python爬虫工具:为数据挖掘与数据分析提供强大支持 在数据驱动的今天,获取并处理数据是每个研究人员、数据分析师和企业的重要任务。为此,我们汇集了一系列Python爬虫工具,旨在帮助您更高效地获取、处理和...
探索Python爬虫工具:为数据挖掘与数据分析提供强大支持 在数据驱动的今天,获取并处理数据是每个研究人员、数据分析师和企业的重要任务。为此,我们汇集了一系列Python爬虫工具,旨在帮助您更高效地获取、处理和...
探索Python爬虫工具:为数据挖掘与数据分析提供强大支持 在数据驱动的今天,获取并处理数据是每个研究人员、数据分析师和企业的重要任务。为此,我们汇集了一系列Python爬虫工具,旨在帮助您更高效地获取、处理和...
海量数据挖掘 游客行为数据呼叫,短信,区域切换 移动网络数据系统… 通过采集分析景区游客行为数据,实现对景区游客流量的实时统计和预警监测,提升旅游监管能力。 景区短彩信服务 游客采样分析 移动网络覆盖及...
探索Python爬虫工具:为数据挖掘与数据分析提供强大支持 在数据驱动的今天,获取并处理数据是每个研究人员、数据分析师和企业的重要任务。为此,我们汇集了一系列Python爬虫工具,旨在帮助您更高效地获取、处理和...
探索Python爬虫工具:为数据挖掘与数据分析提供强大支持 在数据驱动的今天,获取并处理数据是每个研究人员、数据分析师和企业的重要任务。为此,我们汇集了一系列Python爬虫工具,旨在帮助您更高效地获取、处理和...
探索Python爬虫工具:为数据挖掘与数据分析提供强大支持 在数据驱动的今天,获取并处理数据是每个研究人员、数据分析师和企业的重要任务。为此,我们汇集了一系列Python爬虫工具,旨在帮助您更高效地获取、处理和...
探索Python爬虫工具:为数据挖掘与数据分析提供强大支持 在数据驱动的今天,获取并处理数据是每个研究人员、数据分析师和企业的重要任务。为此,我们汇集了一系列Python爬虫工具,旨在帮助您更高效地获取、处理和...