`
eric_weitm
  • 浏览: 235004 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

数据挖掘概览

 
阅读更多

数据、信息、知识、智慧是信息系统的几个层次,挖掘的目的是获得知识甚至智慧,即对于信息的归纳和演绎的能力。筛选的演进过程是 sql查询--搜索---推荐--聚类、分类。

一、关于数据

统计描述、可视化、相似性和相异性;规约(简化),小波变换,主成分分析(PCA)

二、可以做哪些事情

http://www.cnblogs.com/tornadomeet/p/3395593.html

1、相关性:相关系数、回归分析。FP Growth算法和Eclat算法

2、分类:

线性、对数线性、逻辑回归

树形(符号):C4.5 CART(结果是条件概率)

概率:朴素贝叶斯、贝叶斯网络、EM算法

神经网络:(感知的时候有网络,推理和工作的时候有规则)BP->深度学习->DBN RBM CNN(适合于模式识别)

SVM(存数学优化):线性可分、核技巧

组合:bagging(投票)、adaboost(考虑之前效果)、随机森林(多个CART)

 

3、聚类:

划分方法:K-means 

密度聚类:DBSCAN OPTICS DENCLUE

层次聚类:BIRCH Chameleon

基于网格(先画好格子):STING,CLIQUE,WaveCluster

基于概率(数据之间满足概率分布函数,用数据拟合分布):COBWEB算法、GMM(Gaussian Mixture Model),神经网络算法有SOM(Self Organized Maps)

4、异常检测

 

三、分类算法的比较

http://www.cyzone.cn/a/20170422/310196.html

回归(Regression):建立函数关系,例子:交通流量分析、邮件过滤

决策树:擅长对一系列不同特征、品质、特性进行评估,例子:信用评估、赛马结果

随机森林:大规模数据集和存在大量且有时不相关特征的项。例子:用户流失分析、风险评估

朴素贝叶斯:小数据集上有显著特征,例子:情感分析、消费者分类

隐马尔可夫模型:预测隐藏状态,例子:面部表情分析、气象预测

 

循环神经网络(Recurrent neural network):存在大量有序信息时,例子:图像分类与字幕添加、政治情感分析。

长短期记忆(Long short-term memory,LSTM)与门控循环单元神经网络(gated recurrent unit nerual network):自然语言处理、翻译

卷积神经网络(convolutional neural network):卷积是指来自后续层的权重的融合,可用于标记输出层。当存在非常大型的数据集、大量特征和复杂的分类任务时。图像识别、文本转语音、药物发现

 

四、理解

回归:函数拟合

树:if else的规则

概率:联合分布

网:不是找到函数映射关系或联合分布律,而是将类似于函数映射的关系,通过神经网络的节点权值和偏置来记录和表达,其真正的函数解析式很多时候是无法直接写出的(所以叫做ai黑盒),算法不复杂,依赖数据(形象思维)

svm:严格的数学函数,算法复杂、数据依赖小 

五、深度学习

别的机器学习方法最难的是降维、特征选择和标记等预处理,但是深度学习的特点是自动的提取分类需要的低层次或者高层次特征(用大数据去学习feature,适合于声音、图像、翻译、情绪分析等特征不明显的数据)。之后根据这些特征为输入进一步进行处理。

六、应用领域

文本挖掘与自然语言处理

图像、计算机视觉

语音

 

http://blog.csdn.net/lanchunhui/article/category/5842379/7

https://github.com/justdark/dml

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics