8种最差的预测建模技术_你认同吗？ -

liangyan9966

浏览: 35923 次
性别:
来自: 北京

最近访客更多访客>>

dpjava

limengna845567

eyeLimit

amc1989

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (64)

社区版块

存档分类

2017-06 ( 64)
更多存档...

8种最差的预测建模技术_你认同吗？

Ant Git CVS

阅读全文http://click.aliyun.com/m/23305/

以下技术大多数已经发展了较长时间（在过去10年中），其中大部分缺点已经得到弥补，因此更新后的技术已经远不同于其原始版本，性能也大为提高。但通常情况下，这些有弊端的技术仍然被广泛使用。

1．线性回归
　　依靠一般标准、异方差性和其他假设，不能捕获高度非线性的混沌模式。它倾向于过度拟合、参数难以解读，并且在独立变量高度相关时非常不稳定。修正方法包括减少变量、进行变量变换，以及使用约束回归（例如，岭回归或Lasso回归）。

2．传统决策树
　　大而不稳定，无法解读，而且容易过度拟合。修正方法包括使用多个小决策树，而不是使用一个大决策树。

3．线性判别分析法
　　用于监督聚类。这是一个很差的技术，因为它假定簇没有重叠并且被超平面完全分开。在实践中从来没有这样的情况。应改用密度估计技术。

4．K-均值聚类
　　倾向于产生环形簇，不容易处理不符合高斯混合分布的数据点。

5．神经网络
　　不容易解读，不稳定，容易过度拟合。

6．最大似然估计
　　要求你的数据符合预先规定的概率分布。它不是数据驱动的，很多时候预先指定的高斯分布和你的数据很不适合。

7．高维密度估计
　　常受到维度的影响。修正方法之一是使用非参数核密度估计与自适应的带宽。

8．朴素贝叶斯
　　用于如欺诈检测、垃圾邮件检测和评分。它们假定变量是独立的，但如果不是，就会惨遭失败。在进行欺诈检测和垃圾邮件检测时，变量（有时被称为规则）是高度相关的。修正方法之一是将变量分为独立的变量簇，每个簇包含高度相关的变量。然后将朴素贝叶斯应用于簇，或者使用数据减少技术。不好的文本挖掘技术（例如，垃圾邮件检测中的基本“单词”规则）和朴素贝叶斯结合会产生非常可怕的结果，带来很多误报和漏报。

　　这些不好的模型仍然被广泛使用的原因如下。
阅读全文http://click.aliyun.com/m/23305/

分享到：