`

大数据, 数据量大就牛逼么?

阅读更多

刚看了这篇博客 http://coolshell.cn/articles/10192.html

 

看完后, 觉得很有体会, 关于结论部分, 也补充一下自己的感受

 

综上所述,下面是我觉得数据挖掘或机器学习最重要的东西:

 

1)数据的质量。分为数据的标准和数据的准确。数据中的杂音要尽量地排除掉。为了数据的质量,大量人肉的工作少不了。

jimmee注:  是的, 不管数据量多大, 数据的质量如何, 噪音如何, 最后能否得出标准化的数据, 对后期的分析至关重要,  如果没有准确的数据,  那么得出的结论可能是相反的. 后期再花费多大的力气, 算法优化都是扯淡.

 

 

2)数据的业务场景。我们不可能做所有场景下的来,所以,业务场景和产品形态很重要,我个人感觉业务场景越窄越好。

 

jimmee注:  不同的业务场景, 可能使用到的算法是完全不同的, 照搬一个通用的算法去处理所有的业务, 基本来说是个愚蠢的行为, 做数据, 对业务的了解是很有必要的.

 

 

3)数据的分析结果,要让人能看得懂,知道接下来要干什么,而不是为了数据而数据。

 

jimmee注:  数据挖掘不是简单的统计, 分析出的数据能用来做什么, 需要能够落地到实处, 而不是想的美好, 对业务却没有任何帮助.

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics