`
w800927
  • 浏览: 119325 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
主成分分析法 http://baike.baidu.com/view/45376.htm 时间序列分析 http://baike.baidu.com/view/479624.htm?func=retitle 回归分析 http://baike.baidu.com/view/145440.htm
数据挖掘中的易犯错误• 按照Elder博士的总结,这10大易犯错误包括:0. 缺乏数据(Lack Data)1. 太关注训练(Focus on Training)2. 只依赖一项技术(Rely on One Technique)3. 提错了问题(Ask the Wrong Question)4. 只靠数据来说话(Listen (only) to the Data)5. 使用了未来的信息(Accept Leaks from the Future)6. 抛弃了不该忽略的案例(Discount Pesky Cases)7. 轻信预测(Extrapolate)8. 试图回答所有问题(Answer Eve ...
再说说提升水平lift这个参数。 假定设定规则的最小阀值为支持度30%,置信度为60%,然后你得到了很多的强关联规则。比如有这么一条,总数据10000个,A商品6000个,B商品7500个,然后同时购买A和B的4000个。我们发现A-B(即购买了a的同时购买b)这条规则也是一条强关联规则。支持度为=4000/1000o=40%,置信度=4000/6000=66.7%. 但是我们发现原总数据集中,购买b产品的比例有75%,要大于66.%,即购买a产品会对购买b产品产生反向作用,即负相关。所以才有了lift这样一个参数,来弥补支持度和置信度在解释规则方面的不足: Lift=  P(AUB ...
1 下载:sas 9.2 安装介质 dvd1: ed2k://|file|%5BSAS.9.2%E5%A4%9A%E5%9B%BD%E8%AF%AD%E8%A8%80%E7%89%88%EF%BC%88%E6%9B%B4%E6%96%B09.21.TS2M2%E7%89%88%EF%BC%89%5D.SAS9_2_Disk1.iso|4315152384|3b745cacd89fb908859d8a5aa7b8063e|/ dvd2: ed2k://|file|%5BSAS.9.2%E5%A4%9A%E5%9B%BD%E8%AF%AD%E8%A8%80%E7%89%88%EF%BC%88%E6 ...
# su - oracle $ sqlplus /as sysdba sql> @/path/create_user.sql /* -- Create the user create user myuser   identified by "myuser"; -- Grant/Revoke role privileges grant connect to myuser; grant resource to myuser; -- Grant/Revoke system privileges grant unlimited tablespace to myuser ...
1.SAS EM 在所有的数据挖掘产品中唯一一家能够将数据分为训练、验证、测试三部分并能自动地在训练数据上建模,在验证数据上进行模型调整优化,在测试数据上进行模型评估而不影响模型建立,同时还能将各种模型的提升图,ROC图等在一个 页面中显示,进而很直观地进行比较,模型哪个更好一目了然;而SPSS Clementine需要用户手动去分别创建训练、验证、测试等数据然后分别学习,相互之间无法协调,各种模型的提升图,ROC图都是分别显示的,各自为政,这样很不利于选出更好的模型和保证模型的质量。 2.SAS EM的帮助文档非常全面和系统,并且还有各种数据挖掘算法的细节,而SPSS Clementine ...
广义规则归纳(GRI) 节点会发现数据中的关联规则。例如,购买了剔须刀和客户在购买须后水之后,还可能会购买剔须霜。GRI 基于某项指数抽取了信息量最大的规则,此指数考虑了规则的普遍性(支持度)和准确性(置信度)。GRI 可以处理数值型和分类型输入,但目标必须是分类型。 Apriori 节点从数据抽取一组规则,即抽取信息内容最多的规则。Apriori 节点提供五种选择规则的方法并使用复杂的索引模式来高效地处理大数据集。对于大问题而言,Apriori 通常用于训练时比GRI 处理速度快;它对可保留的规则数量没有任何限制,而且可处理最多带有32 个前提条件的规则。Apriori 要求输入和输出字段均 ...
预测值和置信度:   $R-表示预测值,$RC表示置信度,置信度在0-1之间,说明预测值的精准度。 评估图表的工作原理: 根据预测值及预测的置信度排序记录、将记录分割为大小相等的组(分位数)并按由高到低顺序为每个分位数绘制业务标准值。 收益(增益)图表:
基于学习策略的分类 机械学习 传授学习 类比学习 归纳学习 基于解释的学习 基于学习方式的分类 (1)有导师学习(监督学习):输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方 ...
决策树需要计算结点的纯度来选择最具显著性的切分(split)。通常,CART以Gini,C5以信息增益(熵),CHAID以卡方。虽然存在这样的差别,但他们树形状的不同更为重要一些。 卡方:http://wenku.baidu.com/view/7c8962eeaeaad1f346933f5f.html C5起源于计算科学领域,讲究小样本上的重复测试比较(cross validation),进一步地,C5会进行规则(Rule Set)的概化以自动产生更为简洁的规则表达形式。牺牲一些精度来换取更好记的规则,对于业务人员来说无疑是值得的。 CART与CHAID,一个是二叉树,一个是多叉树;CAR ...
图1为知识挖掘的步骤 数据处理:  标准化处理  离散化 (Discretization)  连续值->离散值,分类中常用  取样 (Sampling)  维度缩减 (Dimensionality Reduction)  维度灾难 (Curse of Dimensionality)  维度过高造成过学习等一系列问题,不利于数据挖掘处理。  特征选取  Gain、CHI、MI  特征抽取  Principal Components Analysis (PCA)  Singular Value Decomposition  (SVD) 标准化处理  如果数值型属 ...
在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),我们把它叫做文本D的向量表示。其中Wk是Tk的权重,1& ...
Properties props=System.getProperties(); //系统属性 System.out.println("Java的运行环境版本:"+props.getProperty("java.version")); System.out.println("Java的运行环境供应商:"+props.getProperty("java.vendor")); System.out.println("Java供应商的URL:"+props.getPrope ...
set autotrace on explain 只解释不出现结果 set autotrace off 关闭上述效果
今天看算法分析是,看到一个这样的问题,就是在一堆数据中查找到第k个大的值。       名称是:设计一组N个数,确定其中第k个最大值,这是一个选择问题,当然,解决这个问题的方法很多,本人在网上搜索了一番,查找到以下的方式,决定很好,推荐给大家。       所谓“第(前)k大数问题”指的是在长度为n(n>=k)的乱序数组中S找出从大到小顺序的第(前)k个数的问题。       解法1: 我们可以对这个乱序数组按照从大到小先行排序,然后取出前k大,总的时间复杂度为O(n*logn + k)。       解法2: 利用选择排序或交互排序,K次选择后即可得到第k大的数。总的时间复杂度为O ...
Global site tag (gtag.js) - Google Analytics