`

关于数据挖掘关联规则的Oracle 实 现

阅读更多

呵呵,前几天拿到了数据挖掘基础教程一书,感觉部分算法是基于统计学的原理的,而统计学是可以通过 Oracle 来实现。

其次是为了观看德国 vs 西班牙的世界杯比赛,来了一点小小的兴致,动手写点小脚本。不过本文只是为了实现而实现的,没有做 任何优化,有兴趣的话,大家可以玩一玩。

 

关于数据挖掘关联规则的材料,可以参见:

http://baike.baidu.com/view/1076817.htm?fr=ala0_1

关联规则是形如 X  Y 的蕴涵式,

其中且, X  Y 分别称为关联规则的先导 (antecedent  left-hand-side, LHS) 和后继 (consequent  right-hand-side, RHS) 

关联规则在 D 中的支持度 (support)  D 中事务同时包含 X  Y 的百分比,即概率; =X^Y/D

置信度 (confidence) 是包含 X 的事务中同时又包含 Y 的百分比,即条件概率。   =(X^Y)/X

关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。

若给定最小支持度α = n ,最小置信度β = m ,则分别通过以上的 X^Y/D  (X^Y)/X ,可获知是否存在关联

 

使用的原始数据

  

 

         反范式后的数据

  

 

         待统计项

  

 

-- 创建各个购买单元项视图

create view distinct_trans as select distinct tranobject from purchase;

-- 创建各个事务内部的购买单元项

create view all_trans as

-- 可以用 wm_concat 函数

SELECT tranid,MAX(tranobjects) tranobjects

  FROM (select tranid,WMSYS.WM_CONCAT(tranobject) OVER(PARTITION BY tranid ORDER BY tranobject) tranobjects

         from purchase

       )

group by tranid;

-- 也可以用 sys_connect_by_path 函数

create view all_trans as

select tranid,substr(tranobjects,2) tranobjects from  -- 格式化前面的逗号和空格

(

  select distinct tranid,FIRST_VALUE(tranobjects) OVER(PARTITION BY tranid ORDER BY levels desc ) AS tranobjects  -- 保留最大的那个

   from

   (

     select tranid,sys_connect_by_path(tranobject,',') tranobjects,level levels -- 各购买事务的内部排列组合

       from purchase

    connect by tranid=prior tranid and tranobject<prior tranobject

   )

);

 

-- 对所有购买单元项进行排列组合,即数据挖掘的 X^Y 

create view all_zuhe as

select substr(sys_connect_by_path(tranobject,','),2) zuhe

  from (select distinct tranobject from purchase)

connect by nocycle tranobject<prior tranobject;

 

select * from all_zuhe

-- 筛选出符合要求的排列组合,即数据挖掘的 X 项和 Y 

create view full_zuhe as

select a.zuhe X,b.zuhe Y from all_zuhe a,all_zuhe b

where instr(a.zuhe,b.zuhe)=0 and instr(b.zuhe,a.zuhe)=0

  and not exists(select 1 from distinct_trans c

                 where instr(a.zuhe,c.tranobject)>0 and instr(b.zuhe,c.tranobject)>0)

 

select * from full_zuhe  

 

create or replace view tongji as

select xy,xy_total,x,x_total,y,y_total,transtotal from

(

  select y||','||x xy,

         (select count(*) from all_trans a where instr(a.tranobjects,c.x||','||c.y)>0 or instr(a.tranobjects,c.y||','||c.x)>0) xy_total, -- 包含 xy 的事务数

         y,

          (select count(*) from all_trans b where instr(b.tranobjects,c.y)>0) y_total, -- 包含 y 的事务数

         x,

         (select count(*) from all_trans b where instr(b.tranobjects,c.x)>0) x_total, -- 包含 x 的事务数

         d.transtotal  -- 总事务数

   from full_zuhe c,(select count(distinct tranid) transtotal from purchase) d

  order by xy_total desc,x_total desc

)

 

select * from tongji where xy_total>=3 and y_total>=3

分享到:
评论

相关推荐

    基于关联规则挖掘的Oracle数据库审计分析系统的设计.pdf

    基于关联规则挖掘的Oracle数据库审计分析系统的设计.pdf

    Oracle安全审计技术设计

    为了改进与完善Oracle当前安全审计机制,采用了数据挖掘技术,将数据挖掘技术应用至Oracle数据库安全审计中来,对数据库的记录特点进行分析,通过审计记录的分析,提出了在序列模式挖掘及关联规则2种技术基础上,建立用户...

    商务智能方法概论.pptx

    目 录 引言 商务智能过程 数据仓库 商务智能应用 构建商务智能环境 关联规则 分类分析 聚类分析 概念描述 商务智能方法概论全文共221页,当前为第2页。 目 录 引言 商务智能简介 商务智能与信息社会 商务智能与企业...

    java收银系统源码-Data_Mining_for_Market_Basket_Analysis:Data_Mining_for_Marke

    生成频繁项集和挖掘关联规则 注意:代码在arm目录下,JDBC jar在工程目录下。 1.1 项目概况 本项目需要使用Java访问Oracle数据库,使用Apirori算法完成关联规则数据挖掘任务。 请自行执行。 我们将检查解决方案之间...

    大数据架构师的岗位职责.docx

    5、熟悉常用机器学习算法(如分类、回归、聚类、关联规则等)及其原理,具备应用场景经验,如用户画像、商品关联度分析、舆情分析; 6、熟悉主数据、元数据、数据质量、和数据建模等数据治理相关的体系和方法; 7、具备...

    大数据产业链构成解析.doc

    现实世界中的数据大多不完整或不一致,无法直接进行数据挖掘或挖掘结果不理想 ,需要对采集的数据进行填补、平滑、合并、规格化、检查一致性等数据预处理操作, 并且往往需要大量的人工参与,因此数据采集和清洗...

    数据库系统-招标参数---模板.doc

    " " " "在数据库产品中提供OLAP多维存储库的商务和技术" " " "许可,包括多维建模工具,以及多维存储服务器 " " " "数据库产品必须提供数据挖掘算法的商务和技术许" " " "可,例如:时间序列、神经网络、关联分析...

    java8看不到源码-FPARM-Frequent-Patterns-and-Association-Rule-Miner:这是用于频繁项集生

    频繁模式和关联规则挖掘器 这是使用 HashTree 数据结构生成频繁项集的 Apriori 算法的实现,并从这些频繁项集生成关联规则有 GUI 版本和命令行版本。 从FPARM-Frequent-Patterns-and-Association-Rule-Miner文件夹...

    【白雪红叶】JAVA学习技术栈梳理思维导图.xmind

    关联规则算法 APRORIVE算法 分布式 负载均衡 水平伸缩 集群 分片 Key-hash 异步 一致性hash 消峰 分库分表 锁 悲观锁 乐观锁 行级锁 分布式锁 分区排队 一致性 一致性算法 paxos zab nwr ...

    阐述大型数据库系统安全风险及策略.docx

    此外,新的计算机技术也不断涌现,出现了诸如数据流、Web数据管理、数据挖掘技术等一系列前沿技术。其中计算机挖掘技术的安全应用功能可体现为:(1)联系功能。对数据进行关联分析,保证所得结果的安全可靠性。(2...

Global site tag (gtag.js) - Google Analytics