`
panyi5202
  • 浏览: 56808 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Mondrian--olap引擎

阅读更多
一、引言

Mondrian, 蒙得里安·皮特1872-1944荷兰画家,作品以交错的三原色为基色的垂直线条和平面为特点,他的著作包括 新造型主义(1920年),对抽象艺术的发展曾经产生很深影响。——金山词霸如是说。

不过,本文所要讨论的可不是这位艺术家。那到底mondrian是什么呢?

Mondrian是一个开源项目。一个用Java写成的OLAP(在线分析性处理)引擎。它用MDX语言实现查询,从关系数据库(RDBMS)中读取数据。然后经过Java API用多维的方式对结果进行展示。

我们都知道,在线分析处理(OLAP)要实时地分析大量数据。“online”这个词的含义就是即使相关的数据量是巨大的——可能以GB为单位——系统也要足够快的响应以显示结果。

OLAP用了多维分析的技术。尽管关系型数据库所存储的所有数据都是以行和列的形式存在的,但一个多维数据集还是可以由轴(axes)和单元(cell)组成。

在上面的例子中,时间是个维度(dimension),而它下面的层次(Hierarchies)又分为半年、季度等级别(Level)。

二、感性认识——运行一个小实例

我们暂时先不讨论Mondrian所用到的一些技术。我们可以先从一个小例子开始,不必在意每个细节,只是希望大家有个感性认识先。在实施这个例子的过程中,或许读者就能见些端倪。

首先应该到http://sourceforge.net/projects/mondrian/下载mondrian的最新版本。这是一个zip包,包括我们要用到的lib和一个例子。

当然,读者完全可以运行mondrian自带的实例,不过这个例子有些纷繁复杂,除了Mondrian本身还有其它技术在里面,不大容易讲清楚,也不太适合初学者学习。所以,笔者在这里设计一个简洁干净的最小化实例。

本文所阐述的实例环境是Windows2000+Tomcat+Oracle。并且认为读者已经针对jdk和Tomcat做了正确的开发环境的设置。

2.1准备工作

在%Tomcat%\webapp\依次建立mywebapp,mywebapp\WEB-INF,mywebapp\WEB-INF\lib,把

mondrian.war\WEB-INF\lib\mondrian.jar,javacup.jar, xalan.jar,junit.jar等相关的jar包copy到%TOMCAT_HOME%\webapps\mywebapp\lib\下。

2.2数据库结构

在这个tiny的系统中,数据库有3个表tb_employee(职员表),tb_time(时间表),tb_salary(薪酬表)。表结构如下:

drop table tb_employee;
create table tb_employee
(
     employee_id     number,             --职员id     
     employee_name   varchar2(10)        --职员姓名
);

drop table tb_time;
create table tb_time
(
    time_id   number,        --时间id
    the_year  char(4),       --年
    the_month char(2)        --月
);

drop table tb_salary;
create  table tb_salary
(
    employee_id  number,                --职员id    
    time_id      number,                --时间id
    salary       number(19,4)           --薪酬
);

当然,为了使系统能够运行,还需要读者向数据库表中插入一些数据。

2.3根据数据库表的结构,书写schema文件
<?xml version="1.0"?>
<Schema name="Mondrian">
<Cube name="CubeTest">
    <Table name="TB_SALARY" />    
    <Dimension name="Employee"  foreignKey="EMPLOYEE_ID" >
        <Hierarchy hasAll="true" primaryKey="EMPLOYEE_ID">          
            <Table name="TB_EMPLOYEE" />
        <Level name="employeeId" column="EMPLOYEE_ID"   uniqueMembers="true" >
                <Property name="employeeName" column="EMPLOYEE_NAME"/>
            </Level>
        </Hierarchy>
    </Dimension>
    <Dimension name="Time" foreignKey="TIME_ID" >
        <Hierarchy  hasAll="false" primaryKey="TIME_ID" >
            <Table name="TB_TIME" />
            <Level name="year" column="THE_YEAR" uniqueMembers="false" />
            <Level name="month" column="THE_MONTH" uniqueMembers="false" />
        </Hierarchy>
    </Dimension>           
    <Measure name="Salary" column="SALARY" aggregator="sum" />
    </Cube> 
</Schema>

文件路径为mywebapp\WEB-INF\mondriantest.xml

2.4利用MDX查询
mywebapp\mondriantest.jsp
  <%@ page import="mondrian.olap.*"%>
<%
  Connection connection = 
      DriverManager.getConnection
      ("Provider=mondrian;                 
      Jdbc=jdbc:oracle:thin:@xxx.xxx.xxx.xxx:1521:dbname; 
      JdbcUser=dbuser;                                     
      JdbcPassword=dbpasswd;                                
      Catalog=file:///c:/Tomcat4.1/webapps/mywebapp/WEB-INF/mondriantest.xml; 
      JdbcDrivers=oracle.jdbc.driver.OracleDriver;",null,false);     
  String queryStr=
      "select {[Measures].[Salary]} ON COLUMNS,
      {[Employee].[employeeId].Members} ON ROWS 
      from CubeTest "; 
  Query query =connection.parseQuery(queryStr);
  Result result = connection.execute(query);
out.println("get result");
%>

2.5运行

这时启动tomcat,在浏览器地址栏中输入

http://localhost:8080/mywebapp/ mondriantest.jsp即可。

三、深入探讨

3.1 API

mondrian为客户端应用程序提供了API接口以进行查询。 而这些API对于任何用过JDBC的人都会觉得似曾相识的。主要的不同点是查询语言的不同:Mondrian用的是MDX('Multi-Dimensional eXpressions'),而JDBC则用的是SQL。

和JDBC一样,也是要经过建立连接,形成查询语句,执行查询得到结果集等几个步骤的。

我们来看看mondriantest.jsp的代码

第1行:import mondrian.olap.*

这是引入我们所需的类,下面要用到的DriverManager、Connection、Query、Result都在这个package内。这个package一般位于mondrian.jar中。

第2行:Connection connection =

  DriverManager.getConnection

("Provider=mondrian;                

Jdbc=jdbc:oracle:thin:@xxx.xxx.xxx.xxx:1521:dbname;

JdbcUser=dbuser;                                    

JdbcPassword=dbpasswd;                               

Catalog=file:///c:/Tomcat4.1/webapps/mywebapp/WEB-INF/mondriantest.xml;

JdbcDrivers=oracle.jdbc.driver.OracleDriver;",null,false); 

通过DriverManager创建一个Connection的实例,建立起数据库连接。

其中Jdbc=jdbc:oracle:thin:@xxx.xxx.xxx.xxx:1521:dbname; 是设置数据库的ip和库名。JdbcUser=dbuser;  设置数据库用户。JdbcPassword=dbpasswd;   设置用户密码。而

Catalog=file:///c:/Tomcat4.1/webapps/mywebapp/WEB-INF/mondriantest.xml; 就是设置MDX语句查询要对应的schema文件的路径

第3行:String queryStr=

"select {[Measures].[Salary]} ON COLUMNS,

{[Employee].[employeeId].Members} ON ROWS

from CubeTest ";

形成MDX的查询语句。MDX语句的形式和schema文件的设定是密切相关的,当然schema文件的形成也是由数据库结构决定的。

第4行:Query query =connection.parseQuery(queryStr);对MDX语句进行分析处理,是否符合schema文件定义、数据库结构和数据库数据。

第5行:Result result = connection.execute(query);执行查询,得到结果集。

我们发现Query类似于JDBC的Statement,而Result则酷似于ResultSet。

3.2 schema

3.2.1什么是schema

schema定义了一个多维数据库。包含了一个逻辑模型,而这个逻辑模型的目的是为了书写MDX语言的查询语句。这个逻辑模型实际上提供了这几个概念:Cubes,维度(Dimensions), 层次(Hierarchies),级别(Levels),和成员(Members)。

而schema文件就是编辑这个schema的一个xml文件。在这个文件中形成逻辑模型和数据库物理模型的对应。

3.2.2 schema的逻辑结构

3.2.2.1 Cube

一个Cube是一系列维度(Dimension)和度量(Measure)的集合区域。在Cube中,Dimension和Measure的共同地方就是共用一个事实表。

例:

<Cube name="CubeTest">

    <Table name="TB_SALARY" />

   …….

</Cube>

<Table>标签确定了所用的事实表的表名。

3.2.2.2 Measure

一个度量,简单的说,就是要被计算的值。

例:

<Measure name="Salary" column="SALARY" aggregator="sum" />

<Measure>标签有3个必要的属性name(度量名),column(在事实表中的字段名), aggregation(聚合所用的方法)。

3.2.2.3 Dimenesion

而维度一般有其相对应的维度表。

例:

<Dimension name="Time" foreignKey="TIME_ID" >

        <Hierarchy  hasAll="false" primaryKey="TIME_ID" >

            <Table name="TB_TIME" />

            <Level name="year" column="THE_YEAR" uniqueMembers="false" />

            <Level name="month" column="THE_MONTH" uniqueMembers="false" />

        </Hierarchy>

</Dimension>

一般Dimesion包含层次(Hierarchy),而hierarchy是由级别(Level)组成。

<Dimension>标签的foreignKey是事实表中的字段,<Hierarchy>标签的primaryKey是维度表中的字段,通过这种方式把事实表和维度表关联起来。<Hierarchy>标签下的<Table>标签就指明了维度表名。而若干个Level对应着维度表的若干字段。

3.3 MDX语言

MDX是为了查询多维数据的,而SQL是为了查询关系数据库的。而Mondrian所涉及到的一些MDX概念、MDX语法以及系统定义的MDX函数和微软的MDX十分接近,差别微小。完全可以参考微软的帮助文档进行学习。在此就不在赘述。

四、结语

Mondrian作为基于java的OLAP引擎,而且是开源的项目,为那些基于java的项目而要脱离微软构架但又不得不对大量数据进行分析的项目又提供了一种可行的方案。希望它也能象蒙得里安·皮特对抽象艺术的发展产生影响一样起到一定的作用。
分享到:
评论
1 楼 jack547155187 2010-11-13  
学习了,对我帮助很大。

相关推荐

    mondrian-data-foodmart-hsql.rar

    Mondrian是一个用Java写成的ROLAP引擎,是开源项目Pentaho的一部分。它实现了 MDX语言、XML解析、JOLAP规范。它从SQL 和其它数据源读取数据并把数据聚集在内存缓存中,然后经过Java API用多维的方式对结果进行展示,...

    mondrian-olap:JRuby gem,用于使用Mondrian OLAP Java库执行关系数据库数据的多维查询

    mondrian-olap是JRuby的瑰宝,它包括Mondrian OLAP引擎,并提供Ruby DSL以在关系数据库模式之上创建OLAP模式,并提供MDX查询语言和查询构建器Ruby方法来进行分析查询。 -olap用于。 可以用于在基于mondrian-olap的...

    Mondrian in Action (Mondrian OLAP 引擎技术)

    介绍 Mondrian OLAP 引擎的使用方法,官方书籍,原版书卖500大洋。

    Mondrian开源OLAP引擎详解.docx

    Mondrian开源OLAP引擎详解Mondrian开源OLAP引擎详解Mondrian开源OLAP引擎详解Mondrian开源OLAP引擎详解Mondrian开源OLAP引擎详解

    mondrian-master.zip

    Mondrian是一个用Java写成的ROLAP引擎,是开源项目Pentaho的一部分。它实现了 MDX语言、XML解析、JOLAP规范。它从SQL 和其它数据源读取数据并把数据聚集在内存缓存中,然后经过Java API用多维的方式对结果进行展示,...

    mondrian-3.1.5-master.zip

    Mondrian是一个用Java写成的ROLAP引擎,是开源项目Pentaho的一部分。它实现了 MDX语言、XML解析、JOLAP规范。它从SQL 和其它数据源读取数据并把数据聚集在内存缓存中,然后经过Java API用多维的方式对结果进行展示,...

    Mondrian WEB 嵌入

    Mondrian WEB 嵌入,介绍开源 OLAP 引擎,介绍如何入门mondiran

    eMondrian:Java Web存档(.WAR),用于部署和运行mondrian OLAP引擎的eMondrian版本

    eMondrian是Mondrian(R)OLAP引擎版本的发行版。 此版本的主要功能是对ADOMD.NET和Excel客户端的支持。 部署方式 下载dist / emondrian.war文件。 将emondrian.war文件复制到Java服务器(Apache Tomcat,Jetty,...

    Mondrian实例

    这个Java实例将利用Mondrian提供的OLAP引擎对已建立好的数据立方体XML进行MDX查询。不是网上到处都有的jPivot,而是一个更基础更轻量的例子。

    mondrian源码分析与说明.doc

    mondrian 是一个基于 Java 的开源 OLAP 服务器,提供了对多维数据的管理和分析功能。下面是对 mondrian 源码的分析和说明: 1. 概述 mondrian 的架构基于 Java 语言,使用了多种设计模式和技术来实现对多维数据的...

    cubeguard:Pentaho插件,旨在实现mondrian安全性方面的一些简化

    魔方卫士Cubeguard是用于Pentaho BA平台的Sparkl插件,旨在为Mondrian-Olap引擎提供动态的安全层。 使用此插件,开发人员可以使用ETL工具[PDI]来定制每个Schema的访问级别。 关键优势开发人员可以利用会话变量来定制...

    Mondrian的异常处理小结

    由于要做多维报表的展现,需要使用OLAP的引擎Mondrian,于是最近一直在学习MDX查询语言,在做Demo时遇到了很多bug,我认为这些异常对于初学MDX查询语言的朋友来说很常见,一般都会遇到这些bug,这里我将自己遇到的...

    Mondrian中聚合表的应用

    最近在项目中使用了开源OLAP引擎——Mondrian实现一个多维分析系统,在项目后期系统优化阶段使用了Mondrian中的聚合表机制。这里结合 Mondrian官方资料和个人使用经验,对Mondrian中聚合表的概念、应用场景、如何...

    Mondrian用于web项目.doc

    一个用Java写成的OLAP引擎。它用MDX语言实现查询,从关系数据库(RDBMS)中读取数据。然后经过Java API以多维的方式对结果进行展示。 Mondrian的使用方式同JDBC驱动类似。可以非常方便的与现有的Web项目集成

    如何将Mondrian用于J2EE/web项目

    本文档详细讲解了,如何自己创建一个mondrian项目,并且把该项目集成在自己的web项目中。是一个学习mondrian的很好帮助文档。

    《在Tomcat上安装部署SAIKU》资源下载

    Saiku是一个强大的独立工具...Saiku是基于Mondrian OLAP引擎。本文主要是一步一步解释如何在tomcat下部署saiku,为了让你更好更快的使用。开始之前,假设你已经比较熟悉数据集市数据库,以及如何建立Mondrian Schema。

    schema-workbench.zip

    Mondrian是一个用Java写成的ROLAP引擎,是开源项目Pentaho的一部分。它实现了 MDX语言、XML解析、JOLAP规范。它从SQL 和其它数据源读取数据并把数据聚集在内存缓存中,然后经过Java API用多维的方式对结果进行展示,...

    官方mondrianschema编写指南&无水印版

    官方mondrianschema编写指南,优化无水印版/特别版 中间红色的水印实在是太影响阅读了!

    BI开源项目现状和对比分析.doc

    1.1.1. 独立功能项目  OLAP Server Mondrian  ETL 工具 Enhydra Octopus,JasperETL  OLAP客户端组件 Jpivot  报表引擎组件 JasperReport,JFreeChart,JfreeReport,BIRT  数据挖掘组件 Weka

    推荐6款常用的Java开源报表制作工具.pdf

    * OLAP Server :Mondrian * OLAP 展示:JPivot * 数据挖掘组件:Weka * 应用服务器和 Portal 服务器:JBoss * 单点登陆服务及 LDAP 认证:JOSSO * 自定义脚本支持:Mozilla Rhino Javascript 脚本处理器 三、...

Global site tag (gtag.js) - Google Analytics