`
wbj0110
  • 浏览: 1549874 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

在线分析查询系统mdrill

阅读更多

1:mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。
2:mdrill旨在帮助用户在几秒到几十秒的时间内,分析百亿级别的任意维度组合的数据。
3:mdrill是一个分布式的在线分析查询系统,基于hadoop,lucene,solr,jstorm等开源系统作为实现,基于SQL的查询语法。 mdrill是一个能够对大量数据进行分布式处理的软件框架。mdrill是快速的高性能的,他的底层因使用了索引、列式存储、以及内存cache等技 术,使得数据扫描的速度大为增加。mdrill是分布式的,它以并行的方式工作,通过并行处理加快处理速度。

4:mdrill在adhoc项目中,mdrill使用了10台机器,存储了400亿的数据,每次扫描30亿的行数,响应时间在20秒~120秒左右(取决不同的查询条件)。

https://github.com/alibaba/mdrill

 
分享到:
评论

相关推荐

    mdrill源代码

    mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。 在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80...

    mdrill的源代码

    mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。 在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80...

    Mdrill项目在lucene的改进上的10点心得1

    不言而喻,这种lucene的实现是很坑爹的(貌似lucene4中有较大的改进),数据量比较小的时候,性能还可以,但是数据量很大的时候,占用的内存非常高,使用so

    大数据架构师应该做到的.pdf

    实时多维查询和分析) 已处理数⼗亿事件和TB级数据 实时查询分析 ⾼可⽤、⾼容错、⾼性能 交互式聚合和快速探究⼤量数据 为OLAP⼯作流的探索性分析⽽构建,⽀持各种过滤、聚合和查询 对⽐ drill mdrill 等 Tez(简化...

    alimama-adhoc.tar.gz(1)

    mDrill中lib缺少的jar文件。 将alimama.part1.rar、alimama.part2.rar两个文件下载下来之后解压出来将里面的lib中的jar复制到mdrill lib中

Global site tag (gtag.js) - Google Analytics