Apache Tajo已经进入apache孵化器,国内网上一搜貌似还没有相关资料。这里我就抛砖引玉,充当一点翻译工作。
介绍:
Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各种分布式执行(如查询)和数据流。如此Tajo有许多查询控制策略,以及对查询可以做很多优化。
功能:
1.快速且低延迟的查询,支持各种SQL操作,如条件查询,GROUP BY,SORT,JOIN等
2.自身支持ETL
3.支持各种数据格式,如CSV, RCFile, RowFile (基于行的文件存储), and Trevni
4.有自己的命令行接口,所以可以直接通过SQL去操作Tajo
5.也可以直接通过Java Client去操作Tajo
依赖:
- Hadoop 2.0.3-alpha
- Java 1.6
网址:
http://tajo.incubator.apache.org/
更多技术文章、感悟、分享、勾搭,请用微信扫描:
相关推荐
tajo_proxy tajo-proxy-0.9.1-CDH5.2.0 Tajo代理
Tadpole DB Hub是统一基础架构工具,是基于各种环境的界面,用于管理Altibase,Apache Hive,Apache Tajo,Amzaon DynamoDB,Amazon RDS,Amazon Redshift,Elasticsearch,MySQL,MariaDB,Oracle,SQLite,Tibero...
python-tajo-客户端 Python Tajo 客户端模块 要求 pip安装protobuf
原始主页:https://github.com/hangum/TadpoleForDBTools它是管理Altibase,Amazon RDS,Apache Hive,Apache Cassandra,Apache Tajo,MongoDB,CUBRID,MariaDB,MySQL,Oracle,MSSQL,SQLite,Tibero, Web...
Kudu Kudu is a columnar storage manager developed for the Apache Hadoop platform Tajo A big data warehouse system on Hadoop Trafodion Transactional SQL-on-Hadoop Database Phoenix OLTP and operational...
背后可以接入不同的数据处理引擎,包括spark,hive,tajo等,原生支持scala,java,shell,markdown等。它的整体展现和使用形式和DatabricksCloud是一样的,就是来自于当时的demo。Zeppelin可实现你所需要的:-数据采集-...
以下是作者原文:考虑到系统使用的广泛程度与成熟度,在具体举例时一般会拿Hive和Impala为例,当然在调研的过程中也会涉及到一些其他系统,如SparkSQL,Presto,TAJO等。而对于HAWQ这样的商业产品和apachedrill这样...
reg注册表文件,双击执行,即可完成鼠标右键 以管理员身份在当前目录打开命令行
reg注册表文件,下载后执行,即可取消在右键上下文菜单中打开当前路径下的管理员身份运行的cmd命令行