`
landyer
  • 浏览: 139489 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
Hadoop计算平台和Hadoop数据仓库的区别http://datasearch.ruc.edu.cn/~boliangfeng/blog/?tag=%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93Hive 随谈(三)– Hive 和数据库的异同http://www.tbdata.org/archives/551Hadoop Ecosystem解决方案---数据仓库http://www.cnblogs.com/OnlyXP/archive/2009/10/14/1583450.htmlhadoop+hive 做数据仓库 & 一些测试http://hi.baidu ...
整个Hadoop家族由以下几个子项目组成: 成员名 用途
在上一讲<<云框架Hadoop之部署Hive>>上,我们谈到了hadoop的数据仓库hive.下面我们说明一下hive的简单查询应用。在hadoop环境下,shell下直接输入hive,就会出现hive shell操作界面。关于HIVE里的SQL,我习惯性的将HIVE的SQL语句叫做HQL,事实上HQL有很多和SQL类似的地方,还有一点要说明的是HQL数据存储位置是在Hadoop上的HDFS。    HIVE的数据类型 。HiveQL只支持以下几种基本数据类型TINYINT, SMALLINT, INT, BIGINT, DOUBLE, STRING。支持的复杂数据类型有 ...

hive数据导出

很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。 1.将select的结果放到一个的的表格中(首先要用create table创建新的表格)  insert overwrite table test  select uid,name from test2; 2.将select的结果放到本地文件系统中 INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a; 3.将sel ...
由于很多数据在hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是\,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:   create table test(uid string,name string)row format delimited fields terminated by '\t'; 通过这种方式,完成分隔符的指定。 然后通过hadoop fs -cp或者hadoop distcp 进行文件夹复制。    由于数据复制的成本比较高,时间比较慢,当不需要复制数据的时候,可以直接采取移动的方式将hadoop数据转移到h ...
udf编写入门大写转小写package com.afan;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class UDFLower extends UDF{    public Text evaluate(final Text s){        if (null == s){            return null;        }        return new Text(s.toString().toLowerCase());    }}1加载udf jar ...
Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同 时,HiveQL语言能力不足时,它也能允许使用传统的map/reduce进行复杂数据分析。Hive是搭建在Hadoop平台之上的。Hive并不是一个真正的数据库,它的元数据需要存储在其他数据库中(例如mysql)。。Hadoop平台提 供了HDFS分布式存储系统和map/reduce分布式计算系统,而Hive在这两个系统之上,使得用户只需使用熟悉SQL语言就能进行分布式计算,而 map/reduce编程往往是相当复杂的。Hive在少量数据运算或是短时间内的重复查询上, ...
单台服务器上学习Hadoop和Hive十分钟教程 Hadoop是个很流行的分布式计算解决方案,Hive是基于hadoop的数据分析工具。 一般的学习者不是太容易找到多台服务器来做集群学习hadoop,所以hadoop官方文档提供了在单台服务器上运行hadoop的指南(hive是基于hadoop的,它不关心有几台服务器,只要有hadoop就行了),来教大家怎样在一台硬件机器上模拟一个hadoop集群,这种模式只适合用来学习练手,真正要做分布式计算,是会配置在多台机器上的。 下面是一个最简单的安装使用hadoop/hive的文档: 下载Hadoop、Hive a)         ...
一、安装准备 1、下载hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/ 2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6) 3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、三台机器,192.168.3.131(master),192.168.3.132(slave),192.168.3.133(sla ...
基于云计算平台的并行数据挖掘 已有 1261 次阅读 2010-5-7 14:26 |个人分类:cloud|系统分类:科研笔记
作者:hovlj_1130 | 可以任意转载, 但转载时务必以超链接形式标明文章原始出处 和 作者信息 及 版权声明http://hi.baidu.com/hovlj_1130/blog/item/619e36d436be74c950da4b2d.html 场景: hadoop集群A  ip: 192.168.11.* hadoop-namenode:192.168.11.A user:hadoop   store-serverB ip:192.168.11.B user:viewlog   需要在store-serverB上定时每天导数据到hadoop集群A;
配置HDFS             配置HDFS应该是一件不难的事情。首先,我们先配好HDFS的配置文件,再对NameNode进行format操作。    配置Cluster    这里,我们假定,你已经下载了Hadoop的一个版本,并解压完毕。    Hadoop安装目录下的conf是hadoop存放配置文件的目录,里面有一些XML文件需要配置。conf/hadoop-defaults.xml 文件包含了hadoop的任何参数的默认值。这个文件应该是只读的。你可以通过在conf/hadoop-site.xml中设置新值的方式来覆盖默认的 配置。集群上所有的机器的hadoop-site.x ...
20:55 2010-6-2 运行环境: Hadoop.0.20.2 CentOS 5.4  java version "1.6.0_20-ea" 配置的是单机Hadoop环境 先看下我的运行截图 主要参考这篇文章 http://myjavanotebook.blogspot.com/2008/05/hadoop-file-system-tutorial.html 1.Copy a file from the local file system to HDFS The srcFile variable needs to ...
原文地址:http://www.cnblogs.com/end/archive/2011/04/26/2029499.html       转者注:本来想在Hadoop学习总结系列详细解析HDFS以及Map-Reduce的,然而查找资料的时候,发现了这篇文章,并且发现caibinbupt已经对Hadoop的源代码已经进行了详细的分析,推荐大家阅读。 转自http://blog.csdn.net/HEYUTAO007/archive/2010/07/10/5725379.aspx 参考: 1 caibinbupt的源代码分析http://caibinbupt.javaeye.co ...
原文地址:http://www.cnblogs.com/end/archive/2011/04/26/2029497.html       Hadoop 学习总结之一:HDFS简介 Hadoop学习总结之二:HDFS读写过程解析 Hadoop学习总结之三:Map-Reduce入门
Global site tag (gtag.js) - Google Analytics