`
dajuezhao
  • 浏览: 59553 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
一、背景说明 最近时间相对比较宽裕了,相对于前些时候,可以说轻松了很多。于是偷得浮生半日闲,写点东西吧。其实对于这个话题,我在2010年的5月份的时候就想写了,但是那个时候专注于hadoop的技术学习,所以没有太多 ...
其实在2011元旦的时候就打算写些东西用以回顾2010年,但是由于时间上紧张,实在是抽不出时间来写点东西,因此拖延到现在才写。干IT这个行业也有些年头了,说实话,2010年是我最难忘的一年。在工作内容、发展方向以及个人 ...
一、背景由于以前没有细看hadoop提供的测试工具,只是在关注hadoop本身的内容,所以很多的性能测试都忽略了。最近花了一周的时间准备做个性能测试,但是都是采用自己的方法得出的抽象值。今天看淘宝的博客,提到hadoop自带 ...
一、背景最近2个月时间一直在一个阴暗的地下室的角落里工作,主要内容就是hadoop相关的应用。在这期间,Hadoop的应用确实得到认可,但是同时也带来了一些问题,软件方面我就不在这里说了,只说说一些物理方面的局限:1、众所周知,hadoop能够接受任何类型的机器加入集群,在多不在精。但是这带来一个问题,机房的空间开销以及电费。2、机器太多,人力维护成本也是增加的。机柜啊、物理空间都是个不小的负担和开销。刚好,在这个问题产生的同时,十分幸运的被一同事叫出来,去参加一个会议,得以有机会走上地面。这个会议是个联合性质的,多个公司的人在一起。其中有一家公司在海量数据计算方面力推hadoop,并做了比较好 ...
一、背景今天采用10台异构的机器做测试,对500G的数据进行运算分析,业务比较简单,集群机器的结构如下:A:双核CPU×1、500G硬盘×1,内存2G×1(Slaver),5台B:四核CPU×2、500G硬盘×2,内存4G×2(Slaver),4台C:四核CPU×2、500G硬 ...
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。 TextInputFormat 用于读取纯文本文件,文件被分为一 ...
一、环境 Hadoop 0.20.2、JDK 1.6、Linux操作系统 二、背景 上周五的时候,由于操作系统的原因,导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是,出问题的机器就是Master。当时心里就凉了半截,因为secondarynamenode配置也是在这个机器上(默认的,没改过)。不过万幸的是这个集群是测试环境,所以问题不大。借这个缘由,我将secondarynamenode重新配置到其他机器上,并做namenode挂掉并恢复的测试。 三、操作 1、关于secondarynamenode网上有写不错的文章做说明,这里我只是想说关键一点, ...
一、环境1、Hadoop 0.20.22、Hive 0.53、操作系统 Linux m131 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux二、步骤1、直接贴上脚本吧#!/bin/bash#give the params: name value tablenameif [ $# -eq 3 ]then name=$1 value=$2 tablename=$3 echo name=${name} echo value=${value} echo tablename=${tab ...
一、环境1、Hadoop 0.20.22、Hive 0.5.03、JDK 1.64、操作系统:Linux m131 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux二、注意事项1、关于数字类型支持的位数类型 支持数字位数tinyint 3位数字smallint 5位数字int 10位数字bigint 19位数字对于数字类型的存放,如果数字很长,但是对这个字段的值不需要进行计算,个人认为可以就是存放为string。如果数字字段的值超过了设定的字段类型(例如,存放数字是20位,但是 ...
一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。 2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。 3、Hive可以方便的将数据加载到表中而不需要对数据进行转换,这样在处理海量数据时可以节省大量的时间。二、技术细节1、SerDe是Serialize/Deserilize的简称,目的是用于序列化和反序列化。 2、用户在建表时可以用自定义的SerDe或使用Hive自带的Se ...
一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节1、一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。2、表和列名不区分大小写。3、分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在,但是该字段不存放实际的数据内容,仅 ...
一、UDF1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Textc)用户 ...
一、环境Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6二、使用目的1、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适,并不适合做产品的开发和应用。2、因此,就产生的JDBC连接的方式,当然还有其他的连接方式,比如ODBC等。三、连接的配置1、修改hive-site.xml<property> <name>javax.jdo.option.ConnectionURL</name> <!- ...
一、安装准备1、下载hive-0.5.0-bin版本:http://apache.etoak.com/hadoop/hive/hive-0.5.0/2、JDK版本:jdk-6u20-linux-i586.bin 3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、默认前提是安装完hadoop 0.20.2版本: 192.168.3.131 namenode 192.168.3.132 datanode 192.168 ...
一、环境描述1、Hadoop版本0.20.2,操作系统Linux、JDK 1.62、Hive版本0.5.0二、元数据的存储1、如果之前进行了建表操作,但是后来对hdfs format后,通过Hive的cli来输入指令show tables查看表,表结构依然存在,但是hdfs文件系统中对应的目 ...
Global site tag (gtag.js) - Google Analytics