Hive的meta 数据支持以下三种存储方式 -

weitao1026

浏览: 992642 次
性别:
来自: 上海

最近访客更多访客>>

vicento4

723499280

liuzidong

s1986q

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Hive的meta 数据支持以下三种存储方式

博客分类：

hadoop/spark/Hbase/Hive/pig/Zookeeper/HAWQ/cloudera/Impala/Oozie

测试环境下Hive总出问题，metastore的配置有问题。抽了点时间，把Hive的meta数据几种存储方式都配置了下。Hive的meta 数据支持以下三种存储方式，其中两种属于本地存储，一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式，链接为：Hive Metastore 。

一、使用derby数据库存储元数据。

这种方式是最简单的存储方式，只需要在hive-default.xml或hive-site.xml做如下配置便可。

< property >

   < name >javax.jdo.option.ConnectionURL</ name >

   < value >jdbc:derby:;databaseName=metastore_db;create=true</ value >

</ property >

< property >

   < name >javax.jdo.option.ConnectionDriverName</ name >

   < value >org.apache.derby.jdbc.EmbeddedDriver</ value >

</ property >

< property >

   < name >hive.metastore.local</ name >

   < value >true</ value >

</ property >

< property >

   < name >hive.metastore.warehouse.dir</ name >

   < value >/user/hive/warehouse</ value >

</ property >

< property >

   < name >hive.metastore.warehouse.dir</ name >

   < value >/user/hive/warehouse</ value >

</ property >

使用derby存储方式时，运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种存储方式的弊端是在同一个目录下同时只能有一个hive客户端能使用数据库，否则会提示如下错误（这是一个很常见的错误）。

hive> show tables;

FAILED:
Error in metadata: javax.jdo.JDOFatalDataStoreException: Failed to
start database 'metastore_db', see the next exception for details.

NestedThrowables:

java.sql.SQLException: Failed to start database 'metastore_db', see the next exception for details.

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

二、使用本机mysql服务器存储元数据。这种存储方式需要在本地运行一个mysql服务器，并作如下配置（下面两种使用mysql的方式，需要将mysql的jar包拷贝到$HIVE_HOME/lib目录下）。

< property >

   < name >hive.metastore.warehouse.dir</ name >

   < value >/user/hive_remote/warehouse</ value >

</ property >

< property >

   < name >hive.metastore.local</ name >

   < value >true</ value >

</ property >

< property >

   < name >javax.jdo.option.ConnectionURL</ name >

   < value >jdbc:mysql://localhost/hive_remote?createDatabaseIfNotExist=true</ value >

</ property >

< property >

   < name >javax.jdo.option.ConnectionDriverName</ name >

   < value >com.mysql.jdbc.Driver</ value >

</ property >

< property >

   < name >javax.jdo.option.ConnectionUserName</ name >

   < value >root</ value >

</ property >

< property >

   < name >javax.jdo.option.ConnectionPassword</ name >

   < value >dandan</ value >

</ property >

三、使用远端mysql服务器存储元数据。这种存储方式需要在远端服务器运行一个mysql服务器，并且需要在Hive服务器启动meta服务。

1）Hive服务器端配置如下。

< property >

   < name >hive.metastore.warehouse.dir</ name >

   < value >/user/hive_remote/warehouse</ value >

</ property >

   < name >javax.jdo.option.ConnectionURL</ name >

   < value >jdbc:mysql://localhost/hive_remote?createDatabaseIfNotExist=true</ value >

</ property >

< property >

   < name >javax.jdo.option.ConnectionDriverName</ name >

   < value >com.mysql.jdbc.Driver</ value >

</ property >

< property >

   < name >javax.jdo.option.ConnectionUserName</ name >

   < value >root</ value >

</ property >

< property >

   < name >javax.jdo.option.ConnectionPassword</ name >

   < value >dandan</ value >

</ property >

2）Hive客户端配置如下。

< property >

   < name >hive.metastore.warehouse.dir</ name >

   < value >/user/hive_remote/warehouse</ value >

</ property >

< property >

   < name >hive.metastore.local</ name >

   < value >false</ value >

</ property >

< property >

   < name >hive.metastore.uris</ name >

   < value >thrift://localhost:9083</ value >

</ property >

3）服务进程启动如下，默认监听的端口是9083（Hive版本低于0.5的才这样启动）。

henshao@henshao-desktop:~/hive-0.3.99.1/conf$
$JAVA_HOME/bin/java -Xmx1024m
-Dlog4j.configuration=file://$HIVE_HOME/conf/hive-log4j.properties
-Djava.library.path=$HADOOP_HOME/lib/native/Linux-amd64-64/ -cp
$CLASSPATH:$HADOOP_HOME/hadoop-0.19.2-core.jar
org.apache.hadoop.hive.metastore.HiveMetaStore

这里配置classpath太麻烦了，要把hadoop和hive的jar包都加到classpath上，手动加容易导致依赖错误。我写了一个简单的脚本，把$HIVE_HOME/lib下的jar全部连起来，用冒号分隔开。脚本代码如下。

#!/bin/bash

CLASSPATH=.

for dir in $*

do

     for file in ` ls $ dir `

     do

         CLASSPATH=$CLASSPATH:$ dir /$ file

     done

done

echo $CLASSPATH

运行时，只需要输入”./generate_classpath.sh $HIVE_HOME/lib”便可。然后将生成的字符串贴到.bashrc中，赋给CLASSPATH变量。

hive启动时有一个选项”–config”可以指定包含启动客户端用的配置文件的目录，该目录下需要有hive-default.xml或hive-site.xml文件。

hive --config conf_dir

根据我的实践发现，其实第二种方法也可以将Hive的元数据保存到一台远端服务器上，只要配置好javax.jdo.option.ConnectionURL这个连接串就行。

分享到：

簇（cluster） | Sakila——MySQL样例数据库解析

2017-05-04 13:48
浏览 842
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hive的meta 数据支持以下三种存储方式

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hive的meta 数据支持以下三种存储方式

评论

发表评论

相关推荐

CDH与原生态hadoop之间的区别

Cloudera的CDH和Apache的Hadoop的区别

大数据、云计算系统高级架构师课程学习路线图

Oozie简介

清理ambari安装的hadoop集群

hawk大数据基础知识总结（2）

hawk大数据基础知识总结（1）

ambari是什么

数据仓库中的Inmon与Kimball架构之争

大数据要学习知识

Spark Streaming简介

pentaho套件

Impala：新一代开源大数据分析引擎

Weka是什么

解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎

Kettle的使用

clouder manager端口7180没有打开为什么

Impala与Hive的比较

Cloudera Manager、CDH零基础入门、线路指导

DB、ETL、DW、OLAP、DM、BI关系结构图

最近访客更多访客>>