hive并行导入数据锁问题

博客分类：

hive

hive同时load数据时，即使是不同分区，也会lock表， conflicting lock present for ymds_logs@ymds_hadoop mode EXCLUSIVE http://www.cnblogs.com/ggjucheng/archive/2013/01/16/2862749.html 解决方法：临时设置 set hive.support.concurrency=false;

2014-08-26 10:46
浏览 2155
评论(0)
分类:开源软件

impala测试报告

博客分类：

impala

impala

机器环境： 4个slave节点 10.200.187.86 cslave1 4核 3G 10.200.187.87 cslave2 2核 4G 10.200.187.88 cslave3 2核 4G 10.200.187.89 cslave4 2核 6G 测试效果： [img] [/img] 总结： 1.在内存够用并且是简单sql条件下，impala相比hive执行效率高很多，简单的sql在百万级别数据中运行，耗时几秒甚至不用一秒。 2.impala性能如何，与数据的存储格式关系很大，百万级别text格式与hbase格式相差十几倍，千万级别parquet格式与text格式相差百倍。 3.在当前 ...

2014-08-07 16:20
浏览 2943
评论(0)
分类:开源软件

hive常用命令

博客分类：

hive

Hadoop hive

整理一下，用的时候照着贴就行了。 1.hive数据导出将select的结果放到本地文件系统中 INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a; 将select的结果放到hdfs文件系统中 INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM table_name a WHERE a.ds='<DATE>'; 2.hive数据导入 LOAD DATA [LOCAL] INPATH ‘/data/userdata’ [ ...

2014-08-06 10:59
浏览 11861
评论(0)
分类:开源软件

hue beeswax权限管理

博客分类：

hadoop

hadoop cdh hue security

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Security-Guide/cdh5sg_sentry.html 条件： Kerberos安全认证（使用cm配置安全认证后，hive自动也添加了认证，所以hive认证配置http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Security-Guide/cdh5sg_hive_security.html可以省略）该条件是cloud ...

2014-08-05 17:54
浏览 10551
评论(1)
分类:开源软件

cloudera client集群部署

博客分类：

hadoop

cdh client gateway

一般我们使用使用client机器访问集群，而不会直接在hadoop节点中使用。在client机器上，我们可以部署一些应用，或者导数程序。若使用CDH及CM，那client机器就使用CM进行添加。与通常增加新节点一样，只是在最后只选择gateway服务即可。 client的段的xml配置，以及kerberos安全配置CM会自动生成。

2014-08-05 17:48
浏览 601
评论(0)
分类:开源软件

cloudera manager kerberos配置

博客分类：

hadoop

hadoop kerberos

CDH5.1.0前的版本，可以通过cloudera manager各种配置或者手动修改etc下配置文件来配置，从 CDH5.1.0后貌似clodera manager配置很简单，在界面的‘Administrator’下直接修改配置即可。若使用CDH版本hadoop，建议使用cm来配置kerberos。。。。有需求，我就写吧，赖的动。安装kerberos可以参考： http://www.cnblogs.com/easycloud/p/3724437.html http://www.cnblogs.com/easycloud/p/3724361.html

2014-08-05 17:37
浏览 1510
评论(0)
分类:开源软件

CDH5安装

博客分类：

hadoop

cdh install

CDH安装有很多方式： tar包安装，从官网上下载tar包，此种方式类似apache版本hadoop，配置和部署相对来说麻烦。 cloudera manager parcels安装，此种方式最方便、最省事，但如果是国内网的话，期间下载包会非常慢，而且每个节点分别� ...

2014-08-05 17:05
浏览 2242
评论(0)
分类:开源软件

ubuntu 14.0.4.1系统更新后不能打开图形界面

博客分类：

ubuntu

ubuntu 14.04.1

网上一顿查，各种解决方案都不好使，最后http://askubuntu.com/questions/506294/cant-see-desktop-except-for-background-when-log-in-ubuntu14-04，显卡驱动问题，解决办法： sudo apt-get remove --purge nvidia-current sudo apt-get install nvidia-current

2014-08-05 13:38
浏览 1333
评论(0)
分类:操作系统

hadoop集群数据迁移

博客分类：

hadoop

hadoop 数据迁移

hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar 如果想在两个运行着不同版本HDFS的集群上利用distcp，使用hdfs协议是会失败的，因为RPC系统是不兼容的。想要弥补这种情况，可以使用基于HTTP的HFTP文件系统从源中进行读取。这个作业必须运行在目标集群上，使得HDFS RPC版本是兼容的。例如：hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar cdh如下异常： Caused by: java.io.IOException: Check-sum ...

2014-08-04 22:31
浏览 6522
评论(0)
分类:开源软件

java.lang.OutOfMemoryError: unable to create new native thread

博客分类：

hadoop

Hadoop

35227 2014-05-21 13:53:18,504 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Reopen already-open Block for append blk_8901346392456488003_201326 135228 2014-05-21 13:53:18,506 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.33.11:50010, storageID=DS-420686803-1 ...

2014-05-23 17:29
浏览 1650
评论(2)
分类:开源软件

hive执行时找不到文件

博客分类：

hive

hive LeaseExpiredException

hive计算时找不到文件 2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.MapOperator: DESERIALIZE_ERRORS:0 2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.TableScanOperator: 0 finished. closing... 2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.TableScanOperator: 0 forwarded ...

2014-03-03 12:57
浏览 7528
评论(0)
分类:开源软件

impala使用

博客分类：

impala

impala ascii

1.登陆 impala-shell -i cslave1 2.refresh refresh table_name:当有文件更新时 INVALIDATE METADATA；当有刚创建的表 3.中文code不支持问题 impala-shell -i cslave1 [cslave1:21000] >select count(1) from s_trade where receiver_name = '李丹'; Unknown Exception : 'ascii' codec can't encode characters in position: ordinal not in range ...

2014-02-26 16:55
浏览 2266
评论(0)
分类:开源软件

hive hive.optimize.ppd=false导致map数量很大

博客分类：

hive

hive

hive官方https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView 说 Prior to Hive 0.6.0, lateral view did not support the predicate push-down optimization. In Hive 0.5.0 and earlier, if you used a WHERE clause your query may not have compiled. A workaround was to add set hive.optimize ...

2014-01-03 11:05
浏览 1829
评论(0)
分类:开源软件

eclipse debug cannot connect to VM

博客分类：

eclipse

eclipse

debug时出现如下problem Cannot connect to VM com.sun.jdi.connect.TransportTimeoutException 解决: /etc/hosts加入 127.0.0.1 localhost.localdomain localhost

2013-12-27 11:38
浏览 1398
评论(0)
分类:开源软件

HBase数据查询之Coprocessor

博客分类：

hbase

hbase coprocessor

二级索引方案协处理器的概念、作用和类型不介绍，可以参看：http://www.cnblogs.com/ventlam/archive/2012/10/30/2747024.html，官方blog：https://blogs.apache.org/hbase/entry/coprocessor_introduction 协处理器其中的一个作用是使用Observer创建二级索引。先举个实际例子：我们要查询指定店铺指定客户购买的订单，首先有一张订单详情表，它以被处理后的订单id作为rowkey；其次有一张以客户nick为rowkey的索引表，结构如下： rowkey ...

2013-12-20 16:41
浏览 3224
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive并行导入数据锁问题

impala测试报告

hive常用命令

hue beeswax权限管理

cloudera client集群部署

cloudera manager kerberos配置

CDH5安装

ubuntu 14.0.4.1系统更新后不能打开图形界面

hadoop集群数据迁移

java.lang.OutOfMemoryError: unable to create new native thread

hive执行时找不到文件

impala使用

hive hive.optimize.ppd=false导致map数量很大

eclipse debug cannot connect to VM

HBase数据查询之Coprocessor

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>