`
文章列表
MapReduce任务的优化         MapReduce计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化;二是,I/O操作方面的优化。这其中,又包括六个方面的内容。 1.任务调度         任务调度 ...
hadoop2.2.0启动子节点  适用于子节点单独挂掉然后重启的情况,或者增加子节点的情况。 设置好相应的配置后: sbin/hadoop-daemon.sh start datanode sbin/yarn-daemon.sh start nodemanager 即可。 执行jps应该可以看到类似: 6847 DataNode 7574 NodeManager 7780 Jps 至于主节点一般就start-all.sh了。当然也可以: sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start s ...
http://blog.163.com/ldw21cn@126/blog/static/2429564820134893453326/
https://github.com/winghc/hadoop2x-eclipse-plugin
1)查看当前机器名称 hostname    用下面命令进行显示机器名称,如果跟规划的不一致,要按照下面进行修改。 vi /etc/sysconfig/network 2)修改当前机器名称    假定我们发现我们的机器的主机名不是我们想要的,通过对"/etc/sysco ...
学习地址: http://blog.csdn.net/wf1982/article/details/6215545
脚本参数传递     1.shift命令        2.getopts     1.shift     shift:每次将参数位置向左偏移N位 #!/bin/bash #opt usage(){ echo "usage:`basename $0` filenames" } totalline=0 if [ $# -lt 2 ] then usage exit fi while [ $# -ne 0 ] ...
shell函数     1.定义函数        4.函数文件     2.函数调用        5.载入和删除函数     3.参数传递        6.函数返回状态 1.定义函数     语法: [ function ] funname [()] {     action;     [return int;] } 说明:     1、可以带function fun()  定义,也可以直接fun() 定义,不带任何参数。     2、参数返回,可以显示加:return 返回,如果不加,将以最后一条命令运行结果,作为返回值。 return后跟数值n(0-255     #!/bin/bas ...
在做kettle与hive对接的时候, 启动hiveserver报错 hive --service hiveserver org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:10000. 要确保没有客户端在连接hive,检查方式: netstat -nl | grep 10000 ps -ef | grep hive kill 进程号 ---------------------------------------------- ...
文本过滤 1.正则表达式介绍  4.awk介绍 2.find介绍            5.sed介绍 3.grep介绍          6.合并与分割(sort,uniq,join,cut,paste,split)     1.正则表达式:         1.1 什么是正则表达式             一种用来描述文本模式的特殊字符         1.2 由普通字符(例如:字符 a 到 z )以及特殊字符(称 元字符,如:/,*,?等)组成         1.3 文本过滤工具在某种模式下都支持正则表达式         1.4 正则表达式语法:http://msdn.microsof ...
Git学习精华: http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000
一、正则表达式基础知识 1.1 句点符号        假设你在玩英文拼字游戏,想要找出三个字母的单词,而且这些单词必须以“t”字母开头,以“n”字母结束。另外,假设有一本英文字典,你可以用正则表达式搜索它的全部内容。要构造出这个正则表达式,你可以使用一个通配符——句点符号“.”。这样,完整的表达式就是“t.n”,它匹配“tan”、“ten”、“tin”和“ton”,还匹配“t#n”、“tpn”甚至“t n”,还有其他许多无意义的组合。这是因为句点符号匹配所有字符,包括空格、Tab字符甚至换行符: 1.2 方括号符号   为了解决句点符号匹 ...
学习连接地址: http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013747381369301852037f35874be2b85aa318aad57bda000
控制流结构 1.控制结构      6.while循环 2.if then else语句 7.until循环 3.case 语句        8.break控制 5.for循环          9.continue控制 if then else     if 条件1 如果条件1为真     then 那么     命令1 执行命令1     elif 条件2 如果条件1不成立而条件2成立     then 那么     命令2 执行命令2     else 如果条件1,2均不成立     命令3 那么执行命令3     fi 完成 case语句     case语句为多选择语句。可以用cas ...

hive的优化1

    博客分类:
  • hive
一、join优化     Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。     Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中。 案例:     SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b. ...
Global site tag (gtag.js) - Google Analytics