离线搭建CDH5,ClouderaManager

博客分类：

Hadoop平台配置

安装JDK（所有节点）省略创建统一账号：useradd hadooppasswd hadoop 关闭防火墙service iptables stop 统一时间：date -s "2014-9-10 15:11:00"hwclock --systohc service ntpd startchkconfig ntpd on vi /etc/sysconfig/seliunx SELINUX=disabled #修改成这样,需要重启生效。setenforce 0 #执行后不需要重启生效。 2.配置主机名v ...

2014-09-11 11:04
浏览 1535
评论(1)
分类:互联网

ZooKeeper-- 管理分布式环境中的数据

博客分类：

Hadoop

ZooKeeper hadoop

1.随着分布式应用的不断深入，需要对集群管理逐步透明化。监控集群和作业状态；可以充分的利用ZK的独有特性，熟悉程度决定应用高度 2.Service端具有fast fail特性，非常健壮，无单点，不超过半数Server挂掉不会影响提供服务 ...

2014-09-06 15:00
浏览 1647
评论(0)
分类:互联网

数据结构学习笔记

博客分类：

数据结构

数据结构指针

1.衡量算法的标准：时间复杂度：大概程序执行的次数，而非执行的时间空间复杂度：算法执行过程中大概所占用的最大内存难易程度健壮性 2.int *p //p是个指针变量，int *表示该P变量只能存储int类型变量的地址 3.地址:内存单元的编号，内存是可以被cpu直接访问的，内存的编号是不能重复的，内存的基本划分单位是字节 CPU--地址线（可以确定对哪个地址进行操作）控制线（控制读和写）数据线（数据传输） 4.指针就是地址，地址就是指针。5.指针变量就是存放内存单元地址的变量6.指针的本质就是一个受限的非负整数分类：1.基本类型的指针int * p//p是 ...

2014-08-06 22:36
浏览 678
评论(0)
分类:互联网

R语言学习笔记

博客分类：

R语言

R语言数据挖掘绘图

今天看了一下R语言，感觉挺难的因为没有统计学和数据的功底，看着函数有些吃力。学习的过程是痛苦的，还是坚持着吧~今天把自己的学习笔记贴上来，后续应该会继续更新此文章。 1.一旦某一变量服从正态分布，就可以� ...

2014-08-05 14:56
浏览 989
评论(0)
分类:互联网

Spark安装部署

博客分类：

Spark

spark hadoop 安装实时

spark单节点local安装： 1.解压包： scala-2.10.4.tgz scala-intellij-bin-0.38.437.zip spark-0.9.1-bin-hadoop1.tgz 2.配置/etc/profile 3.直接输入scala如果进入scala界面表示安装成功

2014-08-04 23:09
浏览 1017
评论(0)
分类:互联网

Hbase shell

博客分类：

Hadoop

hbase hadoop 分布式大数据

下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count '表名称' 删除记录 delete '表名' ,'行名称' , '列名称' ...

2014-07-21 16:47
浏览 555
评论(0)
分类:互联网

使用java连接hive，并执行hive语句详解

博客分类：

Hadoop

hive jdbc hadoop 数据仓库 hivesql

安装hadoop 和 hive我就不多说了，网上太多文章自己看去首先，在机器上打开hiveservice 不多说，直接上代码 package asia.wildfire.hive.service; import java.sql.*; import java.sql.Date; import java.text.SimpleDateFormat; import java.util.*; /** * User: liuxiaochen * Date: 13-9-24 * Time: 下午5:47 * 修改描述 */ public clas ...

2014-07-20 22:24
浏览 1566
评论(0)
分类:互联网

python也就这点事

博客分类：

python

python hadoop

1.解释性&编译性，面相对象，简单，高级语言，无需考虑诸如内存一类的底层可扩展以及可潜入性，免费开源，可移植性--各个系统。丰富的库。“胶水语言” 2.python源代码以py为扩展名，由python程序解释，不需要编译 3.python XXX.py不管他有没有执行权限都会执行chmod +x XXX.py赋权限，执行：./XXX.py(必须写上文件的路径#!/usr/python) 4.字节代码：Python源文件经过编译后生产的扩展名为“pyc”的文件编译方法：import py_compile py_compile.compile("1.py&quo ...

2014-07-20 22:17
浏览 739
评论(1)
分类:编程语言

hive调优

博客分类：

Hadoop

hive 调优 hadoop

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么ha ...

2014-07-18 18:10
浏览 1392
评论(0)
分类:互联网

Hadoop添加删除节点

博客分类：

Hadoop平台配置

hadoop 添加删除节点

添加节点 1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上，启动服务 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode[root@slave-004 hadoop]# ./bin/hadoo ...

2014-07-18 14:02
浏览 858
评论(0)
分类:互联网

Hive

博客分类：

Hadoop

hive hadoop 优化命令

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织 Hive 中的表，只需要在创建表的时 ...

2014-07-18 13:12
浏览 1758
评论(0)
分类:数据库

Hadoop常用命令

博客分类：

Hadoop

hadoop 命令常用

笔者所用的版本是hadoop-2.2.0 1、列出所有Hadoop Shell支持的命令 $ bin/hdfs fs -help 2、显示关于某个命令的详细信息 $ bin/hdfs dfs -help ls（查看ls命令的详细信息） 3、格式化一个新的分布式文件系统： $ bin/hdfs namenode -format 4、将zkstop.sh文件放入到hadoop集群中

2014-07-15 10:03
浏览 1046
评论(0)
分类:互联网

MySql优化

博客分类：

MySql

mysql 优化索引

要想掌握数据库的优化首先要知道数据库的事务性吧？这是最基础的！！！ (1) 原子性 ? 事务的原子性指的是，事务中包含的程序作为数据库的逻辑工作单位，它所做的对数据修改操作要么全部执行，要么完全不执行。这种特性称为原子性。 (2) 一致性？事务的一致性指的是在一个事务执行之前和执行之后数据库都必须处于一致性状态。这种特性称为事务的一致性。假如数据库的状态满足所有的完整性约束，就说该数据库是一致的。 (3) 分离性 ?分离性指并发的事务是相互隔离的。即一个事务内部的操作及正在操作的数据必须封锁起来，不被其它企图进行修改的事务看到。 (4)持久性 ?持久性意味着当系统或介质发生故障时， ...

2014-07-14 23:35
浏览 703
评论(0)
分类:数据库

我的常用Linux命令

博客分类：

linux

Linux shell

1.pstree显示所有的进程树 2.内部命令帮助：help echo 外部命令：ls --help man ls 其中/-a表示要查找的参数。n键代表下一个查找的意思。shift+n代表上一个。 3.vi的时候/-a也是可以查找的触类旁通的 4.man 1 2 3 4 5 6 7 8个帮助级别 ...

2014-07-12 20:21
浏览 510
评论(0)
分类:操作系统

Storm分布式实时计算框架

博客分类：

Storm

hadoop storm

Storm 1. 信息流处理{Stream processing} Storm可用来实时处理新数据和更新数据库，兼具容错性和可扩展性。 2. 连续计算{Continuous computation} Storm可进行连续查询并把结果即时反馈给客户端。比如把Twitter上的热门话题发送到浏览器� ...

2014-07-11 11:59
浏览 716
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

离线搭建CDH5,ClouderaManager

ZooKeeper-- 管理分布式环境中的数据

数据结构学习笔记

R语言学习笔记

Spark安装部署

Hbase shell

使用java连接hive，并执行hive语句详解

python也就这点事

hive调优

Hadoop添加删除节点

Hive

Hadoop常用命令

MySql优化

我的常用Linux命令

Storm分布式实时计算框架

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>