图形化理解 HBase 数据写操作、压缩操作过程

博客分类：

nosql

HBase 写数据的过程是：先写到内存中（memstore），当内存中的数据达到一定大小，将内存中的数据一次性flush到磁盘上形成数据文件。期间对每一次写操作，都会记一个持久化的日志。那些 flush 到磁盘上的文件，会定时进行压缩。下图形像地说明这一系列过程：原文链接：http://goo.gl/jwKdj

2011-04-24 15:19
浏览 907
评论(0)
分类:编程语言

Hadoop 数据类型与文件结构剖析 Sequence, Map, Set, Array, BloomMap Files

博客分类：

hadoop

数据结构 Hadoop 算法

今天要推荐的一篇文章发表在知名云存储提供商 Cloudera 的博客，本文细致且图文并茂地讲解了 Hadoop 的几种典型文件结构及他们之前的关系。NoSQLFan 将主要内容翻译整理如下（如有错漏，欢迎指正）： 1.Hadoop’s SequenceFile ...

2011-04-24 15:06
浏览 1015
评论(0)
分类:编程语言

百度Hadoop分布式系统揭秘：4000节点集群

博客分类：

hadoop

百度 Hadoop 算法 NoSQL Mapreduce

在 NoSQL 方面，之前了解到百度对 Hadoop 和 hypertable 都有研究，而且 hypertable 方面更是作为其主要赞助商之一，但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多，相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点，超过10个的集群，最大的集群规模在1000个节点以上。每个节点由8核 CPU以及16G内存以及12TB硬盘组成，每天的数据生成量在3PB以上。规划当中的架构将有超过 ...

2011-04-24 14:54
浏览 1107
评论(0)
分类:编程语言

ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NumberFormatExc

博客分类：

hadoop

Hadoop Apache Java Gmail

namenode莫名奇妙的启动不了，看log： 2011-04-19 12:06:59,967 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files = 11471 2011-04-19 12:07:00,592 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files under construction = 0 2011-04-19 12:07:00,592 INFO org.apache.hadoop.hdfs.server.co ...

2011-04-19 19:20
浏览 2173
评论(0)
分类:编程语言

digg网站架构及应用技术介绍

博客分类：

其他

Blog

http://about.digg.com/blog/how-digg-is-built 看到digg开发人员Dave Beckett 的博客How Digg is Built ，记录两张图片参考一下digg应用的技术：

2011-04-08 20:43
浏览 881
评论(0)
分类:互联网

zookeeper安装

博客分类：

hadoop

Hadoop 应用服务器 C C++C#

前提是已经安装好HADOOP（020.2）： tar -zxvf zookeeper-3.3.2.tar.gzcd zookeeper-3.3.2.tar.gzmv * /hadoop/zookeepercd /hadoop/zookeeper zookeeper要部署到各台机器的相同目录下，且具有相同的配置文件。 Zookeeper 的配置文件主要有以下两个： 1、/hadoop/zo ...

2011-04-01 16:27
浏览 1035
评论(0)
分类:编程语言

sqoop应用错误记录

博客分类：

hadoop

MySQL

Connection refused 解决： 1 mysql用户名和密码确认正确 2 mysql上有集群所有节点的访问授权

2011-04-01 16:26
浏览 832
评论(0)
分类:编程语言

What Future Does Facebook Have?

博客分类：

其他

Facebook Web Google Go HTML

http://delong.typepad.com/sdj/2011/01/wht-future-does-facebook-have.html 总结得不错，记录两句。 The key question that everybody has when they go to the world wide web is a simple one: "What do I need to know?" Different web companies give different answers to that question: Wikipedia: You nee ...

2011-03-25 11:40
浏览 824
评论(0)
分类:非技术

如何获取hive建表语句

博客分类：

hive

MySQL SQL Hadoop 正则表达式数据结构

在使用hive进行开发时，我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。要想还原建表DDL就必须从元数据入手，我们知道，hive的元数据并不存放在hdfs上，而是存放在传统的RDBMS中，典型的如mysql，derby等，这里我们以mysql为元数据库，结合0.4.2版本的hive为例进行研究。连接上mysql后可以看到hive元数据对应的表约有20个，其中和表结构信息有关的有9张，其余的10多张或为空，或只有简单的几条记录，以下是部分主要表的简要说明。表名说明关联键 TBLS 所有hive表的基本信息 T ...

2011-03-22 15:35
浏览 2285
评论(1)
分类:编程语言

HFile存储格式

博客分类：

nosql

HBase Hadoop 数据结构 DOS Cache

HBase中的所有数据文件都存储在Hadoop HDFS文件系统上，主要包括两种文件类型： 1. HFile， HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件，实际上StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile 2. HLog File，HBase中WAL（Write Ahead Log）的存储格式，物理上是Hadoop的Sequence File 下面主要通过代码理解一下HFile的存储格式。 HFile 下图是HFile的存储格式： HFile由6部分组成的，其中数据KeyValue保存在 ...

2011-03-21 19:26
浏览 804
评论(0)
分类:编程语言

NoSQL数据库探讨之一－为什么要用非关系数据库？

博客分类：

nosql

NoSQL 数据结构 Cassandra Redis MongoDB

随着互联网web2.0网站的兴起，非关系型的数据库现在成了一个极其热门的新领域，非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心� ...

2011-03-21 19:10
浏览 982
评论(0)
分类:编程语言

Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase比较

博客分类：

nosql

HBase Redis CouchDB MongoDB Cassandra

原文: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase comparison While SQL databases are insanely useful tools, their tyranny of ~15 years is coming to an end. And it was just time: I can’t even count the things that were forced in ...

2011-03-21 19:03
浏览 1657
评论(0)
分类:编程语言

NoSQL：Cassandra和MongoDB最受欢迎

博客分类：

nosql

NoSQL MongoDB Cassandra Redis HBase

转自：http://cloud.csdn.net/a/20110303/292969.html 这是一篇关于NoSQL就业趋势的报告分析。该报告重点调查了在NoSQL下的8个工具，包括Cassandra, Redis, Voldemort, SimpleDB, CouchDB, MongoDB, HBase, Hypertable和Riak在内的各企业的技术需求情况。根� ...

2011-03-21 18:48
浏览 1252
评论(0)
分类:编程语言

hbase条件查询

博客分类：

nosql

HBase Hadoop .net Blog 工作

一、环境 HBase版本hbase-0.20.5，Hadoop的版本hadoop-0.20.2，JDK1.6 二、需求背景在HBase中，进行条件查询，很多的文件都说过，但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索，这样的结构� ...

2011-03-18 17:25
浏览 2595
评论(0)
分类:编程语言

HBase加载大数据

博客分类：

nosql

HBase Mapreduce Hadoop Apache

一、概述 HBase有很多种方法将数据加载到表中，最简单直接的方法就是通过MapReduce调用TableOutputFormat方法，或者在client上调用API写入数据。但是，这都不是最有效的方式。这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业，将数据以HBase内部的组织格式输出成文件，然后将数据文件加载到已运行的集群中。（注：就是生成HFile，然后加载到HBase中。）二、大数据载入的步骤大数据的加载包含了2个步骤： 1、通过MapReduce的作业进行数据准备过程首先，通过MapReduce使用HFileOutputFormat来 ...

2011-03-18 17:15
浏览 963
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

图形化理解 HBase 数据写操作、压缩操作过程

Hadoop 数据类型与文件结构剖析 Sequence, Map, Set, Array, BloomMap Files

百度Hadoop分布式系统揭秘：4000节点集群

ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NumberFormatExc

digg网站架构及应用技术介绍

zookeeper安装

sqoop应用错误记录

What Future Does Facebook Have?

如何获取hive建表语句

HFile存储格式

NoSQL数据库探讨之一－为什么要用非关系数据库？

Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase比较

NoSQL：Cassandra和MongoDB最受欢迎

hbase条件查询

HBase加载大数据

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>