storm trident api

博客分类：

storm

Trident API partition本地操作，无需网络io 等同于pig的generate mystream.each(new Fields("b"), new MyFunction(), new Fields("d"))) public class MyFunction extends BaseFunction { public void execute(TridentTuple tuple, TridentCollector collector) { for(int i=0; i < ...

2015-06-23 16:02
浏览 1708
评论(0)
分类:企业架构

kafka client端 producer

博客分类：

kafka

producer kafka

kafka producer客户端 KafkaProducer的send方法： 1.等待kafka要发送的topic的partition都在线 2.序列化key，value； key:org.apache.kafka.common.serialization.IntegerSerializer value:org.apache.kafka.common.serialization.StringSerializer 3.根据发送数据计算索要发送的topic的partition 使用record记录中的partition，若为空，用paritition类计算 par ...

2015-06-19 14:57
浏览 22512
评论(0)
分类:企业架构

hbase increment代码

博客分类：

hbase

hbase increment

hbase increase increase代码 1.将数据封装为increment对象 2.从increment对象中封装get 3.封装新kv 4.对HRegion下的Storm做upsert或add操作 5.查看是否需要flush并添加队列 6.返回kvs HRegion代码，如下 /** * Perform one or more increment operations on a row. * @param increment * @return new keyvalues after increment ...

2015-06-06 14:14
浏览 3649
评论(0)
分类:企业架构

kafka源码编译

博客分类：

kafka

kafka 源码编译 eclipse

git clone http://git-wip-us.apache.org/repos/asf/kafka.git D:\git\kafka https://kafka.apache.org/downloads.html 安装gradle 到kafka目录下运行gradle wrapper，解决找不到类 If you just checked out the code, you don't have the gradle wrapper library and you'll get an error message after running ...

2015-06-06 14:11
浏览 3097
评论(0)
分类:企业架构

spark编译报错

博客分类：

spark

spark

spark成功之后运行例子报错问题一： spark.SparkContext: Added JAR file:/home/hadoop-cdh/app/test/sparktest/EmarOlap-0.0.1-SNAPSHOT.jar at http://192.168.5.143:32252/jars/EmarOlap-0.0.1-SNAPSHOT.jar with timestamp 1428464475056 Exception in thread "main" java.lang.VerifyError: class org.ap ...

2015-06-06 14:05
浏览 2491
评论(0)
分类:企业架构

hbase 报错gc wal.FSHLog: Error while AsyncSyncer sync, request close of hlog YouAr

博客分类：

hbase

hbase gc

一个很常见的报错log 2015-03-05 03:10:35,461 FATAL [regionserver60020-WAL.AsyncSyncer0] wal.FSHLog: Error while AsyncSyncer sync, request close of hlog org.apache.hadoop.ipc.RemoteException(java.io.IOException): BP-1540478979-192.168.5.117-1409220943611:blk_1098635649_24898817 does not exist or i ...

2015-06-06 14:03
浏览 5009
评论(1)
分类:企业架构

hbase 配置优化

博客分类：

hbase

hbase 配置优化

hbase的优化的一点经验，一直没做这个笔记，是因为hbase自身也有设计缺陷，所以有些配置不能说优化，只能说因为hbase自身缺陷可以将就着用，不说废话了，以下就是优化的一点笔记 hbase配置修改： (split是因为hfile过多，进行split，split之后进行compact 可以可能要有人喷了，hfile多了应该compact才对啦。贴出0.98.1的代码，大致逻辑是region没有block的compact（优先级大于等于1的），则进行split) private boolean flushRegion(final FlushRegionEntry fqe) ...

2015-06-06 14:00
浏览 2959
评论(0)
分类:企业架构

kafka获得最新partition offset

博客分类：

kafka

kafka 最新 partition offset

kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.util.Map; import java.util.Properties; import java.util.TreeMap; import java.util.Map.Entry; import ...

2015-06-05 17:45
浏览 32542
评论(4)
分类:企业架构

kafka参数转

博客分类：

kafka

kafka 参数

转 http://damacheng009.iteye.com/blog/2087996 metadata.broker.list 默认值：无，必填格式为host1:port1,host2:port2，这是一个broker列表，用于获得元数据(topics，partitions和replicas)，建立起来的socket连接用于发送实际数据，这个列表可以是broker的一个子集，或者一个VIP，指向broker的一个子集。 request.required.acks 默认值：0 用来控制一个produce请求怎样才能算完成，准确的说，是有多少broker必须已经提交数据到lo ...

2015-06-05 17:41
浏览 1824
评论(0)
分类:企业架构

HBase MSLAB和MemStoreChunkPool源码

博客分类：

hbase

HBase MSLAB MemStoreChunkPool 源码

MSLAB工作原理，举个例子HStore在add的时候的例子，其他操作也差不多，很简单 MSLAB是解決menstorm的內存碎片， MemStoreChunkPool是解決full gc頻繁，自己管理chunk数据，避免gc MemStoreChunkPool使用的是memstorm的limit * chuckpoolpercent� ...

2015-04-09 18:27
浏览 2090
评论(0)
分类:企业架构

hbase split log转cloudera的文章

博客分类：

hbase

hbase split log cloudera

转 http://blog.cloudera.com/blog/2012/07/hbase-log-splitting/ cloudera的blog还是挺不错的 In the recent blog post about the Apache HBase Write Path, we talked about the write-ahead-log (WAL), which plays an important role in preventing data loss should a HBase region server failure occur. This blog pos ...

2015-04-09 13:52
浏览 952
评论(0)
分类:企业架构

hbase hlog源码

博客分类：

hbase

hbase hlog

HLog线程的启动入口： HRegionServer启动线程 private void startServiceThreads() throws IOException {..... Threads.setDaemonThreadRunning(this.hlogRoller.getThread(), n + ".logRoller", uncaughtExceptionHandler);//logRoller守护进程，每一个小时生成一个hlog this.splitLogWorker = new Spli ...

2015-04-03 18:20
浏览 1932
评论(0)
分类:企业架构

hbase mvcc

博客分类：

hbase

hbase

MVCC相关源码：在HBase put源码中 http://blackproof.iteye.com/blog/2197710 有mvcc用hregion的mvcc的write point，在生成mvcc的readpoint KeyValueHeap类的next获取cell的时候使用keyvalue的mvcc的readpoint，判断是否取当前kv /** * Gets the next row of keys from the top-most scanner. * <p> * This method takes care ...

2015-04-03 18:16
浏览 950
评论(0)
分类:企业架构

hbase split log源码分析

博客分类：

hbase

hbase split log

split log过程在hbase hmaster启动的时候，将hlog移动到split log文件夹下，并处理split log （在RS加入到dead serverlist的时候，ServerShutdownHandler也会调用 splitlog方法，代码贴在最后） Master负责分发split log任务到zk上 master处理split log文件，最终写split log到zk上 regionserver从zk上抢split log任务，将split log读入到内存entry，由writer进程写到hdfs上 // we ...

2015-04-03 18:12
浏览 3349
评论(0)
分类:企业架构

hbase0.98.1源码编译

博客分类：

hbase

hbase0.98.1 源码编译

给个源码下载地址：http://www.apache.org/dyn/closer.cgi/hbase/ 编译过程： 1.需要安装（必须安装前三个，都非常好安装，直接export就好了） Maven 3.3.1 findbugs 3.0.1 Java 1.7.0_06 Hadoop 2.2.0 HBase 0.98.1 2.生成pom 修改generate-hadoopX-poms.sh中的hbase_home="${HBASE_HOME}" hbase_home="下载的hbase源码路径" 运行生成po ...

2015-04-02 16:56
浏览 2443
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

storm trident api

kafka client端 producer

hbase increment代码

kafka源码编译

spark编译报错

hbase 报错gc wal.FSHLog: Error while AsyncSyncer sync, request close of hlog YouAr

hbase 配置优化

kafka获得最新partition offset

kafka参数转

HBase MSLAB和MemStoreChunkPool源码

hbase split log转cloudera的文章

hbase hlog源码

hbase mvcc

hbase split log源码分析

hbase0.98.1源码编译

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>