`
usezhou
  • 浏览: 12485 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论
文章列表
且具体到底产生多少个分片(split) 因为多少个map 是有关系。(此处是根据新的API来分析,因为新的API 终究要调用到就得API来做具体的动作) 可能会说这个值 是系统根据文件大小 和根据文件分片大小 算出来的,那具体是如何算出来的呢,我们根据源码 一步一步来分析 首先Job.submit() public void submit() throws IOException, InterruptedException, ClassNotFoundException { ensureState(JobState.DEFINE); setUseNewAPI(); // ...
看到不少的说明都说这个参数的默认值为256M 也就是当HStoreFile 大于这个文件时,就会split 成两个文件,这个从源码中能看到如下的内容 conf.getLong("hbase.hregion.max.filesize",HConstants.DEFAULT_MAX_FILE_SIZE); 而HConstants.DEFAULT_MAX_FILE_SIZE 正是 256*1024*1024 那显然这个就是默认256M了 没有设置的时候自动取用256M 其实不然,因为我们从Hbase-default.xml去看看这个属性 <property> ...
跑三个mapreduce 分别设置优先级VERY_HIGH,HIGH,NORMAL 我认为 会等第一个mapreduce 完成之后 才开始第二个,第三个mapreduce 结果不是这样,在第一个开始执行,不再堵塞的情况下 第二个、第三个就开始run了,且结束时间可能会在第二个第一个之前。
可能会遇到个regionServer 时间不一致的问题,那如果时间不一致超过一定限度,比如30s hbase默认的容忍间隔。那再regionServerStartup 的时候 就会跑出一个异常 ClockOutOfSyncException 还有一种地方 在regionserver 想master reportForDuty 的过程中会调用regionServerStartup 此时也会检查 时间间隔。 1、解决途径有两个 修改各服务器时间 保证间隔在30s以内,或者使各服务器跟同一个服务器时间保持同步。 2、修改 集群的时间容忍间隔,需要修改参数 hbase.master.maxclo ...
我们可能会有一个疑问,hadoop是一种分布式存储和分布式计算的一个开源项目,而Mapreduce 也是基于此的一个分布式计算的模型,而基于分布式存储的列存储数据库Hbase应该是我们要讨论的话题,为什么会说到Mysql 其实Hbase 存储的数据时一些量大简单而有规则的数据,但关系型数据库也有他的优势,那就是提供了友好的方面我们操作的用户接口,我们可以实现简单的查询。并且数据本身并不大,而我们又需要对此数据进行各种复杂的分析和查询,那关系型数据库则帮我们实现。 从Hbase map出数据如何写入Mysql 从网上查估计也能查询到,但是可能不太友好,我做了一个简单的例子,贴出来供大家参考 ...
云计算仅仅是一个概念,不需要有什么规范来约束 那什么样才能算得上一个云呢。 云有大小,大的叫大云,小的自然也不能不叫云。 我配了三台机器,来进行分布式存储和分布式计算,那我这能算作是一个云吗?我的概念中这也应该算是一个云。 这就好比天上的云,是看得见,但是摸不着的,从地下看它很小,从天上看它很大。 我们的云计算服务器也是如此,听起来很大,实际它就是一个事物。 我们习惯把Hadoop 说就是云计算,其实仅仅是一个平台。在此基础上我们可以搭建适合我们需求的云。哪怕大家在一个服务器上,但我们建立多个虚拟机,我认为这都是一个云,肯定不能算作一个大云。 但有人又说我认为至少1万台机器的集群以 ...
实现一个Hbase的java版本的客户端 1、目的:实现URL get传入数据或者Post方式传输数据,进而操作Hbase 2、实现客户端是引子,我们要实现的是如果通过这种方式,从而避开Thrift或者Rest 来对Hbase进行操作 步骤: 1、可以建一个web工程,方便在应用服务器加载,并方便使用 可以建一个jsp 或者servlet 来接受传入的数据,我本地实现了一个servlet 来处理请求的数据 仅列出doGet方法的内容: public void doGet(HttpServletRequest request, HttpServletResponse respons ...
如何添加列族 很简单,跟rdbms一样 直接用alter,但是alter之前必须先disable这个表 ---->disable 'test' 先禁用,目前我用的Hbase 0.92版本,尚需要先disable,后期版本不知是否可以不用disable ---->alter 'test','newfamilyname' 直接alter 后边写入你要 加的列族 ---->enable 'test' 因为先前disable了,如果不enable 那这张表暂时还不可用 ---->describe 'test' 看一下表的信息 如果alter 后面 写了先前已经有的 ...
很多年的java开发经验,写过无数的大应用程序,也许很少直接使用java或者javac来编译和执行java代码 也有很多人遇到过问题,比如我要引用很多jar包或者引用编译过的基类来处理本地开发的程序,java 和javac 是可以处理的,但是需要经过多次的测试 windows下相信有很多朋友已经了解不多做介绍 主要说下linux下的问题 1、怎么引用多个jar包 这需要我们设置classpath 或者cp 来引入多个jar包,这个大家都知道,但是注意的是多个jar包之间一定要用:隔开而不是;或者, 2、怎么引用编译好的基类 同引用jar包原理是一样的也是通过classpath ...
Global site tag (gtag.js) - Google Analytics