`
乡里伢崽
  • 浏览: 108643 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
文章列表

hdfs 文件的追加

    博客分类:
  • hdfs
1、修改hdfs-site.xml          <property> <name>dfs.support.append</name> <value>true</value> </property> 2、目前如何在命令行里面给HDFS文件中追加内容我还没找到相应的方法。但是,我们可以通过Hadoop提供的API实现文件内容追加,如何实现?这里我写了一个简单的测试程序 ...

hdfs 的分布式缓存

    博客分类:
  • hdfs
DistributedCache是Hadoop提供的文件缓存工具,它能够自动将指定的文件分发到各个节点上,缓存到本地,供用户程序读取使用。。它具有以下几个特点:缓存的文件是只读的,修改这些文件内容没有意义;用户可以调整文件可见范围(比如只能用户自己使用,所有用户都可以使用等),进而防止重复拷贝现象;按需拷贝,文件是通过HDFS作为共享数据中心分发到各节点的,且只发给任务被调度到的节点。 DistributeCache的命令方式:   (1)-files:将指定的本地/hdfs文件分发到各个Task的工作目录下,不对文件进行任何处理;   (2)-archives:将指定文件分发到各个Task ...

hdfs 的集中式缓存

    博客分类:
  • hdfs
集中缓存有两层概念: 第一层是缓存,即为存储在HDFS中文件提供缓存的机制,从而可以加速DFSClient对文件的读操作; 第二层概念是集中式的管理,传统的HDFS缓存依赖了OS本身的缓存机制,但是这种缓存机制不能被管理员或中央节点进行管理,不能自由的控制哪些文件缓存,哪些文件不进行缓存;集中式的管理可以提高了对缓存内存的可控性; HDFS中集中缓存架构如下所示: [url]http://yanbohappy-wordpress.stor.sinaapp.com/uploads/2014/04/architecure.png [/url] 1、User通过api入口与NN进行交互,告诉NN缓存 ...
转自:http://www.aboutyun.com/thread-8317-1-1.html 问题导读: 1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方? 2.架构设计考虑需要考虑什么问题? 3.Agent死机该如何解决? 4.Collector死机是否会有影响? 5.Flume-NG可靠性(reliability)方面做了哪 ...
原文:http://blog.csdn.net/lskyne/article/details/37564449 问题导读: 1.Flume的存在些什么问题? 2.基于开源的Flume美团增加了哪些功能? 3.Flume系统如何调优? 在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。 1 Flume的问题总结 在Flume的使用过程中,遇到的主要问题如下: a. Channel“水土不服”:使用固定大小的Mem ...

flume 自定义source

按照以往的惯例,还是需求驱动学习,有位网友在我的flume学习五中留言提了一个问题如下: 我想实现一个功能,就在读一个文件的时候,将文件的名字和文件生成的日期作为event的header传到hdfs上时,不同的event存到不同的目录下,如一个文件是a.log.2014-07-25在hdfs上是存到/a/2014-07-25目录下,a.log.2014-07-26存到/a/2014-07-26目录下,就是每个文件对应自己的目录,这个要怎么实现。 带着这个问题,我又重新翻看了官方的文档,发现一个spooling directory source跟这个需求稍微有点吻合:它监视指定的文件夹下面有 ...
前面已经讲过如何将log4j的日志输出到指定的hdfs目录,我们前面的指定目录为/flume/events。 如果想用hive来分析采集来的日志,我们可以将/flume/events下面的日志数据都load到hive中的表当中去。 如果了解hive的load data原理的话,还 ...

flume iterceptor

对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的。也即在日志进入到source之前,对日志进行一些包装、清新过滤等等动作。 官方上提供的已有的拦截器有: Timestamp Interceptor Host Interceptor Static Interceptor Regex Filtering Interceptor Regex Extractor Interceptor 像很多java的开源项目如springmvc中的拦截器一样,flume的拦截器也是chain形式的,可以对一个source指定多个拦截器,按先后顺序依次 ...
HBase中,表会被划分为1...n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的 ...

hbase bluk loading

使用HBASE的BULK LOAD 一、环境的配置 1.首先配置$HADOOP_HOME下的conf/hadoop-env.sh文件,修改其中的HADOOP_CLASSPATH为如下 export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/hadoop/hbase-0.90.3.jar:/hadoop/hbase/hbase-0.90.3- tests.jar:/hadoop/hbase/conf:/hadoop/hbase/lib/guava-r06 ...

hadoop 面试题

1.Hadoop集群可以运行的3个模式? 单机(本地)模式 伪分布式模式 全分布式模式 2.  单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。 3.  伪分布模式中的注意点? 伪分布式(Pseudo)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行。 4.  VM是否可以称为Pseudo? 不是,两个事物,同时Pseudo只针对Hadoop。 5.  全分布模式又有什么注意点? ...
mapred找共同朋友,数据格式如下: 引用 A B C D E F B A C D E C A B E D A B E E A B C D F A 第一字母表示本人,其他是他的朋友,找出有共同朋友的人,和共同朋友是谁 答案如下: import java.io.IOException; import java.util.Set; import java.util.StringTokenizer; import java.util.TreeSet; import org.apache.hadoop.conf.Configuration; import org.ap ...
原文:http://database.51cto.com/art/201410/454277.htm 一、概述 对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并且根据我在实际开发过程中遇到的实际例子来进行进一步的说明。 二、实现原理 1、在Reudce端进行连接。 在 ...
场景描述 在分布式应用, 往往存在多个进程提供同一服务. 这些进程有可能在相同的机器上, 也有可能分布在不同的机器上. 如果这些进程共享了一些资源, 可能就需要分布式锁来锁定对这些资源的访问. 本文将介绍如何利用zookeepe ...
原创 配置中心代码: import java.io.IOException; import java.util.concurrent.CountDownLatch; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.Watcher; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Watcher.Event.KeeperState; import org.apache.zookeeper.data.St ...
Global site tag (gtag.js) - Google Analytics