关于Hadoop IPC机制的描述,网上已有丰富的资料可供参考,比如:http://blog.csdn.net/zhanglizhe_cool/article/details/5712456,但大都围绕Hadoop中Server、Client的通信方式进行说明。这篇文章,以Hadoop IPC中对Java Proxy机制的使用作为主题,描述其基本工作原理和实现方法。
Java Proxy
Java Proxy(代理)是Java反射机制的一种。JVM为Java的用户提供了这种方法,使得Java代码的编写者可以为已有的类(被代理类)定义一个代理类的封装,代理对象可以在最终调用被代理类对象方法的前后添加更多自定义的操作。而代理类对象的使用者可以像使用被代理类对象一样,调用被代理类的方法。
这种机制的好处,是代理对象为其使用者屏蔽了在最终调用到被代理对象方法前后所进行的诸如建立网络通信等细节,代理的使用者在调用代理类对象的方法时,表面上看就跟调用被代理类对象方法具有相同的形式。
Hadoop IPC与Java Proxy
Hadoop的各进程之间,采用其自行实现的IPC机制进行通信。以下以NameNode和DataNode之间的通信为例。
在Hadoop中,DataNode通过定时的向NameNode发送心跳,来进行信息交互。Hadoop的NameNode类中,有一个public方法sendHeartbeat。DataNode对象向NameNode发送心跳,就是通过调用远程执行的NameNode对象的这个方法,并获取该方法的返回值来实现的。IPC通信中,主要涉及通信的类是org.apache.hadoop.ipc.Server以及org.apache.hadoop.ipc.Client。就直观的感觉讲,DataNode在这个发心跳的操作中,应该是这样的流程,DataNode通过Client建立到NamenNode的链接,然后向这个链接发送心跳请求,NameNode对象接收到请求之后,触发自己的sendHeartHeat方法,方法完成之后,向Client回送返回值。把视点集中到DataNode,这个交互过程,DataNode中需要进行建立网络连接、发送数据、接收数据三个操作,它应该要调用Client的相应方法来完成所有这些。但,实际情况比这个要简洁得多,因为Hadoop引入了org.apache.hadoop.ipc.RPC这个类,而这个类使用Java Proxy方式为DataNode屏蔽了繁琐的网络建立过程:
DataNode中的包含这样一个成员属性:public DatanodeProtocol namenode = null。DataNode进程在启动时,这个属性会被初始化:
this.namenode = (DatanodeProtocol) RPC.waitForProxy(DatanodeProtocol.class, DatanodeProtocol.versionID, nameNodeAddr, conf);
在这之后,当DataNode要向NameNode发送心跳时,调用namenode.sendHeartbeat即可。在DataNode看来,它直接调用自己成员变量namenode的sendHeartbeat方法,就直接实现了对远程NameNode对象这个sendHeartbeat方法的调用,形式变得非常简洁。这里,RPC使用Java Proxy机制,实现了这个看似神奇的远程调用。
研究RPC.waitForProxy可以知道,它最终触发了Java Proxy调用:VersionedProtocol proxy = (VersionedProtocol) Proxy.newProxyInstance( protocol.getClassLoader(), new Class[] { protocol }, new Invoker(protocol, addr, ticket, conf, factory, rpcTimeout))。Proxy机制中,当通过newProxyInstance调用获取一个代理类对象之后,对这个代理类对象的方法调用,都会触发到newProxyInstance这个方法所传入的第三个参数所定义的对象(java.lang.reflect.InvocationHandler接口的扩展类对象)的invoke方法。
看看DataNode在建立代理对象时所传入的这个org.apache.hadoop.ipc.RCP.Invoker类实现:
private static class Invoker implements InvocationHandler {
private Client.ConnectionId remoteId;
private Client client;
private boolean isClosed = false;
public Invoker(Class<? extends VersionedProtocol> protocol, InetSocketAddress address, UserGroupInformation ticket, Configuration conf, SocketFactory factory, int rpcTimeout) throws IOException {
this.remoteId = Client.ConnectionId.getConnectionId(address, protocol, ticket, rpcTimeout, conf);
this.client = CLIENTS.getClient(conf, factory);
}
public Object invoke(Object proxy, Method method, Object[] args) throws Throwable {
final boolean logDebug = LOG.isDebugEnabled();
long startTime = 0;
if (logDebug) {
startTime = System.currentTimeMillis();
}
ObjectWritable value = (ObjectWritable) client.call(new Invocation(method, args), remoteId);
if (logDebug) {
long callTime = System.currentTimeMillis() – startTime;
LOG.debug(“Call: ” + method.getName() + ” ” + callTime);
}
return value.get();
}
…
}
Invoker对象在构造的时候,就会使用Client的相应方法,建立到Server的连接。Invoker为 InvocationHandler的实现类,把它注册为Proxy对象的invoker之后,只要客户端直接调用Proxy对象的方法,就会触发Invoker的invoke方法,Invoker类就是在这个Invoke方法中,发起了到Server的连结,将Method名称及参数发送到Server。随后Server会反向解析Method及这些参数并最终调用到Server侧对象的相应方法。
相关推荐
学习hadoop--java零基础学习hadoop手册
java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,...
Hadoop集群搭建好后,这是用于测试用的入门级java程序源码,也是我博文的一个补充,欢迎查看下载
基于Hadoop的JAVA简易网盘项目源码+数据库.zip基于java的简易网盘项目 hdfs为 192.168.31.10:8020/Mycould 采用mysql本地 panuser 基于Hadoop的JAVA简易网盘项目源码+数据库.zip基于java的简易网盘项目 hdfs为 192....
Hadoop教学使用java_jdk 高可用版本 jdk-8u161-linux-x64.tar.gz java1.8的Linux版本jdk 仅用于教学使用,方便学生下载。
资源包含文件:lunwen文档+任务书+开题报告+文献综述+答辩PPT+项目源码及...使用技术:Java 、Jsp、Mysql、Hadoop 详细介绍参考:https://biyezuopin.blog.csdn.net/article/details/122768619?spm=1001.2014.3001.5502
Java管理hdfs文件和文件夹的工具类,最近版本hadoop2.4。
下面小编就为大家带来一篇hadoop中实现java网络爬虫(示例讲解)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
基于Hadoop的云计算平台安全机制研究.pdf
Java访问Hadoop集群源码
Java操作Hadoop Mapreduce基本实践源码.
1.大数据框架hadoop; 2.根据表名,获取全部数据,支持翻页; 3.获取数据总条数; 4.根据表名、上次查询最后一条记录的rowkey,获取下一页数据; 5.数据支持jsonarray/list等;
标签:server、proxy、apache、web、hadoop、yarn、jar包、java、API文档、中文版; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变...
将hadoop与java的编译器idea相连,并编写wordcount程序
解决hadoop集群中java占用率高的问题,常常达99.99。。。
NULL 博文链接:https://ouyida3.iteye.com/blog/1144326
用java实现的hadoop包含基本的增删改查的实例。
凡是hadoop2.x以上版本都可以使用这个导入包,下载后直接将里面的所有文件直接导入到需要使用hadoop接口的项目里就好
手把手教你配置高效的Hadoop集群,充分利用Hadoop平台的优势。2. 为Hadoop生态系统实现强健的端到端的安全保障。