关于Hadoop IPC机制的描述,网上已有丰富的资料可供参考,比如:http://blog.csdn.net/zhanglizhe_cool/article/details/5712456,但大都围绕Hadoop中Server、Client的通信方式进行说明。这篇文章,以Hadoop IPC中对Java Proxy机制的使用作为主题,描述其基本工作原理和实现方法。
Java Proxy
Java Proxy(代理)是Java反射机制的一种。JVM为Java的用户提供了这种方法,使得Java代码的编写者可以为已有的类(被代理类)定义一个代理类的封装,代理对象可以在最终调用被代理类对象方法的前后添加更多自定义的操作。而代理类对象的使用者可以像使用被代理类对象一样,调用被代理类的方法。
这种机制的好处,是代理对象为其使用者屏蔽了在最终调用到被代理对象方法前后所进行的诸如建立网络通信等细节,代理的使用者在调用代理类对象的方法时,表面上看就跟调用被代理类对象方法具有相同的形式。
Hadoop IPC与Java Proxy
Hadoop的各进程之间,采用其自行实现的IPC机制进行通信。以下以NameNode和DataNode之间的通信为例。
在Hadoop中,DataNode通过定时的向NameNode发送心跳,来进行信息交互。Hadoop的NameNode类中,有一个public方法sendHeartbeat。DataNode对象向NameNode发送心跳,就是通过调用远程执行的NameNode对象的这个方法,并获取该方法的返回值来实现的。IPC通信中,主要涉及通信的类是org.apache.hadoop.ipc.Server以及org.apache.hadoop.ipc.Client。就直观的感觉讲,DataNode在这个发心跳的操作中,应该是这样的流程,DataNode通过Client建立到NamenNode的链接,然后向这个链接发送心跳请求,NameNode对象接收到请求之后,触发自己的sendHeartHeat方法,方法完成之后,向Client回送返回值。把视点集中到DataNode,这个交互过程,DataNode中需要进行建立网络连接、发送数据、接收数据三个操作,它应该要调用Client的相应方法来完成所有这些。但,实际情况比这个要简洁得多,因为Hadoop引入了org.apache.hadoop.ipc.RPC这个类,而这个类使用Java Proxy方式为DataNode屏蔽了繁琐的网络建立过程:
DataNode中的包含这样一个成员属性:public DatanodeProtocol namenode = null。DataNode进程在启动时,这个属性会被初始化:
this.namenode = (DatanodeProtocol) RPC.waitForProxy(DatanodeProtocol.class, DatanodeProtocol.versionID, nameNodeAddr, conf);
在这之后,当DataNode要向NameNode发送心跳时,调用namenode.sendHeartbeat即可。在DataNode看来,它直接调用自己成员变量namenode的sendHeartbeat方法,就直接实现了对远程NameNode对象这个sendHeartbeat方法的调用,形式变得非常简洁。这里,RPC使用Java Proxy机制,实现了这个看似神奇的远程调用。
研究RPC.waitForProxy可以知道,它最终触发了Java Proxy调用:VersionedProtocol proxy = (VersionedProtocol) Proxy.newProxyInstance( protocol.getClassLoader(), new Class[] { protocol }, new Invoker(protocol, addr, ticket, conf, factory, rpcTimeout))。Proxy机制中,当通过newProxyInstance调用获取一个代理类对象之后,对这个代理类对象的方法调用,都会触发到newProxyInstance这个方法所传入的第三个参数所定义的对象(java.lang.reflect.InvocationHandler接口的扩展类对象)的invoke方法。
看看DataNode在建立代理对象时所传入的这个org.apache.hadoop.ipc.RCP.Invoker类实现:
private static class Invoker implements InvocationHandler {
private Client.ConnectionId remoteId;
private Client client;
private boolean isClosed = false;
public Invoker(Class<? extends VersionedProtocol> protocol, InetSocketAddress address, UserGroupInformation ticket, Configuration conf, SocketFactory factory, int rpcTimeout) throws IOException {
this.remoteId = Client.ConnectionId.getConnectionId(address, protocol, ticket, rpcTimeout, conf);
this.client = CLIENTS.getClient(conf, factory);
}
public Object invoke(Object proxy, Method method, Object[] args) throws Throwable {
final boolean logDebug = LOG.isDebugEnabled();
long startTime = 0;
if (logDebug) {
startTime = System.currentTimeMillis();
}
ObjectWritable value = (ObjectWritable) client.call(new Invocation(method, args), remoteId);
if (logDebug) {
long callTime = System.currentTimeMillis() – startTime;
LOG.debug(“Call: ” + method.getName() + ” ” + callTime);
}
return value.get();
}
…
}
Invoker对象在构造的时候,就会使用Client的相应方法,建立到Server的连接。Invoker为 InvocationHandler的实现类,把它注册为Proxy对象的invoker之后,只要客户端直接调用Proxy对象的方法,就会触发Invoker的invoke方法,Invoker类就是在这个Invoke方法中,发起了到Server的连结,将Method名称及参数发送到Server。随后Server会反向解析Method及这些参数并最终调用到Server侧对象的相应方法。
相关推荐
Hadoop的RPC实现主要集中在`org.apache.hadoop.ipc`包下。`ProtobufRpcEngine`和`ReflectionUtils`是关键类,前者负责protobuf协议的序列化和反序列化,后者用于创建服务器实例。在`RPC.Server`中,可以看到对请求的...
Java操作Hadoop的RPC(Remote Procedure Call)是分布式计算领域中的关键技术,它允许在不同的进程或机器之间进行远程调用,如同本地调用一样。Hadoop作为一个开源的大数据处理框架,其RPC机制是实现各个组件如...
Hadoop 的 RPC 机制类似于 Java 的 RMI(远程方法调用),都需要用户定义接口并在服务器端实现该接口。通过 `java.lang.reflect.Proxy` 类,客户端可以像调用本地方法一样调用远程服务。 ##### 3.2 设计决策 ...
Hadoop中的RPC机制是基于Java的IPC(Inter-Process Communication)实现的,它在设计时考虑了性能、效率和可控制性,因此与RMI(Remote Method Invocation)等其他RPC方案有所不同。 1. **RPC原理**: Hadoop的RPC...
2017年存储技术变革与发展的趋势.pdf
毕业论文-qing游戏风格 商业版(GBK)-整站商业源码.zip
实训商业源码-效能-毕业设计.zip
平台跳跃游戏的核心魅力在于重力与控制的精妙平衡。本文将构建角色运动的微分方程模型,解析空中机动算法,并揭示关卡设计中的隐式引力场理论,展现2D平台游戏背后的复杂物理模拟系统。
实训商业源码-签到工具-毕业设计.zip
nsync///////
实训商业源码-票务高级版4.2.9-毕业设计.zip
运算符重载函数(友元函数).cpp
ABAQUS模型定义.pdf
FreeRTOS计数信号量的使用,模拟停车场运行逻辑
毕业论文-方熊表单V1.0.0 开源版-整站商业源码.zip
毕业论文-多商户线下积分商城会员群发V2.5.11 原版-整站商业源码.zip
实训商业源码-新材料-毕业设计.zip
毕业论文-活码自动进群V1.0.0 开源版-整站商业源码.zip
毕业论文-红包拓客生意宝2.0.3 开源版-整站商业源码.zip
Baidunetdisk_AndroidPhone_1023843j (6).apk