转:http://www.360doc.com/content/14/0402/17/16635465_365774770.shtml
1.起因(Why HBase Coprocessor)
HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase中,统计数据表的总行数,需要使用Counter方法,执行一次MapReduce Job才能得到。虽然HBase在数据存储层中集成了MapReduce,能够有效用于数据表的分布式计算。然而在很多情况下,做一些简单的相加或者聚合计算的时候,如果直接将计算过程放置在server端,能够减少通讯开销,从而获得很好的性能提升。于是,HBase在0.92之后引入了协处理器(coprocessors),实现一些激动人心的新特性:能够轻易建立二次索引、复杂过滤器(谓词下推)以及访问控制等。
2.灵感来源( Source of Inspration)
HBase协处理器的灵感来自于Jeff Dean 09年的演讲( P66-67)。它根据该演讲实现了类似于bigtable的协处理器,包括以下特性:
- 每个表服务器的任意子表都可以运行代码
- 客户端的高层调用接口(客户端能够直接访问数据表的行地址,多行读写会自动分片成多个并行的RPC调用)
- 提供一个非常灵活的、可用于建立分布式服务的数据模型
- 能够自动化扩展、负载均衡、应用请求路由
3.细节剖析(Implementation)
协处理器分两种类型,系统协处理器可以全局导入region server上的所有数据表,表协处理器即是用户可以指定一张表使用协处理器。协处理器框架为了更好支持其行为的灵活性,提供了两个不同方面的插件。一个是观察者(observer),类似于关系数据库的触发器。另一个是终端(endpoint),动态的终端有点像存储过程。
3.1观察者(Observer)
观察者的设计意图是允许用户通过插入代码来重载协处理器框架的upcall方法,而具体的事件触发的callback方法由HBase的核心代码来执行。协处理器框架处理所有的callback调用细节,协处理器自身只需要插入添加或者改变的功能。
以HBase0.92版本为例,它提供了三种观察者接口:
- RegionObserver:提供客户端的数据操纵事件钩子:Get、Put、Delete、Scan等。
- WALObserver:提供WAL相关操作钩子。
- MasterObserver:提供DDL-类型的操作钩子。如创建、删除、修改数据表等。
这些接口可以同时使用在同一个地方,按照不同优先级顺序执行.用户可以任意基于协处理器实现复杂的HBase功能层。HBase有很多种事件可以触发观察者方法,这些事件与方法从HBase0.92版本起,都会集成在HBase API中。不过这些API可能会由于各种原因有所改动,不同版本的接口改动比较大,具体参考Java Doc。
RegionObserver工作原理,如图1所示。更多关于Observer细节请参见HBaseBook的第9.6.3章节。
图1 RegionObserver工作原理
3.2终端(Endpoint)
终端是动态RPC插件的接口,它的实现代码被安装在服务器端,从而能够通过HBase RPC唤醒。客户端类库提供了非常方便的方法来调用这些动态接口,它们可以在任意时候调用一个终端,它们的实现代码会被目标region远程执行,结果会返回到终端。用户可以结合使用这些强大的插件接口,为HBase添加全新的特性。终端的使用,如下面流程所示:
- 定义一个新的protocol接口,必须继承CoprocessorProtocol.
- 实现终端接口,该实现会被导入region环境执行。
- 继承抽象类BaseEndpointCoprocessor.
- 在客户端,终端可以被两个新的HBase Client API调用 。单个region:HTableInterface.coprocessorProxy(Class<T> protocol, byte[] row) 。rigons区域:HTableInterface.coprocessorExec(Class<T> protocol, byte[] startKey, byte[] endKey, Batch.Call<T,R> callable)
整体的终端调用过程范例,如图2所示:
图2 终端调用过程范例
4.编程实践(Code Example)
在该实例中,我们通过计算HBase表中行数的一个实例,来真实感受协处理器 的方便和强大。在旧版的HBase我们需要编写MapReduce代码来汇总数据表中的行数,在0.92以上的版本HBase中,只需要编写客户端的代码即可实现,非常适合用在WebService的封装上。
4.1启用协处理器 Aggregation(Enable Coprocessor Aggregation)
我们有两个方法:1.启动全局aggregation,能过操纵所有的表上的数据。通过修改hbase-site.xml这个文件来实现,只需要添加如下代码:
<property> <name>hbase.coprocessor.user.region.classes</name> <value>org.apache.hadoop.hbase.coprocessor.AggregateImplementation</value> </property>
2.启用表aggregation,只对特定的表生效。通过HBase Shell 来实现。
(1)disable指定表。hbase> disable 'mytable'
(2)添加aggregation hbase> alter 'mytable', METHOD => 'table_att','coprocessor'=>'|org.apache.hadoop.hbase.coprocessor.AggregateImplementation||'
(3)重启指定表 hbase> enable 'mytable'
4.2统计行数代码(Code Snippet)
public class MyAggregationClient { private static final byte[] TABLE_NAME = Bytes.toBytes("mytable"); private static final byte[] CF = Bytes.toBytes("vent"); public static void main(String[] args) throws Throwable { Configuration customConf = new Configuration(); customConf.setStrings("hbase.zookeeper.quorum", "node0,node1,node2"); //提高RPC通信时长 customConf.setLong("hbase.rpc.timeout", 600000); //设置Scan缓存 customConf.setLong("hbase.client.scanner.caching", 1000); Configuration configuration = HBaseConfiguration.create(customConf); AggregationClient aggregationClient = new AggregationClient( configuration); Scan scan = new Scan(); //指定扫描列族,唯一值 scan.addFamily(CF); long rowCount = aggregationClient.rowCount(TABLE_NAME, null, scan); System.out.println("row count is " + rowCount); } }
相关推荐
第一章 HBase入门 1. 简介 2. 集群搭建 3. HBase数据模型 4. 常用shell操作 5. shell管理操作 6. Hbase Java编程 7. HBase高可用 8. HBase架构 第二章 陌陌海量存储案例 1. 案例介绍 2. 打招呼消息数据集介绍 3. ...
16.6 HBase Coprocessor 262 16.7 布隆过滤器 262 16.8 小结 262 第17章 工具和实用程序 263 17.1 RRDTool 263 17.2 Nagios 265 17.3 Scribe 266 17.4 Flume 267 17.5 Chukwa 267 17.6 Pig 268 17.6.1 ...
- 了解HBase协处理器(Coprocessor)的概念及其应用场景。 - 学习如何实现二级索引来提高查询性能。 4. **过滤器查询** - 学习使用Filter进行复杂的查询操作。 - 掌握不同类型的过滤器及其用法。 5. **Hbase内部...
ASP技术访问WEB数据库.docx
2010-2019年上市公司排污费数据 1、时间:2010-2019年 2、来源:上市公司披露BG 3、指标:代码、日期、名称、本期支出 4、范围:417家上市公司 5、相关研究:胡珺,宋献中,王红建.非正式制度、家乡认同与企业环境治理
内容概要:本文详细介绍了六轴桌面机械臂的上位机(PC)和下位机(单片机)源码实现及其应用场景。上位机使用Python编写,通过pyserial库进行串口通信,实现了用户交互和指令发送功能;下位机则使用Arduino平台,通过C/C++语言编写代码,实现了机械臂的动作控制。文中不仅展示了基本的通信协议和控制逻辑,还深入探讨了逆运动学计算、PID控制、数据同步等问题,并提供了多个实用的代码片段和调试经验。 适合人群:对机器人技术和嵌入式开发感兴趣的开发者,尤其是有一定编程基础和技术背景的人群。 使用场景及目标:适用于六轴桌面机械臂的开发和调试,帮助读者理解上下位机的协同工作原理,掌握机械臂控制的关键技术,如串口通信、逆运动学、PID调节等。 其他说明:文章强调了实际开发中的注意事项和常见问题,如数据同步、指令校验、运动规划等,并提供了一些优化建议和解决方案。此外,还提到了系统的扩展性和安全性措施,如限位保护和扩展接口的设计。
青藏高原降水的水汽来源及输送机制一直是国际水文气候学界关注的热点问题。由于高原地面观测站数量有限,且分布极不均匀,从而导致降水溯源存在很大不确定性。作者通过引入卫星降水数据来弥补站点观测降水的不足,从而对高原整体降水的水汽来源进行模拟性评估。作者通过1998-2018年间水汽追踪数值模型模拟高原整体降水的水汽来源,模型使用ERA-Interim再分析资料、TRMM卫星降水和GLDAS OAFlux蒸发作为数据驱动,并设置对比实验进行验证,最终生成高原整体降水的水汽来源月尺度数据。数据集内容包括:(1)青藏高原范围;(2)高原1998-2018年逐月降水水汽贡献数据,空间分辨率为1°×1°,单位:mm/mon;(3)高原1998-2018年逐月降水量。数据集存储为.nc、.shp和.xlsx格式,由8个数据文件组成,数据量为55 MB(压缩为1个文件,40.9 MB)。基于该数据集的分析研究成果已发表在《Environmental Research Letters》2020年15卷。Zhang, C. Moisture source assessment and the varying characteristics for the Tibetan Plateau precipitation using TRMM [J]. Environmental Research Letters, 2020, 15(10): 104003.
内容概要:本文详细介绍了利用MotorCAD进行32极36槽内转子永磁同步电机的设计过程,涵盖电磁场计算、极槽配合选择、绕组设计、磁钢布局、冷却系统设计等方面。通过分数槽配置、双层短距绕组、V型磁钢布局以及高效的冷却系统,实现了70kW输出、525rpm转速、2.5倍过载能力和高达5kW/kg的功率密度。文中还讨论了具体的参数设置及其背后的物理意义,如极距、绕组因数、磁钢涡流损耗控制等。 适合人群:从事电机设计的专业工程师和技术人员,尤其是对高功率密度和高性能电机感兴趣的读者。 使用场景及目标:适用于电动工程机械等需要短时爆发力的应用场合,旨在提高电机的功率密度和过载能力,同时确保高效稳定运行。 其他说明:文章提供了详细的参数配置代码片段,便于读者理解和复现设计过程。此外,还分享了一些实用的设计经验和优化技巧,如磁钢分段设计、转子冲片造型等。
标题Python网络课程在线学习平台研究AI更换标题第1章引言介绍Python网络课程在线学习平台的研究背景、意义、国内外现状和研究方法。1.1研究背景与意义阐述Python在线学习平台的重要性和研究意义。1.2国内外研究现状概述国内外Python在线学习平台的发展现状。1.3研究方法与论文结构介绍本文的研究方法和整体论文结构。第2章相关理论总结在线学习平台及Python教育的相关理论。2.1在线学习平台概述介绍在线学习平台的基本概念、特点和发展趋势。2.2Python教育理论阐述Python语言教学的理论和方法。2.3技术支持理论讨论构建在线学习平台所需的技术支持理论。第3章Python网络课程在线学习平台设计详细介绍Python网络课程在线学习平台的设计方案。3.1平台功能设计阐述平台的核心功能,如课程管理、用户管理、学习跟踪等。3.2平台架构设计给出平台的整体架构,包括前后端设计、数据库设计等。3.3平台界面设计介绍平台的用户界面设计,强调用户体验和易用性。第4章平台实现与测试详细阐述Python网络课程在线学习平台的实现过程和测试方法。4.1平台实现介绍平台的开发环境、技术栈和实现细节。4.2平台测试对平台进行功能测试、性能测试和安全测试,确保平台稳定可靠。第5章平台应用与效果分析分析Python网络课程在线学习平台在实际应用中的效果。5.1平台应用案例介绍平台在实际教学或培训中的应用案例。5.2效果评估与分析通过数据分析和用户反馈,评估平台的应用效果。第6章结论与展望总结Python网络课程在线学习平台的研究成果,并展望未来发展方向。6.1研究结论概括本文关于Python在线学习平台的研究结论。6.2研究展望提出未来Python在线学习平台的研究方向和发展建议。
内容概要:本文详细介绍了为西门子S7-1200 PLC开发的一个自定义堆栈程序。由于S7-1200未提供内置堆栈功能,作者使用SCL(Structured Control Language)编写了一个通用型堆栈功能块(FB),能够实现FIFO(先进先出)和LIFO(后进先出)的数据管理。该堆栈程序支持多种数据类型(如BOOL、REAL、DWORD等),并提供了入栈、出栈、清空等功能。文中还讨论了具体的实现细节,如边界检测、指针管理和环形缓冲区的设计,以及在实际工业环境中的应用效果。 适合人群:从事PLC编程、自动化控制系统开发的技术人员,尤其是熟悉西门子S7-1200系列PLC的工程师。 使用场景及目标:适用于需要临时存储和管理数据的应用场景,如生产线上的配方管理、设备故障回溯、日志记录等。通过自定义堆栈程序,可以提高数据处理效率,减少因缺乏内置堆栈功能而带来的不便。 其他说明:该堆栈程序已在实际生产环境中运行超过三个月,处理了大量数据,表现出良好的稳定性和性能。未来计划进一步优化,如改进为环形缓冲区以提升性能。
GIS在林业管理系统中的应用.pdf
C语言专业课程设计销售标准管理系统.doc
基于 Python 的高校学生职业推荐系统的设计与实现LW+PPT
内容概要:本文详细介绍了基于Simulink平台构建的电动汽车仿真模型,涵盖整车动力性测试(如最高车速、最大爬坡能力和加速时间)和NEDC工况下的能耗测试。模型由驾驶员模型、VCU控制模型、电机系统和电池系统四个主要部分构成,通过协同工作完成各项性能指标的仿真测试。文中还展示了多个关键环节的具体实现细节,如PID控制、扭矩限制、电池能量管理等。 适合人群:从事电动汽车研发的技术人员、高校相关专业师生、对电动汽车仿真感兴趣的工程爱好者。 使用场景及目标:①用于电动汽车的设计阶段,评估不同设计方案的动力性能和能耗水平;②作为教学工具,帮助学生理解电动汽车的工作原理和技术难点;③为企业提供技术支持,优化现有车型的性能表现。 其他说明:文中提供了大量MATLAB/Simulink代码片段,便于读者理解和复现实验结果。同时强调了模型的实际应用价值及其对未来电动汽车发展的指导意义。
2025年计算机二级考试C试卷及答案.doc
标题Django基于Python的毕业生去向反馈调查平台设计与实现AI更换标题第1章引言介绍研究背景、意义,分析国内外相关平台的现状,并阐述论文的研究方法和创新点。1.1研究背景与意义说明毕业生去向反馈的重要性及现有调查方式的不足。1.2国内外研究现状概述国内外在毕业生去向反馈调查平台方面的发展现状。1.3研究方法与创新点阐述本文采用的研究方法和在平台设计中的创新之处。第2章相关理论与技术介绍Django框架、Python语言以及相关的Web开发技术。2.1Django框架概述简述Django框架的特点、优势及其在Web开发中的应用。2.2Python语言基础概述Python语言的基本语法、特点及其在Web开发中的作用。2.3Web开发相关技术介绍与平台设计相关的Web前端技术、数据库技术等。第3章平台需求分析对毕业生去向反馈调查平台进行需求分析,包括功能需求和非功能需求。3.1功能需求分析详细阐述平台应具备的各项功能,如用户管理、问卷调查、数据分析等。3.2非功能需求分析分析平台的性能、安全性、易用性等非功能需求。第4章平台设计根据需求分析结果,设计平台的整体架构、功能模块和数据库。4.1平台整体架构设计给出平台的整体架构图,并说明各个组成部分的作用。4.2功能模块设计详细设计平台的各个功能模块,包括用户模块、问卷模块、数据分析模块等。4.3数据库设计设计平台的数据库结构,包括数据表的设计、数据关系的建立等。第5章平台实现与测试介绍平台的实现过程、关键代码以及测试方法和结果。5.1平台实现阐述平台的实现过程,包括开发环境的搭建、代码的编写等。5.2关键代码展示展示实现平台功能的关键代码片段,如用户认证、问卷调查等。5.3平台测试说明平台的测试方法,包括功能测试、性能测试等,并给出测试结果。第6章结论与展望总结论文的研究成果,指出平台的优点与不足,并展望未来的研究方向。6.
内容概要:本文详细介绍了使用C#实现TCP/IP客户端与服务器之间的数据交互,涵盖字节、整型、浮点数、字符串等多种数据类型的处理,并特别强调了中英文字符串的交互功能。此外,文章深入探讨了与西门子S7-200Smart工业设备的通讯方式,包括协议适配、字节序处理、数据帧构建等关键技术点。文中提供了丰富的代码示例,如TcpListener的初始化、客户端连接、数据读取与发送、以及针对工业设备的特殊数据处理方法。同时,作者分享了许多实践经验,如避免字节序错误、处理浮点数精度问题、使用Wireshark抓包工具等。 适合人群:具有一定C#编程基础,尤其是对网络编程和工业自动化感兴趣的开发者和技术爱好者。 使用场景及目标:适用于需要实现C# TCP/IP通信的项目,特别是涉及工业设备通讯的场景。目标是掌握TCP/IP通信的基本原理及其在工业自动化领域的应用,能够独立完成与西门子S7-200Smart设备的通讯开发。 其他说明:文章不仅提供理论讲解,还有大量实战代码和技巧分享,帮助读者快速理解和应用所学知识。建议读者在实践中结合Wireshark等工具进行调试,以便更好地理解数据传输过程。
腹部CT扫描 用于检测癌症的轴向切片 腹部CT扫描数据集 用于检测癌症的轴向切片 欢迎使用这个强大的数据集,该数据集以腹部CT扫描的轴向切片为特色,在诊断癌症的过程中收集。 该资源是医学影像爱好者的金矿,非常适合推进医疗技术的研究和构建创新工具! 该数据集包含在轴向切片中采集的腹部计算机断层扫描(CT),最初是为了识别癌症的体征而采集的。无论您是从事医学成像、图像分割还是自动诊断,这些图像都为探索和创新提供了绝佳的机会。 里面是什么? 可能是带有CT扫描的ZIP文件](93.9 MB)一个压缩的档案,其中包含腹部CT图像,可能是DICOM或其他标准医疗格式。打开它以显示完整的收藏! 你如何使用它 通过这些激动人心的应用程序释放您的创造力: 胃癌症检测:建立和测试算法,像专业人士一样在CT扫描中发现癌症迹象。 图像分割:掌握精确勾勒腹部器官和潜在肿瘤的艺术。 医学影像研究:突破CT图像分析和处理技术的界限。 标签 医学影像·图像分割·癌症·CT扫描
内容概要:本文详细介绍了基于西门子S7-224XP PLC和昆仑通态触摸屏的恒压供水一拖二控制系统。该系统不仅支持工频和变频切换,还能作为纯变频方案使用。硬件方面,采用224XP带两个串口连接触摸屏和MODBUS通讯,配备EM232模拟量输出模块发送控制信号。软件部分展示了关键的梯形图代码,包括主泵切换逻辑、双PID调节、工变频互锁等。此外,还提供了触摸屏组态建议,确保系统的高扩展性和灵活性。文中强调了调试技巧和注意事项,如模拟量输出的软件滤波、变频器故障信号隔离等。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是对PLC编程和恒压供水系统感兴趣的读者。 使用场景及目标:适用于需要主备泵轮换或同时运行的恒压供水系统。目标是帮助工程师理解和实施高效稳定的工变频互锁控制方案,提高系统的可靠性和适应性。 其他说明:文中提到的具体代码片段和硬件配置有助于实际项目的快速部署和调试。对于希望深入了解PLC编程和恒压供水系统的人来说,本文提供了宝贵的实践经验和技术细节。