阅读更多

0顶
0踩

行业应用

原创新闻 HBase在滴滴出行的应用场景和最佳实践

2017-06-19 15:32 by 副主编 jihong10102006 评论(0) 有19973人浏览
引用
作者简介:李扬,滴滴出行资深软件开发工程师。2015年加入滴滴出行基础平台部,主要负责HBase和Phoenix以及相关分布式存储技术。在滴滴之前,曾在新浪担任数据工程师,专注于分布式计算和存储。
责编:郭芮(guorui@csdn.net),关注大数据领域。
本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》

背景

对接业务类型

HBase是建立在Hadoop生态之上的Database,源生对离线任务支持友好,又因为LSM树是一个优秀的高吞吐数据库结构,所以同时也对接了很多线上业务。在线业务对访问延迟敏感,并且访问趋向于随机,如订单、客服轨迹查询。离线业务通常是数仓的定时大批量处理任务,对一段时间内的数据进行处理并产出结果,对任务完成的时间要求不是非常敏感,并且处理逻辑复杂,如天级别报表、安全和用户行为分析、模型训练等。

多语言支持

HBase提供了多语言解决方案,并且由于滴滴各业务线RD所使用的开发语言各有偏好,所以多语言支持对于HBase在滴滴内部的发展是至关重要的一部分。我们对用户提供了多种语言的访问方式:HBase Java native API、Thrift Server(主要应用于C++、PHP、Python)、JAVA JDBC(Phoenix JDBC)、Phoenix QueryServer(Phoenix对外提供的多语言解决方案)、MapReduce Job(Htable/Hfile Input)、Spark Job、Streaming等。

数据类型

HBase在滴滴主要存放了以下四种数据类型:
  • 统计结果、报表类数据:主要是运营、运力情况、收入等结果,通常需要配合Phoenix进行SQL查询。数据量较小,对查询的灵活性要求高,延迟要求一般。
  • 原始事实类数据:如订单、司机乘客的GPS轨迹、日志等,主要用作在线和离线的数据供给。数据量大,对一致性和可用性要求高,延迟敏感,实时写入,单点或批量查询。
  • 中间结果数据:指模型训练所需要的数据等。数据量大,可用性和一致性要求一般,对批量查询时的吞吐量要求高。
  • 线上系统的备份数据:用户把原始数据存在了其他关系数据库或文件服务,把HBase作为一个异地容灾的方案。
使用场景介绍

场景一:订单事件

这份数据使用过滴滴产品的用户应该都接触过,就是App上的历史订单。近期订单的查询会落在Redis,超过一定时间范围,或者当Redis不可用时,查询会落在HBase上。业务方的需求如下:
  • 在线查询订单生命周期的各个状态,包括status、event_type、order_detail等信息。主要的查询来自于客服系统。
  • 在线历史订单详情查询。上层会有Redis来存储近期的订单,当Redis不可用或者查询范围超出Redis,查询会直接落到HBase。
  • 离线对订单的状态进行分析。
  • 写入满足每秒10K的事件,读取满足每秒1K的事件,数据要求在5s内可用。

图1 订单流数据流程

按照这些要求,我们对Rowkey做出了下面的设计,都是很典型的scan场景。

订单状态表

Rowkey:reverse(order_id) + (MAX_LONG - TS)
Columns:该订单各种状态

订单历史表

Rowkey:reverse(passenger_id | driver_id) + (MAX_LONG - TS)
Columns:用户在时间范围内的订单及其他信息

场景二:司机乘客轨迹

这也是一份滴滴用户关系密切的数据,线上用户、滴滴的各个业务线和分析人员都会使用。举几个使用场景上的例子:用户查看历史订单时,地图上显示所经过的路线;发生司乘纠纷,客服调用订单轨迹复现场景;地图部门用户分析道路拥堵情况。

图2 司乘轨迹数据流程

用户们提出的需求:
  • 满足App用户或者后端分析人员的实时或准实时轨迹坐标查询;
  • 满足离线大规模的轨迹分析;
  • 满足给出一个指定的地理范围,取出范围内所有用户的轨迹或范围内出现过的用户。

其中,关于第三个需求,地理位置查询,我们知道MongoDB对于这种地理索引有源生的支持,但是在滴滴这种量级的情况下可能会发生存储瓶颈,HBase存储和扩展性上没有压力但是没有内置类似MongoDB地理位置索引的功能,没有就需要我们自己实现。通过调研,了解到关于地理索引有一套比较通用的GeohHash算法 。

GeoHash是将二维的经纬度转换成字符串,每一个字符串代表了某一矩形区域。也就是说,这个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串,比如说我在悠唐酒店,我的一个朋友在旁边的悠唐购物广场,我们的经纬度点会得到相同的GeoHash串。这样既可以保护隐私(只表示大概区域位置而不是具体的点),又比较容易做缓存。

图3 GeoHash示意图

但是我们要查询的范围和GeohHash块可能不会完全重合。以圆形为例,查询时会出现如图4所示的一半在GeoHash块内,一半在外面的情况(如A、B、C、D、E、F、G等点)。这种情况就需要对GeoHash块内每个真实的GPS点进行第二次的过滤,通过原始的GPS点和圆心之间的距离,过滤掉不符合查询条件的数据。

图4 范围查询时,边界GeoHash块示意图

最后依据这个原理,把GeoHash和其他一些需要被索引的维度拼装成Rowkey,真实的GPS点为Value,在这个基础上封装成客户端,并且在客户端内部对查询逻辑和查询策略做出速度上的大幅优化,这样就把HBase变成了一个MongoDB一样支持地理位置索引的数据库。如果查询范围非常大(比如进行省级别的分析),还额外提供了MR的获取数据的入口。

两种查询场景的Rowkey设计如下:
  • 单个用户按订单或时间段查询: reverse(user_id) + (Integer.MAX_LONG-TS/1000)
  • 给定范围内的轨迹查询:reverse(geohash) + ts/1000 + user_id
场景三:ETA

ETA是指每次选好起始和目的地后,提示出的预估时间和价格。提示的预估到达时间和价格,最初版本是离线方式运行,后来改版通过HBase实现实时效果,把HBase当成一个KeyValue缓存,带来了减少训练时间、可多城市并行、减少人工干预的好处。
整个ETA的过程如下:
  • 模型训练通过Spark Job,每30分钟对各个城市训练一次;
  • 模型训练第一阶段,在5分钟内,按照设定条件从HBase读取所有城市数据;
  • 模型训练第二阶段在25分钟内完成ETA的计算;
  • HBase中的数据每隔一段时间会持久化至HDFS中,供新模型测试和新的特征提取。
Rowkey:salting+cited+type0+type1+type2+TS
Column:order, feature

图5 ETA数据流程

场景四:监控工具DCM

用于监控Hadoop集群的资源使用(Namenode,Yarn container使用等),关系数据库在时间维度过程以后会产生各种性能问题,同时我们又希望可以通过SQL做一些分析查询,所以使用Phoenix,使用采集程序定时录入数据,生产成报表,存入HBase,可以在秒级别返回查询结果,最后在前端做展示。

图6 DCM数据流程

图7、图8、图9是几张监控工具的用户UI,数字相关的部分做了模糊处理。

图7 DCM HDFS按时间统计使用全量和增量


图8 DCM HDFS按用户统计文件数


图9 DCM,MR Job运行结果统计

滴滴在HBase对多租户的管理

我们认为单集群多租户是最高效和节省精力的方案,但是由于HBase对多租户基本没有管理,使用上会遇到很多问题:在用户方面比如对资源使用情况不做分析、存储总量发生变化后不做调整和通知、项目上线下线没有计划、想要最多的资源和权限等;我们平台管理者也会遇到比如线上沟通难以理解用户的业务、对每个接入HBase的项目状态不清楚、不能判断出用户的需求是否合理、多租户在集群上发生资源竞争、问题定位和排查时间长等。

针对这些问题,我们开发了DHS系统(Didi HBase Service)进行项目管理,并且在HBase上通过Namespace、RS Group等技术来分割用户的资源、数据和权限。通过计算开销并计费的方法来管控资源分配。

图10 DHS项目表监控

DHS主要有下面几个模块和功能:
  • 项目生命周期管理:包括立项、资源预估和申请、项目需求调整、需求讨论;
  • 用户管理:权限管理,项目审批;
  • 集群资源管理;
  • 表级别的使用情况监控:主要是读写监控、memstore、blockcache、locality。
当用户有使用HBase存储的需求,我们会让用户在DHS上注册项目。介绍业务的场景和产品相关的细节,以及是否有高SLA要求。

之后是新建表以及对表性能需求预估,我们要求用户对自己要使用的资源有一个准确的预估。如果用户难以估计,我们会以线上或者线下讨论的方式与用户讨论帮助确定这些信息。
然后会生成项目概览页面,方便管理员和用户进行项目进展的跟踪。

HBase自带的jxm信息会汇总到Region和RegionServer级别的数据,管理员会经常用到,但是用户却很少关注这个级别。根据这种情况我们开发了HBase表级别的监控,并且会有权限控制,让业务RD只能看到和自己相关的表,清楚自己项目表的吞吐及存储占用情况。

通过DHS让用户明确自己使用资源情况的基础之上,我们使用了RS Group技术,把一个集群分成多个逻辑子集群,可以让用户选择独占或者共享资源。共享和独占各有自己的优缺点,如表1。

表1 多租户共享和独占资源的优缺点

根据以上的情况,我们在资源分配上会根据业务的特性来选择不同方案:
  • 对于访问延迟要求低、访问量小、可用性要求低、备份或者测试阶段的数据:使用共享资源池;
  • 对于延迟敏感、吞吐要求高、高峰时段访问量大、可用性要求高、在线业务:让其独占一定机器数量构成的RegionServer Group资源,并且按用户预估的资源量,额外给出20%~30%的余量。
最后我们会根据用户对资源的使用,定期计算开销并向用户发出账单。

RS Group

RegionServer Group,实现细节可以参照HBase HBASE-6721这个Patch。滴滴在这个基础上作了一些分配策略上的优化,以便适合滴滴业务场景的修改。RS Group简单概括是指通过分配一批指定的RegionServer列表,成为一个RS Group,每个Group可以按需挂载不同的表,并且当Group内的表发生异常后,Region不会迁移到其他的Group。这样,每个Group就相当于一个逻辑上的子集群,通过这种方式达到资源隔离的效果,降低管理成本,不必为每个高SLA的业务线单独搭集群。

图11 RS Group示意图

总结

在滴滴推广和实践HBase的工作中,我们认为至关重要的两点是帮助用户做出良好的表结构设计和资源的控制。有了这两个前提之后,后续出现问题的概率会大大降低。良好的表结构设计需要用户对HBase的实现有一个清晰的认识,大多数业务用户把更多精力放在了业务逻辑上,对架构实现知之甚少,这就需要平台管理者去不断帮助和引导,有了好的开端和成功案例后,通过这些用户再去向其他的业务方推广。资源隔离控制则帮助我们有效减少集群的数量,降低运维成本,让平台管理者从多集群无止尽的管理工作中解放出来,将更多精力投入到组件社区跟进和平台管理系统的研发工作中,使业务和平台都进入一个良性循环,提升用户的使用体验,更好地支持公司业务的发展。

本文系李扬老师在CCTC 2017大数据峰会上所做分享内容,点此下载演讲PPT。
  • 大小: 313.9 KB
  • 大小: 28.6 KB
  • 大小: 188.7 KB
  • 大小: 19 KB
  • 大小: 50.5 KB
  • 大小: 27.6 KB
  • 大小: 130.8 KB
  • 大小: 100 KB
  • 大小: 123.4 KB
  • 大小: 113.8 KB
  • 大小: 59.8 KB
  • 大小: 38.5 KB
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • VB 操作注册表

    VB 操作注册表代码: 1,简单易懂 2,读取,写入,删除

  • 用VB操作注册表

     在Windows出问题时,如果能够了解Windows系统的注册表,将更容易解决问题; 许多商品化的软件或专业化的软件在您的机器上首次安装的时候都会通过改写注册表来完成软件的正确安装运行,要成为编程高手当然需要掌握读写注册表这一技术。用好注册表将会为您的应用程序增色不少,下面笔者将具体介绍VB中与注册表有关的编程方法。 注册表的组织结构 存取注册表以前, 必须先了解注册表的组织结构, 而了解注册表

  • VB如何在Win10X64位系统上进行读写64位的注册表

    VB如何在Win10X64位系统上进行读写64位的注册表

  • VB6 注册表的递归访问与面象对象模块化封装

    VB6注册表递归访问与面象对象模块化封装

  • 注册表读写操作(模块)

    ***************************************************************************模 块 名:RegWork**创 建 人:叶帆**日    期:2003年01月11日**修 改 人:**日    期:**描    述:注册表操作(不同类型,读写方法有一定区别)**版    本:版本1.0*************

  • VB读写注册表的三种方法

    读写注册表并不会比使用“Scripting.FileSystemObject”对象读写文件麻烦,而且方法很多。我这里列举三种:   一.用VB自带的函数读写   VB中有三个函数,用于操作注册表,分别是“GetSetting”、“SaveSetting”、“DeleteSetting”。我想从字面上应该也可以猜出它们的大致功能。   教科书似的使用说明我就不写了,我只用我自己的理解简单

  • VB 更改注册表键权限

    VERSION 5.00Begin VB.Form frmMain    BorderStyle     =   0  None   ClientHeight    =   885   ClientLeft      =   0   ClientTop       =   0   ClientWidth     =   4680   LinkTopic       =   "Form1"   S

  • VB修改注册表

     把下面的内容存成.bas(模块)文件,以后只要把这个文件加入你的工程就可以直接用这些函数了  -----------------  ADVAPI32  -----------------  function prototypes, constants, and type definitions  for Windows 32-bit Registry API Public Const 

  • VB6-API注册表操作模块

    VB6-API注册表操作模块。可以轻松“建立/删除/修改/注册键值”

  • vb 对注册表操作

    Option ExplicitPrivate Declare Sub CopyMemory Lib "kernel32" Alias "RtlMoveMemory" _ (dest As Any, source As Any, ByVal numBytes As Long)Private Declare Function ExpandEnvironmentStrings Lib "kernel...

  • VB注册表添加删除

    有两个资源: 一、VB注册表添加删除 二、VB注册表值查看 默认路径可在代码中修改。

  • OD 常用断点

    拦截窗口: bp CreateWindow 创建窗口 bp CreateWindowEx(A) 创建窗口 bp ShowWindow 显示窗口 bp UpdateWindow 更新窗口 bp GetWindowText(A) 获取窗口文本 拦截消息框: bp MessageBox(A) 创建消息框 bp MessageBoxExA 创建消息框 bp MessageBoxIndir

  • VB开机启动本程序(读写注册表)

    在窗体中加入一个CheckBox控件,加入以下代码: Option Explicit Private Sub Form_Load() Check1.Caption = “开机启动本程序” Check1.Value = WinViler End Sub Private Sub Check1_Click() Dim My Set My = CreateObject(“WScript.Shell”) If Check1.Value > 0 Then '将程序写入注册表的启动项中 My.regWrite “.

  • vb修改注册表!!调用WSH实现

    vb修改注册表!!调用WSH实现!!!!! [旭发飘扬 发表于 2007-3-5 下午 12:30:04]   在VB中,注册表的读写,可以用自身的SaveSetting、GetSetting函数,但它们读写注册表的位置有限;也可以使用API函数来实现注册表任意 位置的读写,但使用起来又比较麻烦。其实,利用微软提供的Windows Script Host对象来操作注册表简单且方便得多。

  • VB 与 注册表

     1:可以把选项保存在文件、数据库或注册表中,然后在程序启动时加入ComboBox。这样每次你只需要修改文件或注册表就可以了,而不需要重新编译程序。下面的例子就是从注册表中读取:Private Sub Form_Load() Dim s As String Dim i As Integer i = 0 Do s = GetSetting(appname := "MyApp", section

  • VB中用于访问注册表的方法,很适用

    例如,可以向应用程序的主窗体中的 Form_Unload 事件添加代码以便在停机时保存设置值,或者向“选项”对话框的 Form_Unload 事件添加代码以便更新的首选项。下列代码保存 Backup 和 LastEntry 表项的新值,这些表项包含在名为“RegCust”的应用程序的注册位置的启动部分。如果在注册位置的 Software/Microsoft 部分没有应用程序“RegCust”的注册项、或者没有这些指定的部分或注册表项,该代码将创建它。表达式,如果注册表项设置中没有设置值,则返回缺省值。

  • VB代码颜色修改(修改注册表的方法)

    VB代码颜色修改的两种方法 ❤修改VB代码颜色,可以通过:“工具——选项——编辑器格式——代码颜色”,修改不同类型文本的前景色和背景色,可以查看我之前写过的一片博客:https://blog.csdn.net/weixin_40321660/article/details/89390271 ❤还可以通过修改VB注册表来修改VB代码颜色,方法如下: 打开注册表:Windows+R:regedit——...

  • VB6读取注册表

    Dim WshShell, bKey Set WshShell = CreateObject("Wscript.Shell") bKey = WshShell.RegRead("HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\Shell Folders\Cache") MsgBox bKey

Global site tag (gtag.js) - Google Analytics