X-Pack Spark服务通过外部计算资源的方式,为Redis、Cassandra、MongoDB、HBase、RDS存储服务提供复杂分析、流式处理及入库、机器学习的能力,从而更好的解决用户数据处理相关场景问题。

RDS & POLARDB分表归档到X-Pack Spark步骤
--------------------------------
**一键关联POLARDB到Spark集群**
一键关联主要是做好spark访问RDS & POLARDB的准备工作。

**POLARDB表存储**
在database ‘test1’中每5分钟生成一张表,这里假设为表 'test1'、'test2'、'test2'、...

具体的建表语句如下:
\*请左右滑动阅览
```
CREATE TABLE `test1` ( `a` int(11) NOT NULL,
`b` time DEFAULT NULL,
`c` double DEFAULT NULL,
PRIMARY KEY (`a`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
```

**归档到Spark的调试**
x-pack spark提供交互式查询模式支持直接在控制台提交sql、python脚本、scala code来调试。
1、首先创建一个交互式查询的session,在其中添加mysql-connector的jar包。
\*请左右滑动阅览
```
wget https://spark-home.oss-cn-shanghai.aliyuncs.com/spark_connectors/mysql-connector-java-5.1.34.jar
```


2、创建交互式查询
以pyspark为例,下面是具体归档demo的代码:
\*请左右滑动阅览
```
spark.sql("drop table sparktest").show()
# 创建一张spark表,三级分区,分别是天、小时、分钟,最后一级分钟用来存储具体的5分钟的一张polardb表达的数据。字段和polardb里面的类型一致
spark.sql("CREATE table sparktest(a int , b timestamp , c double ,dt string,hh string,mm string) "
"USING parquet PARTITIONED BY (dt ,hh ,mm )").show()
#本例子在polardb里面创建了databse test1,具有三张表test1 ,test2,test3,这里遍历这三张表,每个表存储spark的一个5min的分区
# CREATE TABLE `test1` (
# `a` int(11) NOT NULL,
# `b` time DEFAULT NULL,
# `c` double DEFAULT NULL,
# PRIMARY KEY (`a`)
# ) ENGINE=InnoDB DEFAULT CHARSET=utf8
for num in range(1, 4):
#构造polardb的表名
dbtable = "test1." + "test" + str(num)
#spark外表关联polardb对应的表
externalPolarDBTableNow = spark.read \
.format("jdbc") \
.option("driver", "com.mysql.jdbc.Driver") \
.option("url", "jdbc:mysql://pc-xxx.mysql.polardb.rds.aliyuncs.com:3306") \
.option("dbtable", dbtable) \
.option("user", "name") \
.option("password", "xxx*") \
.load().registerTempTable("polardbTableTemp")
#生成本次polardb表数据要写入的spark表的分区信息
(dtValue, hhValue, mmValue) = ("20191015", "13", str(05 * num))
#执行导数据sql
spark.sql("insert into sparktest partition(dt= %s ,hh= %s , mm=%s ) "
"select * from polardbTableTemp " % (dtValue, hhValue, mmValue)).show()
#删除临时的spark映射polardb表的catalog
spark.catalog.dropTempView("polardbTableTemp")
#查看下分区以及统计下数据,主要用来做测试验证,实际运行过程可以删除
spark.sql("show partitions sparktest").show(1000, False)
spark.sql("select count(*) from sparktest").show()
```

**归档作业上生产**
交互式查询定位为临时查询及调试,生产的作业还是建议使用spark作业的方式运行,使用文档参考。这里以pyspark作业为例:

/polardb/polardbArchiving.py 内容如下:
\*请左右滑动阅览
```
# -*- coding: UTF-8 -*-
from __future__ import print_function
import sys
from operator import add
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession \
.builder \
.appName("PolardbArchiving") \
.enableHiveSupport() \
.getOrCreate()
spark.sql("drop table sparktest").show()
# 创建一张spark表,三级分区,分别是天、小时、分钟,最后一级分钟用来存储具体的5分钟的一张polardb表达的数据。字段和polardb里面的类型一致
spark.sql("CREATE table sparktest(a int , b timestamp , c double ,dt string,hh string,mm string) "
"USING parquet PARTITIONED BY (dt ,hh ,mm )").show()
#本例子在polardb里面创建了databse test1,具有三张表test1 ,test2,test3,这里遍历这三张表,每个表存储spark的一个5min的分区
# CREATE TABLE `test1` (
# `a` int(11) NOT NULL,
# `b` time DEFAULT NULL,
# `c` double DEFAULT NULL,
# PRIMARY KEY (`a`)
# ) ENGINE=InnoDB DEFAULT CHARSET=utf8
for num in range(1, 4):
#构造polardb的表名
dbtable = "test1." + "test" + str(num)
#spark外表关联polardb对应的表
externalPolarDBTableNow = spark.read \
.format("jdbc") \
.option("driver", "com.mysql.jdbc.Driver") \
.option("url", "jdbc:mysql://pc-.mysql.polardb.rds.aliyuncs.com:3306") \
.option("dbtable", dbtable) \
.option("user", "ma,e") \
.option("password", "xxx*") \
.load().registerTempTable("polardbTableTemp")
#生成本次polardb表数据要写入的spark表的分区信息
(dtValue, hhValue, mmValue) = ("20191015", "13", str(05 * num))
#执行导数据sql
spark.sql("insert into sparktest partition(dt= %s ,hh= %s , mm=%s ) "
"select * from polardbTableTemp " % (dtValue, hhValue, mmValue)).show()
#删除临时的spark映射polardb表的catalog
spark.catalog.dropTempView("polardbTableTemp")
#查看下分区以及统计下数据,主要用来做测试验证,实际运行过程可以删除
spark.sql("show partitions sparktest").show(1000, False)
spark.sql("select count(*) from sparktest").show()
spark.stop()
```

分享到:
相关推荐
该晶体管采用先进的 TrenchFET® 技术,具有低导通电阻(RDS(on))特性,在 VGS=10V 时仅为 47mΩ,适用于多种移动计算设备中的负载开关、笔记本适配器开关以及 DC/DC 转换器等应用场合。 #### 二、主要特点 - **...
该器件特别适用于移动计算设备中的负载开关、笔记本适配器开关以及直流变换器等应用场景。PM509BA-VB具备以下主要特性: - **TrenchFET®技术**:通过先进的TrenchFET技术显著降低导通电阻(RDS(on))。 - **高可靠...
| 工作结温和存储温度范围 | TJ, Tstg | -55到150 | °C | | 焊接推荐(峰值温度) | - | 260 | - | - **脉冲宽度**≤300μs,占空比≤2% - **保证设计**,但不在生产测试范围内。 #### 热阻率额定值 | 参数 | ...
该 MOSFET 支持的最大 VDS(漏极-源极电压)为 -30V,最大 ID(连续漏极电流)为 -11A,并且在 VGS(栅极-源极电压)为 10V 时具有低至 10mΩ 的导通电阻 RDS(ON)。 #### 特点 - **无卤素**:符合 IEC 61249-2-21 ...
资源分类:Python库 所属语言:Python 资源全名:aws_cdk.aws_rds-1.100.0-py3-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
资源分类:Python库 所属语言:Python 资源全名:aws_cdk.aws_rds-1.137.0-py3-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
| 工作结温和储存温度范围 | TJ, Tstg | -55到150 | °C | ### 热阻额定值 | 参数 | 符号 | 典型值 | 最大值 | 单位 | |-------------------------------|-------|--------|--------|------| | 结至环境热阻(t ≤...
NCE3401AY-VB是一款采用SOT23封装的P-Channel沟道场效应晶体管(MOSFET),其主要特点是具有-30V的最大漏源电压、-5.6A的最大连续漏极电流以及低导通电阻(RDS(ON))。此MOSFET适用于多种应用场合,包括移动计算设备...
该晶体管具有60V的最大耐压、4A的最大连续电流以及在不同栅极驱动电压下的低导通电阻(RDS(ON)),使得其在多种电子设备中得到广泛应用。本文将详细介绍PA606BMG-VB的主要特性、规格参数以及典型应用场景。 #### ...
资源分类:Python库 所属语言:Python 资源全名:aws_cdk.aws_rds-1.45.0-py3-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
**PyPI 官网下载 | aws_cdk.aws_rds-1.86.0-py3-none-any.whl** PyPI(Python Package Index)是Python社区的官方软件包仓库,提供了一个平台,使得开发者可以发布、查找和安装Python模块。在本案例中,我们讨论的...
该产品由VBsemi生产,适用于多种移动计算设备中的负载开关、笔记本适配器开关以及DC/DC转换器等场合。本文将详细介绍该产品的关键特性、规格及应用范围。 #### 二、主要特点 - **TrenchFET® Power MOSFET技术**:...
- **低导通电阻**:在VGS=10V时,RDS(ON)仅为27mΩ。 - **高电流能力**:每个通道可承载的最大连续电流为6A。 - **温度范围广**:可在-55°C至+175°C的温度范围内稳定工作。 #### 二、技术参数 **绝对最大额定值*...
AWS CDK提供了一套丰富的构造函数,用于构建和配置这些资源,确保与AWS的最佳实践保持一致。 总之,`aws-cdk.aws-rds-1.82.0.tar.gz`是一个用于AWS CDK的Python库,专门处理Amazon RDS服务。通过这个库,开发者能够...
- 表面安装在1" x 1" FR4板上。 - 根据最大结温计算得出。封装限制电流为110 A。 #### 绝对最大额定值 绝对最大额定值定义了器件能够承受的最大工作条件。超出这些额定值可能会导致永久性损坏。请注意,这些额定值...
AP2322GN-HF-VB是一款高性能的N-Channel沟道SOT23封装MOSFET,具有较低的导通电阻RDS(on)、较高的击穿电压VDS和较大的连续排电流IDc。其采用了环保的无卤素材料,并通过了RoHS认证,适用于多种电子设备,尤其是DC/DC...
| 导通电阻(RDS(on)) | RDS(on) | VGS=10V, ID=10A | 0.014 | Ω | | VGS=4.5V, ID=10A | | 0.016 | Ω | | #### 动态参数 | 参数 | 符号 | 测试条件 | 典型值 | 单位 | |------------------------------|------...
### 3338-VB N-Channel SOT23 MOSFET 晶体管参数介绍与应用说明 #### 概述 3338-VB是一款N-Channel...在实际应用中,设计师应注意遵循制造商提供的规格书指导,确保正确使用该器件,以达到最佳性能并避免潜在损坏。