Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
安装sqoop的前提是有一套hadoop环境。
1、去官网下载sqoop,下载地址http://apache.dataguru.cn/sqoop/1.4.5/,一定要下载与你hadoop版本一致的sqoop,比如‘sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz’中的‘hadoop-2.0.4’是指与hadoop2兼容的,
拷贝sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz到hadoop上,用户与启动hadoop的用户一样,解压,重命名为sqoop。
2、进入到sqoop/conf中,将sqoop-env-template.sh重命名为sqoop-env.sh,修改里面内容:
其中HBASE_HOME、HIVE_HOME、ZOOCFGDIR没有用到的话可以不配置。
3、在/etc/profile中配置sqoop的环境变量
export SQOOP_HOME=/home/hadoop/sqoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SQOOP_HOME/bin:$PATH
4、将mysql-connector-java-5.1.32-bin.jar驱动考入到sqoop/lib下面,注意,这里驱动的版本可能不兼容,5.1.32这个版本经过测试是可用的。
5、接下来就可以测试是否已经配置好了,列出mysql中所有数据库:
sqoop list-databases --connect jdbc:mysql://192.168.1.87 --username root --password 123.com
6、将数据库中表CUSTOM_REGION导入到HDFS中
sqoop import --connect jdbc:mysql://192.168.1.87/china? characterEncoding=utf-8 --username root --password 123.com --table CUSTOM_REGION -m 1 --target-dir /user/hadoop/TESTSQL
其中Sqoop默认会同时启动四个Map任务来加速数据导入,可以通过-m 1命令来强制只启动一个map任务,(-m,–num-mappers 启动N个map来并行导入数据,默认是4个,最好不要将数字设置为高于集群的节点数 );--target-dir 是指定讲数据存放的HDFS路径,其中“/user”是固定的,'hadoop'是当前用户,'TESTSQL'是数据存放目录,如果不指定,则会默认为表名,即/user/hadoop/CUSTOM_REGION。
7、将数据从HDFS中导入MYSQL表中
sqoop-export --connect jdbc:mysql://192.168.1.87/china? characterEncoding=utf-8 --username root --password 123.com --table CUSTOM_REGION_TEMP -m 1 --export-dir /user/hadoop/CUSTOM_REGION
导出时,–connect,–table, –export-dir是必须设置的。
–export-dir是要导出的HDFS文件位置。如果不是绝对路径,指/user/username/datadir 。
经过测试,在伪分布式hadoop环境下,从MYSQL到HDFS一个G的数据量一个map时间是195S,在伪分布式环境下,map越多,时间越长;在一master二slave环境下,一个G的数据量一个map时间是96S,二个map时间是77S。
相关推荐
笔记中详解介绍了在大数据开发学习过程中Sqoop相关知识点。 包括Sqoop概述;Sqoop安装步骤;Sqoop测试使用;import 相关命令的操作;创建数据表,并导入数据; 展示数据库sqoop中所有表;将MySQL数据导入到hdfs...
Sqoop是一个用于在Hadoop和关系...您可以使用Sqoop将关系数据库管理系统(RDBMS)(如MySQL或Oracle或大型机)中的数据导入Hadoop分布式文件系统(HDFS),转换Hadoop MapReduce中的数据,然后将数据导出回RDBMS 。
Hadoop hbase hive sqoop集群环境安装配置及使用文档
学习数据采集工具(ETL)Sqoop并使用多年后,写的一个学习笔记,整理了基本的要点,和操作使用手册,方便初学者快速掌握。
利用两台云主机(真实环境至少三台)安装hadoop+hbase+sqoop2+phoenix+kerberos的过程笔记,从伪分布式到kerberos认证。
hadoop环境搭建,涉及zookeeper、hbase、hive、mysql、kafka等服务的搭建测试运用。
笔记 Hive CSV SerDe 使用 OpenCSV 库,因此您也可以尝试一下。 3.配置Flume使用NetCat Source消费事件 Flume 应该把事件放到 HDFS 目录events/${year}/${month}/${day} 尝试将 3000 多个事件分几批放入 HDFS 4.创建...
java连接sqoop源码AWS 大数据专业证书研究 免责声明:本指南是我学习的尾声,因此并不完整,主要集中在琐事/问题上。 取自 . 数据采集 服务说明 200 毫秒延迟(1 个标准消费者),70 毫秒,增强型扇出 HTTP2 推送...
妳那伊抹微笑自己整理的Hadoop笔记,有以下内容: Day1 搭建伪分布实验环境 Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、...
│ Day1611_Hbase与Sqoop集成使用.mp4 │ Day1612_Hbase完全分布式集群的部署配置.mp4 ├─03_笔记 │ Day16[Hbase 企业应用及与MapReduce集成].txt ├─04_代码 ├─06_配置 └─08_作业 Day16[Hbase 企业应用及...
学习时候的笔记 还有简单例子代码 111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111
MartinHub的学习笔记 关于我 MartinHub :smiling_face_with_sunglasses: ,,热爱生活!热爱技术! 微信公众号【MartinHub】 个人微信号【MartinHub】 项目介绍 大数据 Java 数据库 Linux 杂记 :bullseye: :hot_...
史上最全hadoop笔记,组件描述 : 1. hdfs : 就是一个文件系统 ,可以存储海量的数据 2. mapreduce : 从海量数据中 ,通过一定的算法 ,计算出有用信息 3. hive : 就是 sql 语句解释器 ,接收用户输入的 sql 语句 ,...
文本详细分析了hadoop的基本构成和原理,hbase的基本原理和常用命令,hive的原理和常用命令等。
hadoop(hive hbase HA) + spark + sqoop + flume + Ambari
java连接sqoop源码Hadoop 2 学习笔记 来自在线课程的综合说明: 大数据 -从加州大学圣地亚哥分校释放海量数据集中的价值 Randal Scott King学习 Hadoop 2 来自加州大学圣地亚哥分校的Hadoop 平台和应用程序框架 目录...
这是大数据用到的 sqoop+flume +hue 的入门学习笔记,有需要的可以下载。
手把手教你搭建分布式Hadoop家族集群视频教程(视频+讲义+笔记+配置),内容包括 Hadoop,SQOOP,Hive,Hbase的安装配置及集群搭建。内容包括但不限于: 01_回顾集群架构及配置集群时间同步 02_配置主节点与从节点...
数据湖Spark2-Shell $ spark2-shell-驱动程序内存25G --executor-内存25G --executor-cores 20 $ spark-shell --master local [*] --driver-memory 15G --executor-memory 15G --executor-cores 20Sqoop引入MySQL...