sqoop使用笔记

xxw0810

浏览: 45068 次
性别:
来自: 上海

最近访客更多访客>>

tangqin0206

mushroom_xiao

果金前端

whxhz

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

安装sqoop的前提是有一套hadoop环境。

1、去官网下载sqoop，下载地址http://apache.dataguru.cn/sqoop/1.4.5/，一定要下载与你hadoop版本一致的sqoop，比如‘sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz’中的‘hadoop-2.0.4’是指与hadoop2兼容的，
拷贝sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz到hadoop上，用户与启动hadoop的用户一样，解压，重命名为sqoop。

2、进入到sqoop/conf中，将sqoop-env-template.sh重命名为sqoop-env.sh，修改里面内容：

其中HBASE_HOME、HIVE_HOME、ZOOCFGDIR没有用到的话可以不配置。

3、在/etc/profile中配置sqoop的环境变量
export SQOOP_HOME=/home/hadoop/sqoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SQOOP_HOME/bin:$PATH

4、将mysql-connector-java-5.1.32-bin.jar驱动考入到sqoop/lib下面，注意，这里驱动的版本可能不兼容，5.1.32这个版本经过测试是可用的。

5、接下来就可以测试是否已经配置好了，列出mysql中所有数据库：

sqoop list-databases  --connect jdbc:mysql://192.168.1.87 --username root --password 123.com

6、将数据库中表CUSTOM_REGION导入到HDFS中

sqoop import --connect jdbc:mysql://192.168.1.87/china?
characterEncoding=utf-8 --username root --password 123.com --table 
CUSTOM_REGION -m 1 --target-dir /user/hadoop/TESTSQL

其中Sqoop默认会同时启动四个Map任务来加速数据导入，可以通过-m 1命令来强制只启动一个map任务，（-m,–num-mappers 启动N个map来并行导入数据，默认是4个，最好不要将数字设置为高于集群的节点数）；--target-dir 是指定讲数据存放的HDFS路径，其中“/user”是固定的，'hadoop'是当前用户，'TESTSQL'是数据存放目录，如果不指定，则会默认为表名，即/user/hadoop/CUSTOM_REGION。

7、将数据从HDFS中导入MYSQL表中

sqoop-export --connect jdbc:mysql://192.168.1.87/china?
characterEncoding=utf-8 --username root --password 123.com --table 
CUSTOM_REGION_TEMP -m 1 --export-dir /user/hadoop/CUSTOM_REGION

导出时，–connect,–table, –export-dir是必须设置的。
–export-dir是要导出的HDFS文件位置。如果不是绝对路径，指/user/username/datadir 。

经过测试，在伪分布式hadoop环境下，从MYSQL到HDFS一个G的数据量一个map时间是195S，在伪分布式环境下，map越多，时间越长；在一master二slave环境下，一个G的数据量一个map时间是96S，二个map时间是77S。

查看图片附件

分享到：

Java操作mongoDB | web项目中集成淘宝tddl配置

2014-09-26 16:08
浏览 970
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据开发中的Sqoop学习笔记(自己整理版).pdf: 笔记中详解介绍了在大数据开发学习过程中Sqoop相关知识点。包括Sqoop概述；Sqoop安装步骤；Sqoop测试使用；import 相关命令的操作；创建数据表，并导入数据；展示数据库sqoop中所有表；将MySQL数据导入到hdfs...

sqoop官方文档学习笔记: Sqoop是一个用于在Hadoop和关系...您可以使用Sqoop将关系数据库管理系统（RDBMS）（如MySQL或Oracle或大型机）中的数据导入Hadoop分布式文件系统（HDFS），转换Hadoop MapReduce中的数据，然后将数据导出回RDBMS 。

Hadoop hbase hive sqoop集群环境安装配置及使用文档: Hadoop hbase hive sqoop集群环境安装配置及使用文档

Sqoop数据采集工具简介、安装、使用学习笔记（配合Hive和Hbase）: 学习数据采集工具（ETL）Sqoop并使用多年后，写的一个学习笔记，整理了基本的要点，和操作使用手册，方便初学者快速掌握。

安装笔记：hadoop+hbase+sqoop2+phoenix+kerberos: 利用两台云主机（真实环境至少三台）安装hadoop+hbase+sqoop2+phoenix+kerberos的过程笔记，从伪分布式到kerberos认证。

hadoop搭建 zookeeper_hbase_hive_sqoop_mysql_spark_hdfs.doc: hadoop环境搭建，涉及zookeeper、hbase、hive、mysql、kafka等服务的搭建测试运用。

java连接sqoop源码-hadoopdev:开发者: 笔记 Hive CSV SerDe 使用 OpenCSV 库，因此您也可以尝试一下。 3.配置Flume使用NetCat Source消费事件 Flume 应该把事件放到 HDFS 目录events/${year}/${month}/${day} 尝试将 3000 多个事件分几批放入 HDFS 4.创建...

java连接sqoop源码-aws-big-data-cert:AWS大数据专业认证学习笔记: java连接sqoop源码AWS 大数据专业证书研究免责声明：本指南是我学习的尾声，因此并不完整，主要集中在琐事/问题上。取自 . 数据采集服务说明 200 毫秒延迟（1 个标准消费者），70 毫秒，增强型扇出 HTTP2 推送...

妳那伊抹微笑_云计算之Hadoop完美笔记2.0: 妳那伊抹微笑自己整理的Hadoop笔记，有以下内容： Day1 搭建伪分布实验环境 Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、...

大数据开发之Hbase企业应用及与MapReduce集成实战教程（视频+讲义+笔记+配置+代码+练习）: │ Day1611_Hbase与Sqoop集成使用.mp4 │ Day1612_Hbase完全分布式集群的部署配置.mp4 ├─03_笔记 │ Day16[Hbase 企业应用及与MapReduce集成].txt ├─04_代码 ├─06_配置 └─08_作业 Day16[Hbase 企业应用及...

Hadoop学习文档笔记，基本原理 HDFS: 学习时候的笔记还有简单例子代码 111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111

MartinHub-notes：:hundred_points:大数据开发笔记（包括：Hadoop，Hive，HBase，Phoenix，Scala，Spark，Flink，Kafka，Azkaban，Flume，Sqoop，Oozie，DataX等）。Java开发笔记（Java基础，Spring Boot， Spring Cloud，Spring Security，MyBatis-plus，Swagger-UI，Druid，JWT，Lombok）: MartinHub的学习笔记关于我 MartinHub :smiling_face_with_sunglasses: ，，热爱生活！热爱技术！微信公众号【MartinHub】个人微信号【MartinHub】项目介绍大数据 Java 数据库 Linux 杂记 :bullseye: :hot_...

hadoop笔记: 史上最全hadoop笔记,组件描述 : 1. hdfs : 就是一个文件系统 ,可以存储海量的数据 2. mapreduce : 从海量数据中 ,通过一定的算法 ,计算出有用信息 3. hive : 就是 sql 语句解释器 ,接收用户输入的 sql 语句 ,...

大数据学习笔记: 文本详细分析了hadoop的基本构成和原理，hbase的基本原理和常用命令，hive的原理和常用命令等。

大数据相关搭建笔记.zip: hadoop（hive hbase HA） + spark + sqoop + flume + Ambari

java连接sqoop源码-LearningHadoop2:学习Hadoop2: java连接sqoop源码Hadoop 2 学习笔记来自在线课程的综合说明：大数据 -从加州大学圣地亚哥分校释放海量数据集中的价值 Randal Scott King学习 Hadoop 2 来自加州大学圣地亚哥分校的Hadoop 平台和应用程序框架目录...

9_辅助框架.docx: 这是大数据用到的 sqoop+flume +hue 的入门学习笔记，有需要的可以下载。

手把手教你搭建分布式Hadoop集群视频教程（视频+讲义+笔记+软件+配置）: 手把手教你搭建分布式Hadoop家族集群视频教程（视频+讲义+笔记+配置），内容包括 Hadoop，SQOOP，Hive,Hbase的安装配置及集群搭建。内容包括但不限于： 01_回顾集群架构及配置集群时间同步 02_配置主节点与从节点...

Spark_Hive:小笔记: 数据湖Spark2-Shell $ spark2-shell-驱动程序内存25G --executor-内存25G --executor-cores 20 $ spark-shell --master local [*] --driver-memory 15G --executor-memory 15G --executor-cores 20Sqoop引入MySQL...

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论