`

sqoop-javabean-sqoop脚本分隔符失效问题

 
阅读更多



  

 a 介绍背景:

这边我的sqoop抽数流程是这样

1 将关系库对应表通过sqoop导出成javabean

2 将javabean在eclipse中针对字段做一些预处理,比如日期字段为Null下设置初始值

3 将处理好的javabean打包,后通过sqoop将关系数据库数据导出时指定这个包和对应类即可

 

这样做的目的是在导数的过程中,sqoop借助hadoop的力量将原数据做初始化处理后倒入到hdfs

 

 

b sqoop将关系型数据表导出成javabean:

 

sqoop codegen --connect jdbc:oracle:thin:@192.168.201.28:1521:orcl --username SHANGBIAO --password 123456 --table F_TM_TRADEMARK  --class-name com.chinadaas.gsinfo.sqoop.oracle.F_TM_TRADEMARK  --outdir /opt/sqoopbean

 语句执行后,生成的文件夹层次为

com.chinadaas.gsinfo.sqoop.oracle.F_TM_TRADEMARK 

生成到linux目录的/opt/sqoopbean下

 

c 对应javabean代码贴出如下

 

   注意1:将对应导出的javabean放在eclipse后,在方法readFields(ResultSet __dbResults)内针对每个字段对需要的预处理,然后将工程打成jar包,供d流程处理。

 

public class F_TM_PROCESS extends SqoopRecord  implements DBWritable, Writable {

........

public void readFields(ResultSet __dbResults) throws SQLException {
    this.__cur_result_set = __dbResults;
    
    this.MARKCODE = JdbcWritableBridge.readString(1, __dbResults);
    this.MARKCODE = BasicOperation.strFormat(this.MARKCODE);
    
    this.MARKCODE_KEY = JdbcWritableBridge.readString(2, __dbResults);
    this.MARKCODE_KEY = BasicOperation.strFormat(this.MARKCODE_KEY);

   .......

}

 .......

private final DelimiterSet __outputDelimiters = new DelimiterSet((char) 9, (char) 10, (char) 0, (char) 0, false);   

}


public class BasicOperation {  
	public static String strFormat(String value) {
		if (value == null)
			return "";

		value = value.replaceAll("\r|\n", " "); // 替换回车、换行
		value = value.replaceAll("\u0001", ""); // 替换标题开始
		value = value.trim();

		return value;
	}
                  .....
}

 

 

 注意2:通过 sqoop import --jar-file  --class-name  方式导出oracle数据到hdfs的时候,因为带有了

 --jar-file  --class-name  ,所以--fields-terminated-by '\t' 方式是不生效的,(注意如果没有--jar-file  --class-name   则不会出现),这点可以查看生成的javabean的代码:

这时候已经把分隔符写死成,

private final DelimiterSet __outputDelimiters = new DelimiterSet((char) 44, (char) 10, (char) 0, (char) 0, false);

 

 

因此需要在javabean中修改上述代码,比如你的实际表字段中含有 空格或者, 不能使用默认的,作为分隔符写到hdfs上,想以 \t 那么就需要修改成:

 

private final DelimiterSet __outputDelimiters = new DelimiterSet((char) 9, (char) 10, (char) 0, (char) 0, false); 

 

这样,oracle的字段写到hdfs上后字段间隔就变成了\t
此时可以将javabean所在的工程导出成Jar后在通过jd-gui.exe 反编译查看你的 \t是否已经展示,
如下图是我修改后的:


 
 

 

 

sqoop import \
--connect $ORCL_CONNECTOR \
--username $ORCL_USERNAME \
--password $ORCL_PASSWORD \
--table $TABLENAME \
--target-dir $HDFSPATH \
--m $MAP \
--columns $COLUMNS \
--fields-terminated-by '\t' \   
--jar-file ../../lib/sqoop-import.jar \
--class-name com.chinadaas.gsinfo.sqoop.oracle.$TABLENAME

 

导出到hdfs后,通过hive创建外表关联hdfs的写法如下:

 

drop table if exists F_LIUCHENG_TMP_HDFS_EXT_20150717;
create external table F_LIUCHENG_TMP_HDFS_EXT_20150717 (
MARKCODE string, MARKCODE_KEY string, UNIONTYPECODE string, XIANGMU string, LIUCHENGDATE string, CREATEDATE string, ISDELITEM string, REMARK string, HASDOWN string, FLIUC_IDT string, FLIUC_UDT string, FLIUC_STATUS string, FLIUC_ID string, FLIUC_SID string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LOCATION '/tmp/oracle_20150717/F_LIUCHENG_TMP';

 

 

这样,sqoop导出的字段就和hive的字段关联起来,数值也会一一对应.

 

其中, char码值对应大全参考链接如下: char码值对应列表大全

 

 d sqoop从oracle倒数的时候 oracle的用户名必须大写,否则会报错如下:

 

报错为:  
15/08/12 19:12:40 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.IllegalArgumentException: Attempted to generate class with no columns!  
java.lang.IllegalArgumentException: Attempted to generate class with no columns!  
        at org.apache.sqoop.orm.ClassWriter.generateClassForColumns(ClassWriter.java:1273)  
        at org.apache.sqoop.orm.ClassWriter.generate(ClassWriter.java:1153)  
        at org.apache.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:82)  
        at org.apache.sqoop.tool.CodeGenTool.run(CodeGenTool.java:99)  
        at org.apache.sqoop.Sqoop.run(Sqoop.java:145)  
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)  
        at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:181)  
        at org.apache.sqoop.Sqoop.runTool(Sqoop.java:220)  
        at org.apache.sqoop.Sqoop.runTool(Sqoop.java:229)  
        at org.apache.sqoop.Sqoop.main(Sqoop.java:238)  
   
导数的时候出错: ERROR tool.ImportTool: Imported Failed: Attempted to generate class with no columns!  

 

通过sqoop导出的 F_TM_TRADEMARK.java 见附件

 

  • 大小: 75.2 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics