下载源码
svn checkout http://code.taobao.org/svn/datax/trunk
-环境
root@datanode158:~# java -version java version "1.7.0_45" root@datanode158:~# python -V Python 2.7.3 root@datanode158:~# ant -version Apache Ant(TM) version 1.8.2 compiled on December 3 2011 root@datanode158:~# g++ --version g++ (Ubuntu/Linaro 4.6.3-1ubuntu5) 4.6.3 root@datanode158:~# rpm --version RPM version 4.9.1.1 root@datanode158:~# dos2unix -V dos2unix 5.3.1 (2011-08-09) With native language support. LOCALEDIR: /usr/share/locale
步骤:
1、进入datax的rpm目录:/datax/rpm
在root下运行:rpmbuild --ba t_dp_datax_engine.spec
会出现一堆FileNotFound的问题
RPM build errors: File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/bin File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/conf File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/engine File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/common File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/libs File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/logs File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/jobs
开源也不好好修改下源码,搞到一头雾水=,=
修改t_dp_datax_engine.spec如下:
summary: engine provides core scheduler and data swap storage for DataX Name: t_dp_datax_engine Version: 1.0.0 Release: 1 Group: System License: GPL AutoReqProv: no BuildArch: noarch %define dataxpath /home/taobao/datax //改成%{buildroot}/home/taobao/datax %define vdataxpath /home/taobao/datax //添加,其中vdataxpath下面要用 %description DataX Engine provides core scheduler and data swap storage for DataX %prep cd ${OLDPWD}/../ export LANG=zh_CN.UTF-8 ant dist %build %install dos2unix ${OLDPWD}/../release/datax.py mkdir -p %{dataxpath}/bin mkdir -p %{dataxpath}/conf mkdir -p %{dataxpath}/engine mkdir -p %{dataxpath}/common mkdir -p %{dataxpath}/libs mkdir -p %{dataxpath}/jobs mkdir -p %{dataxpath}/logs cp ${OLDPWD}/../jobs/sample/*.xml %{dataxpath}/jobs cp ${OLDPWD}/../release/*.py %{dataxpath}/bin/ cp -r ${OLDPWD}/../conf/*.properties %{dataxpath}/conf cp -r ${OLDPWD}/../conf/*.xml %{dataxpath}/conf cp -r ${OLDPWD}/../build/engine/*.jar %{dataxpath}/engine cp -r ${OLDPWD}/../build/common/*.jar %{dataxpath}/common cp ${OLDPWD}/../c++/build/libcommon.so %{dataxpath}/common cp -r ${OLDPWD}/../libs/commons-io-2.0.1.jar %{dataxpath}/libs cp -r ${OLDPWD}/../libs/commons-lang-2.4.jar %{dataxpath}/libs cp -r ${OLDPWD}/../libs/dom4j-2.0.0-ALPHA-2.jar %{dataxpath}/libs cp -r ${OLDPWD}/../libs/jaxen-1.1-beta-6.jar %{dataxpath}/libs cp -r ${OLDPWD}/../libs/junit-4.4.jar %{dataxpath}/libs cp -r ${OLDPWD}/../libs/log4j-1.2.16.jar %{dataxpath}/libs cp -r ${OLDPWD}/../libs/slf4j-api-1.4.3.jar %{dataxpath}/libs cp -r ${OLDPWD}/../libs/slf4j-log4j12-1.4.3.jar %{dataxpath}/libs %post chmod -R 0777 %{dataxpath}/jobs //改成chmod -R 0777 %{vdataxpath}/jobs chmod -R 0777 %{dataxpath}/logs //改成chmod -R 0777 %{vdataxpath}/logs %files %defattr(0755,root,root) %{dataxpath}/bin // 改成%{vdataxpath}/bin %{dataxpath}/conf //改成%{vdataxpath}/conf %{dataxpath}/engine //改成%{vdataxpath}/engine %{dataxpath}/common //改成%{vdataxpath}/common %{dataxpath}/libs //改成%{vdataxpath}/libs %attr(0777,root,root) %dir %{dataxpath}/logs //改成%attr(0777,root,root) %{vdataxpath}/logs %attr(0777,root,root) %dir %{dataxpath}/jobs //改成 %attr(0777,root,root) %{vdataxpath}/jobs %changelog * Fri Aug 20 2010 meining - Version 1.0.0
再次编译
Processing files: t_dp_datax_engine-1.0.0-1.noarch Checking for unpackaged file(s): /usr/lib/rpm/check-files /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64 Wrote: /root/rpmbuild/SRPMS/t_dp_datax_engine-1.0.0-1.src.rpm Wrote: /root/rpmbuild/RPMS/noarch/t_dp_datax_engine-1.0.0-1.noarch.rpm Executing(%clean): /bin/sh -e /var/tmp/rpm-tmp.y3UwSl + umask 022 + cd /root/rpmbuild/BUILD + /bin/rm -rf /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64 + exit 0
进入:/root/rpmbuild/RPMS/noarch
发布
rpm -ivh t_dp_datax_engine-1.0.0-1.noarch.rpm
至此安装完成!
测试
root@datanode158:~/rpmbuild/RPMS/noarch# python /home/taobao/datax/bin/datax.py -e true Taobao DataX V1.0 Data Source List : 0 mysql 1 sqlserver 2 http 3 fake 4 stream 5 oracle 6 hdfs 7 hbase Please choose [0-7]: 2 Data Destination List : 0 stream 1 mysql 2 hdfs 3 oracle 4 hbase Please choose [0-4]: 0 Generate /home/taobao/datax/jobs/httpreader_to_streamwriter_1396012010274.xml successfully .
配置/home/taobao/datax/jobs/httpreader_to_streamwriter_1396012010274.xml
<?xml version="1.0" encoding="UTF-8"?> <jobs> <job id="httpreader_to_streamwriter_job"> <reader> <plugin>httpreader</plugin> <!-- default:; description:how to split url mandatory:false name:URLDelimiter --> <param key="urldelimiter" value=";"/> <!-- default:\t description:separator to split urls mandatory:false name:fieldSplit --> <param key="field_split" value="\t"/> <!-- default:UTF-8 range:UTF-8|GBK|GB2312 description:encode mandatory:false name:encoding --> <param key="encoding" value="UTF-8"/> <!-- default:\N description:replace this nullString to null mandatory:false name:nullString --> <param key="null_string" value="\N"/> <!-- range:legal http url description:url to fetch data mandatory:true name:httpURLs --> <param key="httpurls" value="http://www.baidu.com"/> <!-- default:1 range:1-100 description:concurrency of the job mandatory:false name:concurrency --> <param key="concurrency" value="1"/> </reader> <writer> <plugin>streamwriter</plugin> <!-- default:\t description:seperator to seperate field mandatory:false name:fieldSplit --> <param key="field_split" value="\t"/> <!-- default:UTF-8 range:UTF-8|GBK|GB2312 description:stream encode mandatory:false name:encoding --> <param key="encoding" value="UTF-8"/> <!-- range: description:print result with prefix mandatory:false name:prefix --> <param key="prefix" value="baidu"/> <!-- default:true range: description:print the result mandatory:false name:print --> <param key="print" value="true"/> <!-- default: range: description:replace null with the nullchar mandatory:false name:nullchar --> <param key="nullchar" value="hello"/> <!-- default:1 range:1 description:concurrency of the job mandatory:false name:concurrency --> <param key="concurrency" value="1"/> </writer> </job> </jobs>
自动生成的 xml 文件中,有“?” 标识的 value 值,表示此处用户必须配置,其他地方的默认值用户可以根据自己需要作修改
执行
DataX 的运行命令如下: /home/taobao/datax/bin/datax.py job.xml 其中/home/taobao/datax/bin/datax.py 是 DataX 命令行的 python 封装,该执行脚本 是整个 DataX 的程序入口,Job.xml 是该 job 的配置文件。
如上述配置,该程序会将百度首页download下来
................百度页面html、js代码 2014-03-28 21:13:02,204 [main] INFO schedule.Engine - DataX Reader post work begins . 2014-03-28 21:13:02,204 [main] INFO schedule.Engine - DataX Reader post work ends . 2014-03-28 21:13:02,204 [main] INFO schedule.Engine - DataX Writers post work begins . 2014-03-28 21:13:02,205 [main] INFO schedule.Engine - DataX Writers post work ends . 2014-03-28 21:13:02,205 [main] INFO schedule.Engine - DataX job succeed . 2014-03-28 21:13:02,210 [main] INFO schedule.Engine - DataX starts work at : 2014-03-28 21:13:00 DataX ends work at : 2014-03-28 21:13:02 Total time costs : 2s Average byte speed : 26KB/s Average line speed : 1L/s Total transferred records : 1 Total discarded records : 0
相关推荐
DataX是阿里巴巴开源的一款高效、稳定、强大的数据同步工具,它支持多种数据源之间的数据迁移。在本案例中,我们关注的是DataX中的ClickHouse Reader插件,用于从ClickHouse数据库中读取数据并进行进一步的操作。 ...
文档涵盖了离线数据与实时数据的处理流程,同时提供了一个具体的应用案例,帮助读者理解整个过程。 #### 数据进入MaxCompute的主要方式 在进行数据处理之前,了解数据如何被高效地迁移到MaxCompute是非常关键的...
cmd-bat-批处理-脚本-Progress bar 1.zip
该资源是小红书 2024 年度Java 编程开发面试题,内容非常详细,适合应届毕业生和准备寻求更高发展的Java工程师,希望给你们带来帮助。
内容概要:本文详细介绍了基于RISC-V指令集的五级流水线CPU设计及其验证过程。首先,文章阐述了RISC-V指令集的特点及其在CPU设计中的优势,接着深入解析了每个流水线阶段(取指、解码、执行、访存、写回)的Verilog源代码实现。此外,提供了汇编验证代码用于测试CPU的功能,并附带详细的说明文档和PPT,确保设计的完整性和易理解性。最后,在Vivado平台上进行了全面的仿真和实际硬件测试,验证了设计的正确性和性能。 适合人群:从事嵌入式系统设计、CPU架构研究及相关领域的工程师和技术人员。 使用场景及目标:①理解和掌握RISC-V指令集在五级流水线CPU设计中的应用;②学习Verilog语言在CPU硬件设计中的具体实现方法;③通过汇编验证代码测试CPU功能,确保设计的可靠性。 其他说明:本文不仅提供了完整的Verilog源代码和汇编验证代码,还包括详细的说明文档和PPT,有助于读者更好地理解和实践CPU设计过程。
本程序实现了51单片机与手机之间的字符及数字通信功能,且代码中配有详尽的注释说明。关于通信原理的详细阐述,可在我的其他相关文章中查阅。
cmd-bat-批处理-脚本-run dialogue.zip
内容概要:本文详细介绍了多智能体编队技术,特别是针对4智能体和8智能体的点对点转换分布式模型预测控制。首先概述了多智能体编队的概念及其广泛应用,如无人驾驶、无人机编队等。接着深入探讨了分布式模型预测控制的方法论,强调每个智能体依据自身模型和邻近智能体信息进行预测并制定控制策略,从而提升系统灵活性和鲁棒性。随后阐述了点对点转换的具体机制,即智能体间通过高效的信息交换实现状态间的平滑过渡。最后展示了简化的Python代码示例来解释这一过程,并提供了相关领域的权威参考文献。 适合人群:对多智能体系统、分布式控制系统感兴趣的科研人员和技术开发者。 使用场景及目标:适用于希望深入了解多智能体编队控制理论的研究者以及从事无人驾驶、无人机编队等相关项目的技术人员。目标在于掌握分布式模型预测控制的基本原理及其在实际工程中的应用。 其他说明:文中提供的代码仅为概念验证性质,实际部署时还需考虑更多因素如网络延迟、数据同步等。此外,附带的参考文献为读者进一步学习提供了宝贵的资料来源。
2023年系统分析师真题及解析
IMG_20250521_201207.jpg
内容概要:本文探讨了利用鲸鱼算法(Whale Optimization Algorithm)对光伏和风电项目的选址和定容进行优化的方法。鲸鱼算法是一种新颖的智能算法,它模仿座头鲸的捕食行为,具有较少的参数调整需求和强大的寻优能力。文中详细介绍了该算法的核心机制,如气泡网攻击策略,并展示了如何将其应用于新能源项目的选址定容问题中。具体来说,通过定义合适的目标函数来衡量不同方案的表现,包括网损、节点电压偏差和投资成本等因素。此外,还讨论了如何通过调整权重系数来平衡各个目标之间的关系,从而获得最佳解决方案。最终,通过对实验结果的分析,证明了鲸鱼算法在处理此类多维度优化问题上的优越性能。 适合人群:从事新能源规划、电力系统工程及相关领域的研究人员和技术人员。 使用场景及目标:适用于需要对光伏和风电项目进行科学合理的选址和定容决策的情境下,旨在提高能源利用效率的同时降低成本,确保电网稳定性和可靠性。 其他说明:文中提供了具体的Python代码示例,帮助读者更好地理解和实现鲸鱼算法的应用。同时强调了在实际操作过程中应注意的一些关键因素,如数据预处理方法的选择以及参数设置的影响等。
内容概要:本文详细介绍了威纶通标准精美模板,一套专为A2触摸屏程序开发提供的可直接套用的界面模板。模板涵盖了多个实用功能界面,如配方管理、报警记录、操作记录、登录、设备使用说明、参数设置、系统设置、权限设置、趋势显示、电机设置、IO监控、工位用时、文档设置和维修界面。每个界面均经过精心设计,确保界面清新整洁,不带复杂的宏指令,便于操作和维护。此外,模板还支持XY曲线、树状图、数据统计等功能,能够灵活配置和调用。这套模板不仅适用于快速开发,也为新手和在校生提供了宝贵的学习资源。 适用人群:工业自动化领域的开发人员、工程师、新手和在校学生。 使用场景及目标:① 开发人员可以通过直接套用或复制模板,快速完成A2触摸屏程序开发;② 新手和在校生可以利用模板学习触摸屏程序的设计和实现,掌握工业自动化领域的关键技能。 其他说明:模板中的功能和界面设计充分考虑了工业自动化的需求,确保了系统的稳定性和实用性。
一种三元锂电池析锂特性以及检测方法研究.zip
大规模无线传感 器网络中稀疏信号的数据收集策略.pdf
cmd-bat-批处理-脚本-One_Click_StockPrice.zip
cmd-bat-批处理-脚本-installed-package-contents.zip
2025年网络媒体项目解决方案.docx
该数据集为2010-2023年中国A股上市公司管理层情感语调的年度面板数据,覆盖45,320条样本,数据源自年报及半年报的"管理层讨论与分析"部分。通过构建中文金融情感词典(融合《知网情感分析用词典》与L&M金融词汇表),采用文本分析方法计算情感语调指标,包括:正面/负面词汇数量、文本相似度、情感语调1((积极词-消极词)/总词数)和情感语调2((积极词-消极词)/(积极词+消极词))。同时包含盈利预测偏差、审计意见类型等衍生指标,可用于研究信息披露质量、市场反应及代理问题。该数据复刻了《管理世界》《财经研究》等期刊的变量构建方法,被应用于分析语调操纵对债券市场的影响,学术常用度与稀缺度较高。
cmd-bat-批处理-脚本-green.zip
数据文档 背景描述 心脏病是全球主要的健康威胁之一,也是导致死亡的主要原因。及早识别心脏病风险因素和预测可能的心脏问题对于预防和治疗至关重要。该数据集收集了与心脏健康相关的多种生理指标和实验室检查结果,旨在帮助开发能够区分心脏病阳性和阴性患者的预测模型。 通过分析这些数据,医疗专业人员和研究人员可以更好地理解不同因素(如年龄、性别、血压、血糖和心肌标志物)对心脏病发展的影响,从而制定更精准的诊断和治疗方案。 数据说明 字段 说明 Age 患者年龄 Gender 性别(1=男性,0=女性) Heart rate 心率(每分钟心跳次数) Systolic blood pressure 收缩压(毫米汞柱) Diastolic blood pressure 舒张压(毫米汞柱) Blood sugar 血糖水平(毫克/分升) CK-MB 肌酸激酶同工酶水平(心肌损伤标志物) Troponin 肌钙蛋白水平(心肌损伤特异性标志物) Result 诊断结果(positive=患有心脏病,negative=未患心脏病) 问题描述 该数据集适用于多种分析和预测场景,可以帮助解决以下问题: 心脏病风险预测: 基于生理指标和生化标志物预测个体患心脏病的风险。 关键指标识别: 确定对心脏病诊断最有预测价值的生理和生化指标。 人口统计学分析: 研究年龄和性别与心脏病发生率之间的