`

bboss hadoop hdfs大数据抽取工具

阅读更多
bboss大数据抽取工具功能特点如下:

  • 实现db到hadoop hdfs数据导入功能,提供高效的分布式并行处理能力,可以采用数据库分区、按字段分区、分页方式并行批处理抽取db数据到hdfs文件系统中;能有效解决按字段分区抽取数据时,各分区数据不均匀导致作业任务处理节点负载不均衡的问题。
  • 灵活的作业任务处理模式:可以增量方式执行作业任务,作业可以停止后重新执行,重新执行时只需执行未完成的作业任务,也可以全部重新执行所有作业任务;当停止作业后,可以在原有作业切分的基础进一步切分出子任务,然后再重新执行作业,提升系统处理数据效率。
  • 数据处理服务器为每个作业分配独立的作业任务处理工作线程和任务执行队列,作业之间互不干扰
  • 采用异步事件驱动模式来管理和分发作业指令、采集作业状态数据。
  • 通过管理监控端,可以实时监控作业在各个数据处理节点作业任务的实时运行状态,查看作业的历史执行状态,方便地实现提交新的作业、重新执行作业、停止正在执行的作业、清除作业执行监控数据、同步作业任务执行状态等操作


工具架构拓扑图:




所采用的技术体系:

  • Bboss ioc:轻量级ioc容器,ioc扩展属性配置语法
  • Bboss持久层:高效数据查询行处理器,灵活动态数据源管理(连接池数据源/非连接池数据源),表分区信息查询等,动态创建作业配置表和作业监控记录表
  • Bboss分布式事件框架:基于JGroups,提供异步分布式事件驱动模型,动态管理作业节点(服务节点和数据处理节点),包括作业节点的动态加入、动态离开等;在管理节点、数据处理节点之间分发和接收各种作业处理指令事件
  • Bboss mvc:实现监控管理应用模块,在监控服务节点中,通过mvc 容器启动监听器启动作业管理节点
  • Bboss序列化组件:用来将作业监控数据序列化存储到sqllite中的作业监控表,同时在查看作业执行历史时将序列化存储的作业监控数据还原为对象状态的监控对象,便于界面展示
  • Bboss 标签库,jquery等:实现监控管理应用的视图层
  • Hadoop Hdfs客户端:用来连接hadoop hdfs文件系统
  • Sqllite:在监控节点中保存作业配置,保存作业执行状态数据
  • Jetty:运行监控管理应用模块的web应用容器
  • Bboss应用执行容器:用来启动作业管理监控应用、作业数据处理应用、启动jetty容器

bboss大数据抽取工具源码github托管地址:

https://github.com/bbossgroups/bigdatas

版本源码和发布包下载地址:

https://github.com/bbossgroups/bigdatas/releases

操作使用文档:大数据抽取工具管理操作手册.docx





  • 大小: 294.7 KB
分享到:
评论

相关推荐

    大数据抽取工具管理操作手册1

    《大数据抽取工具管理操作手册1》是一份详细指导如何管理和操作大数据抽取工具的文档,主要针对BBOSS BigData平台。这份手册由尹标平撰写,旨在帮助用户理解和使用该平台进行高效的数据处理。 首先,手册从概述部分...

    bigdatas:这是一个db-hdfs工具,用于将大型数据库数据传输到诸如sqoop之类的hadoop hdfs,但是bboss bigdata工具是非常好的监视器和事件驱动模型,并且性能高,支持分布式执行程序任务

    bboss group project blog:版本构建切换到命令行模式:cd D:\bigdatas直接发布版本:gradle :bigdatamonitor:releaseRuntime构建发布的版本包存放在目录:D:\bigdatas\bigdatamonitor\build\distributionsbboss...

    由 bboss 开源的数据采集&流批一体化工具,提供数据采集、数据清洗转换处理和数据入库以及数据指标统计计算流批一体化处理功能

    完成清洗和转换后,bboss-datatran 可以将处理后的数据加载到不同的存储系统,如Hadoop HDFS、Hive、HBase、Elasticsearch、Greenplum、Oracle等。这为用户提供了灵活的数据存储选择,并且支持数据分片、分区策略,...

    cmd-bat-批处理-脚本-Progress bar 1.zip

    cmd-bat-批处理-脚本-Progress bar 1.zip

    小红书2024年度Java编程开发面试题及参考答案-超详细解析

    该资源是小红书 2024 年度Java 编程开发面试题,内容非常详细,适合应届毕业生和准备寻求更高发展的Java工程师,希望给你们带来帮助。

    RISC-V指令集五级流水线CPU设计与验证:基于Verilog的实现及应用 CPU设计

    内容概要:本文详细介绍了基于RISC-V指令集的五级流水线CPU设计及其验证过程。首先,文章阐述了RISC-V指令集的特点及其在CPU设计中的优势,接着深入解析了每个流水线阶段(取指、解码、执行、访存、写回)的Verilog源代码实现。此外,提供了汇编验证代码用于测试CPU的功能,并附带详细的说明文档和PPT,确保设计的完整性和易理解性。最后,在Vivado平台上进行了全面的仿真和实际硬件测试,验证了设计的正确性和性能。 适合人群:从事嵌入式系统设计、CPU架构研究及相关领域的工程师和技术人员。 使用场景及目标:①理解和掌握RISC-V指令集在五级流水线CPU设计中的应用;②学习Verilog语言在CPU硬件设计中的具体实现方法;③通过汇编验证代码测试CPU功能,确保设计的可靠性。 其他说明:本文不仅提供了完整的Verilog源代码和汇编验证代码,还包括详细的说明文档和PPT,有助于读者更好地理解和实践CPU设计过程。

    基于51单片机与HC-05蓝牙模块的Android手机通信程序

    本程序实现了51单片机与手机之间的字符及数字通信功能,且代码中配有详尽的注释说明。关于通信原理的详细阐述,可在我的其他相关文章中查阅。

    cmd-bat-批处理-脚本-run dialogue.zip

    cmd-bat-批处理-脚本-run dialogue.zip

    多智能体编队技术中48智能体点对点转换的分布式模型预测控制及应用 多智能体系统

    内容概要:本文详细介绍了多智能体编队技术,特别是针对4智能体和8智能体的点对点转换分布式模型预测控制。首先概述了多智能体编队的概念及其广泛应用,如无人驾驶、无人机编队等。接着深入探讨了分布式模型预测控制的方法论,强调每个智能体依据自身模型和邻近智能体信息进行预测并制定控制策略,从而提升系统灵活性和鲁棒性。随后阐述了点对点转换的具体机制,即智能体间通过高效的信息交换实现状态间的平滑过渡。最后展示了简化的Python代码示例来解释这一过程,并提供了相关领域的权威参考文献。 适合人群:对多智能体系统、分布式控制系统感兴趣的科研人员和技术开发者。 使用场景及目标:适用于希望深入了解多智能体编队控制理论的研究者以及从事无人驾驶、无人机编队等相关项目的技术人员。目标在于掌握分布式模型预测控制的基本原理及其在实际工程中的应用。 其他说明:文中提供的代码仅为概念验证性质,实际部署时还需考虑更多因素如网络延迟、数据同步等。此外,附带的参考文献为读者进一步学习提供了宝贵的资料来源。

    2023年系统分析师真题及解析

    2023年系统分析师真题及解析

    IMG_20250521_201207.jpg

    IMG_20250521_201207.jpg

    基于鲸鱼算法的光伏风电选址定容优化及其经济性评估 多目标优化

    内容概要:本文探讨了利用鲸鱼算法(Whale Optimization Algorithm)对光伏和风电项目的选址和定容进行优化的方法。鲸鱼算法是一种新颖的智能算法,它模仿座头鲸的捕食行为,具有较少的参数调整需求和强大的寻优能力。文中详细介绍了该算法的核心机制,如气泡网攻击策略,并展示了如何将其应用于新能源项目的选址定容问题中。具体来说,通过定义合适的目标函数来衡量不同方案的表现,包括网损、节点电压偏差和投资成本等因素。此外,还讨论了如何通过调整权重系数来平衡各个目标之间的关系,从而获得最佳解决方案。最终,通过对实验结果的分析,证明了鲸鱼算法在处理此类多维度优化问题上的优越性能。 适合人群:从事新能源规划、电力系统工程及相关领域的研究人员和技术人员。 使用场景及目标:适用于需要对光伏和风电项目进行科学合理的选址和定容决策的情境下,旨在提高能源利用效率的同时降低成本,确保电网稳定性和可靠性。 其他说明:文中提供了具体的Python代码示例,帮助读者更好地理解和实现鲸鱼算法的应用。同时强调了在实际操作过程中应注意的一些关键因素,如数据预处理方法的选择以及参数设置的影响等。

    工业自动化领域威纶通A2触摸屏程序标准精美模板及其应用

    内容概要:本文详细介绍了威纶通标准精美模板,一套专为A2触摸屏程序开发提供的可直接套用的界面模板。模板涵盖了多个实用功能界面,如配方管理、报警记录、操作记录、登录、设备使用说明、参数设置、系统设置、权限设置、趋势显示、电机设置、IO监控、工位用时、文档设置和维修界面。每个界面均经过精心设计,确保界面清新整洁,不带复杂的宏指令,便于操作和维护。此外,模板还支持XY曲线、树状图、数据统计等功能,能够灵活配置和调用。这套模板不仅适用于快速开发,也为新手和在校生提供了宝贵的学习资源。 适用人群:工业自动化领域的开发人员、工程师、新手和在校学生。 使用场景及目标:① 开发人员可以通过直接套用或复制模板,快速完成A2触摸屏程序开发;② 新手和在校生可以利用模板学习触摸屏程序的设计和实现,掌握工业自动化领域的关键技能。 其他说明:模板中的功能和界面设计充分考虑了工业自动化的需求,确保了系统的稳定性和实用性。

    一种三元锂电池析锂特性以及检测方法研究.zip

    一种三元锂电池析锂特性以及检测方法研究.zip

    大规模无线传感 器网络中稀疏信号的数据收集策略.pdf

    大规模无线传感 器网络中稀疏信号的数据收集策略.pdf

    cmd-bat-批处理-脚本-One_Click_StockPrice.zip

    cmd-bat-批处理-脚本-One_Click_StockPrice.zip

    cmd-bat-批处理-脚本-installed-package-contents.zip

    cmd-bat-批处理-脚本-installed-package-contents.zip

    2025年网络媒体项目解决方案.docx

    2025年网络媒体项目解决方案.docx

    实证数据-2010-2023年上市公司-管理层情感语调数据-社科经管.rar

    该数据集为2010-2023年中国A股上市公司管理层情感语调的年度面板数据,覆盖45,320条样本,数据源自年报及半年报的"管理层讨论与分析"部分。通过构建中文金融情感词典(融合《知网情感分析用词典》与L&M金融词汇表),采用文本分析方法计算情感语调指标,包括:正面/负面词汇数量、文本相似度、情感语调1((积极词-消极词)/总词数)和情感语调2((积极词-消极词)/(积极词+消极词))。同时包含盈利预测偏差、审计意见类型等衍生指标,可用于研究信息披露质量、市场反应及代理问题。该数据复刻了《管理世界》《财经研究》等期刊的变量构建方法,被应用于分析语调操纵对债券市场的影响,学术常用度与稀缺度较高。

    cmd-bat-批处理-脚本-green.zip

    cmd-bat-批处理-脚本-green.zip

Global site tag (gtag.js) - Google Analytics