- 浏览: 23946 次
- 性别:
- 来自: 深圳
文章分类
最新评论
接触大数据的这两年来,总是被各种琳琅满目的框架工具目不暇接。在这个大数据这个生态圈里,具体的框架工具都有自己的应用场景或不足之处,用来解决特定的问题。技术选型的时候要结合业务特点。没有包治百病,一劳永逸的方案。
1.Hadoop,大数据的鼻祖和基础。 解决存储(HDFS)和计算(MapReduce)。数据运行在磁盘上决定适合批处理任务,实时性低的场景。 NameNode和DataNode, 主从模式。
2.Storm,数据运行在内存中,适合流处理,实时性高场景,缺点不灵活,预先知道统计方式。Spout和Bolt,主从模式。
3.Spark,解决Hadoop运行速度问题,数据运行在内存中。但实时性上还是不如Storm。内存管理依赖JVM。趋势是根据Spark特点独自管理内存。
4.HBase适合数据仓库,实时性不好。 HMaster和Region server。主从模式。
5.Cassendra适合实时性要求比较高的场景,去中心化模式。
6.Mongo文档型KV存储,数据量规模“中等”,数据以Bson格式类似Json格式
7.Hive解决MR难于开发,以sql的方式直观简单易写易改的特点,不过速度慢
8.Pig是接近脚本方式去描述MapReduce
9.Phenix,Impala,Presto,Drill解决NoSQl数据库交互查询场景,牺牲稳定性通用性获取速度,底层HDFS,上面跑MapReduce/Tez/Spark,再上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求
10.Mahout是分布式机器学习库
11.Protobuf是数据交换的编码和库
12.ZooKeeper是高一致性的分布存取协同系统
13.Flume日志处理工具
1.Hadoop,大数据的鼻祖和基础。 解决存储(HDFS)和计算(MapReduce)。数据运行在磁盘上决定适合批处理任务,实时性低的场景。 NameNode和DataNode, 主从模式。
2.Storm,数据运行在内存中,适合流处理,实时性高场景,缺点不灵活,预先知道统计方式。Spout和Bolt,主从模式。
3.Spark,解决Hadoop运行速度问题,数据运行在内存中。但实时性上还是不如Storm。内存管理依赖JVM。趋势是根据Spark特点独自管理内存。
4.HBase适合数据仓库,实时性不好。 HMaster和Region server。主从模式。
5.Cassendra适合实时性要求比较高的场景,去中心化模式。
6.Mongo文档型KV存储,数据量规模“中等”,数据以Bson格式类似Json格式
7.Hive解决MR难于开发,以sql的方式直观简单易写易改的特点,不过速度慢
8.Pig是接近脚本方式去描述MapReduce
9.Phenix,Impala,Presto,Drill解决NoSQl数据库交互查询场景,牺牲稳定性通用性获取速度,底层HDFS,上面跑MapReduce/Tez/Spark,再上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求
10.Mahout是分布式机器学习库
11.Protobuf是数据交换的编码和库
12.ZooKeeper是高一致性的分布存取协同系统
13.Flume日志处理工具
发表评论
-
Canal相关理解
2017-12-29 16:18 434转载:http://www.importnew.com/251 ... -
kettle部署
2017-12-26 16:04 6721.将jmbi sql先上生产环境, 参考附件jmbi.sql ... -
crontab定时运行MR不行,手动shell可以执行成功问题排查过程
2017-12-26 15:48 790设置了定时任务,但MR任务没有执行。 第一步:手动执行she ... -
Flume+kafka+Spark Steaming demo2
2017-11-22 13:15 435一,flume配置 # Name the components ... -
Flume+Kafka+Spark Steaming demo
2017-11-21 15:21 413一.准备flume配置 a1.sources = r1 a1. ... -
HBase表导出成HDFS
2017-10-19 19:40 860导出步骤:在old cluster上/opt/cloudera ... -
zepplin实战
2017-10-13 16:10 336一句话介绍Zeppelin 以笔记(Note)的形式展示的数据 ... -
Azkaban安装
2017-10-10 18:32 879一.下载 https://github.com/azkaban ... -
KYKIN安装
2017-09-30 17:35 121. Kylin的一些概念 No. 关键字 解释 1 Kyl ... -
KYKIN安装
2017-09-30 17:40 3351. Kylin的一些概念 No. 关键字 解释 1 Kyl ... -
Logstash安装部署配置
2017-04-28 10:24 960为了实现各业务平台日志信息采集到大数据平台hdf ... -
HBASE API
2017-04-18 11:01 443package org.jumore.test; impor ... -
Ambari卸载shell
2017-03-28 17:28 438#!/bin/bash # Program: # uni ... -
linux ssh 相互密码登录
2017-02-22 13:40 3621.修改集群各机器名称 vim /etc/sysconfig/ ... -
Kettle Linux 安装部署
2017-02-15 17:20 1294一.安装JDK环境:根据自己的linux系统选择相应的版本,比 ... -
hadoop环境搭建
2017-01-23 17:31 326192.168.23.231 server1 192.168. ... -
环境安装
2017-01-17 16:26 366物理机部署分配 3台物理机上部署 Zookeeper 3个,F ... -
Storm demo
2016-12-19 15:50 419public class SentenceSpout exte ... -
运行Hadoop jar 第三方jar包依赖
2016-08-22 13:47 963将自己编写的MapReduce程序打包成jar后,在运行 ha ... -
windows10下运行MR错误
2016-07-05 13:45 1577当在windows下运行MR程序时,会报各种错误。现把这次碰到 ...
相关推荐
主要为大家详细介绍了Java开发者必备10大数据工具和框架,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
根据外媒的一项调查报告,中软卓越专家列出了Java程序员在过去12个月内一直使用的一些工具或框架,或许会对你有意义。 先来看看大数据的概念。根据维基百科,大数据是庞大或复杂的数据集的广义术语,因此传统的...
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 【大数据】大数据前台页面 Ajax框架/RIA...
适合想要了解大数据及相关技术平台的初学者,根据这个思维导图去查找资料。
第1章 数据转换工具Sqoop 1.02_02_01_01 大数据Hadoop 2.x协作.框架的功能 网页.mp4 1.02_02_01_02 Sqoop 功能概述和版本、架构讲解 网页.mp4 1.02_02_01_03 Sqoop 使用要点(核心)及企业版本讲解.mp4 1.02_02_01_...
建立包含基础资源维度、 技术维度和领域维度的政策工具选择三维分析框架, 通过编码映射, 建立其与政策工具编码的关联。从领域维度, 使用层次聚类分析法, 对样本政策文本进行聚类分析。[ 结果 /结论] 政策工具...
大数据参考架构围绕代表...IT价值链表示大数据作为一种新兴的数据应用范式为IT技术产生的新需求带来的价值,其核心价值通过为大数据应用提供存储和运行大数据的网络、基础设施、平台、应用工具以及其他IT服务实现。
了解大数据,首先需要了解大数据的概念,大数据是指无法在一定时间范围内用常规软件工具对其进行捕捉、存储、管理和处理的高容量、高速度和高多样化的信息资产。大数据时代,数据量非常大,基本上是没什么用的,基本...
大数据工具篇之Hive与HBase整合完整教程
大数据"分布式调度框架"大集合 大数据"分布式调度框架"大集合全文共22页,当前为第1页。大数据"分布式调度框架"大集合全文共22页,当前为第1页。大数据"分布式调度框架"大集合 大数据"分布式调度框架"大集合全文共22...
资源包含内容: 1、大数据测试方法 2、大数据测试工具 3、大数据测试质量 4、大数据测试总结 5、接口自动化框架设计思想
大数据的特性 大量 (Volume) 大数据的“大”首先体现在数据量上。这意味着您需要处理海量、...Hadoop 是用于处理大数据的工具之一。Hadoop 和其他软件产品通过特定的专有算法和方法来解释或解析大数据搜索的结果。
地方政府大数据产业政策的特点在于,以政策工具理论为视角,通过构建“政策工具—大数据产业链”二维分析框架,运用政策内容量化分析方法,对大数据产业政策文本进行分析。 大数据产业政策的重要性体现在以下几个...
2 大数据平台总体框架 大数据平台总体技术框架分为数据源层、数据接口层、平台架构层、分析工具层和业 务应用层。如下图所示: (此图要修改,北明) 数据源层:包括各业务系统、服务系统以及社会其它单位的结构化...
大数据平台计算框架 传统数仓功能 非结构化流式挖掘分析 大数据与大数据技术(1)全文共58页,当前为第13页。 软件架构 (举例) DATA PLATFORM(HDFS) 灵活数据准备 SQL in Hadoop 数据挖掘与预测 S Q L(ODBC、JDBC...
2、开发和使用Hadoop大数据自动化运维与监控工具; 3、基于大数据应用需求,不断调整和优化Hadoop框架及组件的配置,提升性能; 4、为数据仓库、数据挖掘建模等数据应用项目提供运行环境支持; 5、负责大数据平台...
Ankus 是一个大数据部署和编排工具。 处理安装和管理: (最新) Hadoop生态系统工具:(最新的),(最新的), , (最新的),Hadoop搜索 (最新) (最新) (卡夫卡-0.8) (storm-0.8.2) Ankus 可以处理...
公民和公共部门缓慢采用这些技术工具的情况进一步加剧了这种情况。 为了提高电子公民的满意度和参与度以及电子参与过程,公共机构需要促进参与度和协作。 为了给公民带来更多利益,公共机构需要采取适当措施来收集...
大数据时代基于Hadoop的一个数据仓库工具Hive Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。其...
针对新型冠状病毒出现的在人际之间的高传染性,我们设计了一个针对人际传播的回溯监控预测大数据工具类框架,可以有效的还原确诊患者、疑似患者、可能的接触人群在潜伏期内的活动轨迹,并以直观的方式进行展现。...