`

大数据相关的一些内容和知识

 
阅读更多
一、大数据通用处理平台
1.Spark:内存版本的大数据平台,RDD微批处理,是准实时的处理架构。具有生态优势。
2.Flink:实时处理架构,支持批处理和流处理。和Strom的区别,Strom只支撑流处理。
3.Hadoop:硬盘版本的大数据平台,适合做批处理。
4.Tez:DAG计算框架,有向无环图。

二、分布式存储
HDFS:Hadoop的底层存储平台

三、资源调度
1.Yarn:yarn是MapReduce进化的产物,yarn从诞生之日起就是为hadoopjobs管理资源的(yarn也开始朝着mesos涉及的领域进军),yarn只为hadoop jobs提供了一个static partitioning。
2.Mesos:mesos的设计目标是为各个框架(hadoop、spark、web services等)提供dynamical partitioning,让各个集群框架共用数据中心机器。
四、机器学习工具
Mahout:Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
Spark Mlib:Spark的机器学习库。
TensorFlow (Google 系):谷歌开源的神经网络框架。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。
Amazon Machine Learning:Amazon Machine Learning 是一项用于构建机器学习模型并生成预测结果的托管服务,可以帮助开发稳定且可扩展的智能应用程序。借助 Amazon Machine Learning,您可以使用强大的机器学习技术而无需在机器学习算法和技术领域拥有深厚的背景。
DMTK (微软分布式机器学习工具):DMTK由一个服务于分布式机器学习的框架和一组分布式机器学习算法构成,是一个将机器学习算法应用在大数据上的强大工具包;无论是学术界的研究人员还是工业界的开发者,DMTK可以帮助他们在超大规模数据上灵活稳定地训练大规模机器学习模型。

五、数据分析/数据仓库(SQL类)
Pig:Pig是基于hadoop的一个数据处理的框架。Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。Pig的数据处理语言是数据流方式的,类似于初中做的数学题。
Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
kylin:Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
Spark SQL:SparkSQL在架构上和Hive类似,只是底层把MapReduce替换为Spark
Spark DataFrame:Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API
Impala:Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。
Phoenix:Phoenix是HBase查询引擎,查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。更多
ELK
8.1 ElasticSearch:Elasticsearch是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。

8.2 Logstash:Logstash 主要是用来日志的搜集、分析、过滤日志的工具,支持大量的数据获取方式。一般工作方式为c/s架构,client端安装在需要收集日志的主机上,server端负责将收到的各节点日志进行过滤、修改等操作在一并发往elasticsearch上去。

8.3 Kibana:Kibana 也是一个开源和免费的工具,Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面,可以帮助汇总、分析和搜索重要数据日志。

六、消息队列

Kafka(纯日志类,大吞吐量):kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。
RocketMQ:里巴巴的MQ中间件,在其多个产品下使用,并能够撑住双十一的大流量,他并没有实现JMS规范,使用起来很简单。部署由一个 命名服务(nameserver)和一个代理(broker)组成,nameserver和broker以及producer都支持集群,队列的容量受机器硬盘的限制,队列满后可以支持持久化到硬盘(也可以自己适配代码,将其持久化到NOSQL数据库中),队列满后会影响吞吐量,可以采用主备来保证稳定性,支持回溯消费,可以在broker端进行消息过滤.
ZeroMQ:扩展性好,开发比较灵活,采用C语言实现,实际上他只是一个socket库的重新封装,如果我们做为消息队列使用,需要开发大量的代码。
ActiveMQ:ActiveMQ 是Apache出品,最流行的,能力强劲的开源消息总线。历史悠久的开源项目,已经在很多产品中得到应用,实现了JMS1.1规范,可以和spring-jms轻松融合,实现了多种协议,不够轻巧(源代码比RocketMQ多).,支持持久化到数据库,对队列数较多的情况支持不好,不过我们的项目中并不会建很多的队列.
RabbitMQ:结合erlang语言本身的并发优势,性能较好,但是不利于做二次开发和维护。
七、流式计算

Storm/JStorm:实时
Spark Streaming:准实时
Flink:实时
八、日志收集

Scribe:Scribe是facebook开源的日志收集系统,在facebook内部已经得到大量的应用。

Flume:日志采集

九、编程语言

Java
Python
R
Ruby
Scala
十、数据分析挖掘

MATLAB:MATLAB是美国MathWorks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境

SPSS

SAS

十一、数据可视化

R
D3.js
ECharts
Excle
Python
十二、机器学习
机器学习基础

聚类
时间序列
推荐系统
回归分析
文本挖掘
决策树
支持向量机
贝叶斯分类
神经网络
机器学习工具
Mahout:Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
Spark Mlib:Spark的机器学习库。
TensorFlow (Google 系):谷歌开源的神经网络框架。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。
Amazon Machine Learning:Amazon Machine Learning 是一项用于构建机器学习模型并生成预测结果的托管服务,可以帮助开发稳定且可扩展的智能应用程序。借助 Amazon Machine Learning,您可以使用强大的机器学习技术而无需在机器学习算法和技术领域拥有深厚的背景。
DMTK (微软分布式机器学习工具):DMTK由一个服务于分布式机器学习的框架和一组分布式机器学习算法构成,是一个将机器学习算法应用在大数据上的强大工具包;无论是学术界的研究人员还是工业界的开发者,DMTK可以帮助他们在超大规模数据上灵活稳定地训练大规模机器学习模型。
十三、算法
一致性
paxos
raft
gossip

数据结构
栈,队列,链表
散列表
二叉树,红黑树,B树


常用算法
1.排序
插入排序
桶排序
堆排序
2.快速排序
3,最大子数组
4.最长公共子序列
5.最小生成树
最短路径
6.矩阵的存储和运算

十四、云计算
云服务
SaaS
PaaS
IaaS
Openstack
Docker
分享到:
评论

相关推荐

    大数据导论基础知识整理

    本教材针对信息管理、经济管理和其他相关专业学生的发展需求,系统、全面地介绍了关于大数据技术与应用的基本知识和技能,详细介绍了大数据与大数据时代、大数据的可视化、大数据的商业规则、大数据时代的思维变革、...

    大数据习题-这是一份大数据相关的考试试卷和一些课程内容概述

    1. 大数据概述部分主要考查了大数据的基本概念、特征、发展阶段、思维转变...9. 还涉及了大数据应用、NoSQL数据库、云数据库等相关内容。 总的来说,这份试卷知识点饱满,难度适中,比较全面系统地检验了大数据处理的方方

    大数据开发,大数据开发技术路线,核心知识

    以下是大数据开发的关键组成部分和相关流程: ### **大数据开发工作内容与职责** 1. **数据采集与存储**: - 设计并实施数据采集策略,从各种源头(如传感器、日志文件、API、社交媒体、数据库等)获取数据。 - ...

    大数据财务分析实训总结.docx

    然而财会学生由于计算机知识和数据分析体系的匮乏,这限制了学生在大数据财务分析上的思维和分析能力,而上海悦岚数据公司开发的DEEP系统则是解决这一难题的有力工具。本文从财务数据分析案例出发,分析了DEEP系统对...

    大数据导论课件,第一章什么是大数据

    课程目标:搭建起通向“大数据知识空间”的桥梁和纽带;构建知识体系、阐明基本原理;引导初级实践、了解相关应用;为学生在大数据领域“深耕细作”奠定基础、指明方向 课程内容介绍: 第一章 什么是大数据 第二章 ...

    2017大数据与知识自动化.pptx

    主要内容 一、什么是大数据 二、大数据时代的思维变革 三、大数据的应用 四、大数据带来的负面作用 五、大数据的发展前景 六、大数据与知识自动化 2017大数据与知识自动化全文共55页,当前为第2页。 维克托 迈尔 舍...

    数据库学习入门数据库基础入门.rar_MYSQL_大数据整理_大数据知识点_学习书籍

    给大家整理一下本年度一些优质的文章,根据大数据相关的知识点一个个整理的,整理的内容包括知识点普及、学习书籍、学习路线图、学习笔记、学习资料、学习视频等等。

    大数据-日知录-架构-算法(PDF高清完整版)

    《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含...

    大数据技术与应用实习周记.docx

    本周为软件学院的大数据方向课程第一周,班级人数总共为38人,本周课程实训过程内容主要如下: 一、实训内容 根据OBE(成功导向)的教学理念,深入聚焦学生解决复杂工程问题能力的培养,本周主要为实训学员讲解了软件...

    大数据技术及应用题库.doc

     大数据 11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从中发现新知识、创造新价值、提升新能力的(D)。 a. 。 新一代信息技术 b。 。 新一代服务业态 c。 . 新一代...

    企业大数据系统构建实战技术架构实施与应用

    主要从执行层面介绍了大数据落地相关的技术、架构、开发、大数据工作流、应用和价值评估,直接以落地视角解读大数据工作中每个环节涉及到的流程、知识和方法,这也是本书的核心章节。 第三部分:大数据价值、变革和...

    理解大数据-实践大数据.pptx

    内容 对大数据的理解 拓尔思大数据产品布局和应用实践 理解大数据-实践大数据全文共48页,当前为第2页。 反对派认为,我们现在处在一个盲目的大数据崇拜时代 理解大数据-实践大数据全文共48页,当前为第3页。 ...

    大数据习题(2024)-大数据概述部分主要考查了大数据的基本概念、特征、发展阶段、思维转变、计算模式等基础知识

    大数据概述部分主要考查了大数据...还涉及了大数据应用、NoSQL数据库、云数据库等相关内容。 总的来说,这份试卷知识点饱满,难度适中,比较全面系统地检验了大数据处理的方方面面,可以检测考生对这一领域的全面掌握程度。

    海量数据集管理(大数据)课程论文

    这是一篇英文论文的阅读总结,大数据相关课程。 发现可靠的近似功能依赖关系读后感 摘要: 给定一篇英文学术论文,如何阅读?如何正确懂这篇论文所陈述的内容,应该从这篇论文当中读取出哪些有用的信息和知识?本文...

    大数据日知录 架构与算法 带书签

    《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含...

    《大数据与人工智能》期末课程总结

    内容概要:《大数据与人工智能》期末大论文,课程作业,重点知识梳理知识点归纳,心得体会,教学建议,课程评价。 适用人群:计算机相关专业软件工程大数据计算机等专业期末复习或者作业,水平有限有错误希望提出...

    理解大数据-实践大数据(1).pptx

    内容 对大数据的理解 xxx大数据产品布局和应用实践 理解大数据-实践大数据(1)全文共46页,当前为第1页。 反对派认为,我们现在处在一个盲目的大数据崇拜时代 理解大数据-实践大数据(1)全文共46页,当前为第2页。 ...

    全栈编程指南包含人工智能、大数据等.zip

    全栈编程指南是一本涵盖人工智能和大数据等领域的资源,它提供了全面而深入的知识和指导,帮助读者全面了解和掌握相关技术和概念。以下是该资源的一些特点和内容: 1. 综合性:全栈编程指南涵盖了人工智能和大数据...

    Oozie大数据调度系统从入门到精通视频教程

    3、对大数据行业感兴趣的相关人员。 课程内容 第一章:工作流任务调度系统 1.大数据调度系统概论 2.企业级工作流 3.工作流依赖调度 4.工作流定时调度 第二章:企业级任务流调度系统Oozie 1.Oozie的应用...

    大数据带来的四种思维.docx

    而在大数据时代,人们可以通过大数据技术挖掘出事物之间隐蔽的相关关系,获得更多的认知与洞见,运用这些认知与洞见就可以帮助我们捕捉现在和预测未来,而建立在相关关系分析基础上的预测正是大数据的核心议题。...

Global site tag (gtag.js) - Google Analytics