近年,随着互联网的发展特别是移动互联网的发展,数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了海量数据处理的问题。谷歌公司随即将设计思路开源,发表了具有划时代意义的三篇论文,很快根据谷歌设计思路的开源框架就出现了,就是如今非常火爆的hadoop、Maperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。
目前国内的hadoop商业发行版也是比较多,这些hadoop商业版大部分都是由国外发行的,纯国产的发行版不是很多,比如DKhadoop,可以说是目前国内自主做hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给大家介绍一下hadoop框架结构!
图示:DKhadoop技术技术架构图
hadoop框架结构核心:
hadoop的框架结构最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
大数据一体化开发框架:
大数据的应用开发过于偏向底层,设计技术面非常广泛,学习的难度自然要大的很多。对于新手入门更是难上加难。DKhadoop则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的,重复使用的基础代码、算法封装为类库,降低了大俗局的学习门槛,降低开发难度。
DKhadoop框架结构构成模块:
我们以DKhadoop发行版为例:
1、框架由:数据源与SQL引擎、数据采集(自定义爬虫)模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块,六部分组成。
2、大快的大数据通用计算平台(DKH),已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架,需要平台的组件支持如下:
(1)数据源与SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
(2)数据采集:DK.hadoop
(3)数据处理模块:DK.Hadoop、spark、storm、hive
(4)机器学习和AI:DK.Hadoop、spark
(5)NLP模块:上传服务器端JAR包,直接支持
(6)搜索引擎模块:不独立发布
Dkhadoop是大快深度整合,重新编译后的HADOOP发行版,可单独发布。独立部署FreeRCH(大快大数据一体化开发框架)时,必需的组件。DK.HADOOP整合集成了NOSQL数据库,简化了文件系统与非关系数据库之间的编程;DK.HADOOP改进了集群同步系统,使得HADOOP的数据处理更加高效。
关于hadoop框架结构暂且简单介绍这些,感兴趣的朋友可以找一下大快搜索的DKhadoop试一下。
相关推荐
主要是简单地介绍hadoop的技术框架以及Hadoop主从式结构中各个模块的说明
025 Hadoop 目录结构 026 Eclipse导入Hadoop源码项目 027 HDFS 设计目标 028 HDFS 文件系统架构概述 029 HDFS架构之NameNode和DataNode 030 HDFS 架构讲解总结 031 回顾NameNode和DataNode 032 HDFS架构之Client和...
Hadoop成员简单介绍说明及核心框架结构说明,主要是:Haddop两大核心设计:底层用于存储集群中所有存储节点文件的文件系统HDFS来执行MapReduce的MapReduce引擎
本文以在中移软件研发中心工作期间参与的大数据项目为背景,着重研究Hadoop相关系统的设计思想和基本框架,并设计和实现一个自动化、可扩展、可监控、可管理的应用于大规模Hadoop集群的部署管理系统,本文主要研究...
目录结构: **Demo** 文件夹中是整个程序的源码,Demo.jar 是项目导出的 jar 包。 **球员数据** 文件夹是用作统计的数据源。 ## 2. MapReduce 介绍 MapReduce是一个并行计算框架,将大数据量的任务拆分成小数据...
本次项目基于Python爬虫与Movielens数据集作为数据来源,获取CSV格式的数据,使用Hadoop HDFS作为数据的分布式存储平台,使用MongoDB作为数据结构化、规范化的处理并对运算结果进行存储,使用Spark暴露对外SQL接口,...
数据库和文件中储存的数据量每天都在增长,因此我们需要构建能够储存大量数据(...在本文中,我将尝试说明如何构建一个可伸缩的Hadoop集群,以存储、索引、检索和维护理论上无限容量的数据。1.网络体系结构2.操作系统3
下面是一个大致的流程和步骤说明: 1. 数据爬取 使用Scrapy爬虫框架 确定目标招聘网站。 分析网站结构,识别招聘信息的HTML标签和API(如果可用)。 编写Scrapy爬虫,用于抓取求职者信息和职位信息。 考虑使用代理...
### 4、目录结构及主要文件说明 ``` ├─BiShe │ ├─admin.py (Django后端管理系统主要配置) │ ├─views.py (各个页面访问调用) │ └─urls.py (各个页面访问地址) │ ├─BiSheServer │ ├─settings...
Fourinone框架是将分布式协同的技术性和故障处理的可行性,把Hadoop、Zookeeper、MQ和分布式缓存的功能合并成一个框架。Fourinone采用的是domain/node两层结构,不仅保持了Zookeeper最本质的稳定性,而且还简化Watch...
和结构化数据存储之间传输批量数据 脚本 HDFS/本地文件系统/FTP 操作 安装说明 需要 Python 2.7 或更高版本如果你有 Python 2.6 或更低版本,你可以下载 Python 2.7 并使用“python2.7”而不是“python”运行所有...
数据一致性,算法与结构,集群,分布式,流计算,图计算,机器学习,等大数据方面知识和框架的全方位说明,学习大数据必备书籍,本书只是在高层面讲解,具体框架,hadoop,zookeeper,hbase,spark等用法还要看具体书籍...
7.3.3 Eucalyptus常用命令的示例和说明 238 习题 240 参考文献 240 第8章 其他开源云计算系统 241 8.1 简介 241 8.1.1 Cassandra 241 8.1.2 Hive 242 8.1.3 VoltDB 242 8.1.4 Enomaly ECP 243 8.1.5 Nimbus 244 ...
源码简介与安装说明: Alluxio(以前称为Tachyon)是一个虚拟的分布式存储系统。它弥合了计算框架和存储系统之间的鸿沟,使计算应用程序可以通过公共接口连接到众多存储系统。Alluxio项目源自加州大学伯克利分校...
按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性; 计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载...
│ 课程介绍及抓取说明.txt │ 课程封面图-大数据系统基础(自主模式).jpg │ 课程简介-大数据系统基础(自主模式).mp4 │ ├─1. 绪论 │ 0 什么是大数据.mp4 │ 1 大数据典型应用.mp4 │ 2 大数据的特点.mp4 │...
ETL服务器负责将⽇志⽂件和结构化数 据导⼊Hadoop分析集群,并将分析结果导出到Oracle数据库;数据解析服务器负责连接Hadoop环境,完成数据分析各项计 算;Hadoop和Hive提供数据分布式存储和计算的基础框架;调度...