hadoop框架结构的说明介绍

adnb34g

浏览: 76858 次

最近访客更多访客>>

adonis_yang

海麻雀

小taomi_77

zhangly2011

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据，hadoop

hadoop 大数据

近年，随着互联网的发展特别是移动互联网的发展，数据的增长呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序每天下载的网页超过1亿个（2000年数据，）数据的爆炸式增长直接推动了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架，解决了海量数据处理的问题。谷歌公司随即将设计思路开源，发表了具有划时代意义的三篇论文，很快根据谷歌设计思路的开源框架就出现了，就是如今非常火爆的hadoop、Maperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。

目前国内的hadoop商业发行版也是比较多，这些hadoop商业版大部分都是由国外发行的，纯国产的发行版不是很多，比如DKhadoop，可以说是目前国内自主做hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给大家介绍一下hadoop框架结构！

图示：DKhadoop技术技术架构图

hadoop框架结构核心：

hadoop的框架结构最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。

大数据一体化开发框架：

大数据的应用开发过于偏向底层，设计技术面非常广泛，学习的难度自然要大的很多。对于新手入门更是难上加难。DKhadoop则是大快搜索将一系列技术框架在底层进行了重新封装。把大数据开发中的一些通用的，重复使用的基础代码、算法封装为类库，降低了大俗局的学习门槛，降低开发难度。

DKhadoop框架结构构成模块：

我们以DKhadoop发行版为例：

1、框架由：数据源与SQL引擎、数据采集（自定义爬虫）模块、数据处理模块、机器学习算法、自然语言处理模块、搜索引擎模块，六部分组成。

2、大快的大数据通用计算平台（DKH），已经集成相同版本号的开发框架的全部组件。如果在开源大数据框架上部署大快的开发框架，需要平台的组件支持如下：

（1）数据源与SQL引擎：DK.Hadoop、spark、hive、sqoop、flume、kafka

（2）数据采集：DK.hadoop

（3）数据处理模块：DK.Hadoop、spark、storm、hive

（4）机器学习和AI：DK.Hadoop、spark

（5）NLP模块：上传服务器端JAR包，直接支持

（6）搜索引擎模块：不独立发布

Dkhadoop是大快深度整合，重新编译后的HADOOP发行版，可单独发布。独立部署FreeRCH（大快大数据一体化开发框架）时，必需的组件。DK.HADOOP整合集成了NOSQL数据库，简化了文件系统与非关系数据库之间的编程；DK.HADOOP改进了集群同步系统，使得HADOOP的数据处理更加高效。

关于hadoop框架结构暂且简单介绍这些，感兴趣的朋友可以找一下大快搜索的DKhadoop试一下。

查看图片附件

分享到：

依存句法分析器的简单实现 | MapReduce实现与自定义词典文件基于hanLP ...

2018-10-15 15:50
浏览 642
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论