spark热门博客列表 - ITeye博客频道 - 第3页

博客专栏推荐

本月博客排行

年度博客排行

Spark核心技术原理透视一（Spark运行原理）

在大数据领域，只有深挖数据科学领域，走在学术前沿，才能在底层算法和模型方面走在前面，从而占据领先地位。 Spark的这种学术基因，使得它从一开始就在大数据领域建立了一定优势。无论是性能，还是方案的统一性，对比传统的Hadoop，优势都非常明显。Spark提供的基于RDD的一体化解决方案，将MapReduce、Streaming、SQL、Machine Learning、Graph Proces ...

Spark 加米谷大数据 Spark运行原理成都大数据培训

加米谷大数据评论(0) 有364人浏览 2018-03-29 11:49

spark - 宽依赖和窄依赖

（1）血缘关系：通过血缘关系，可以知道一个RDD是如何从父RDD计算过来的 A =map=> B =filter=> C （2）窄依赖：一个父RDD的partition最多被子RDD中的partition使用一次（一父对应一子），窄依赖无shuffle （3）宽依赖：父RDD中的一个partition会被子RDD中的partition使用多次(一父多 ...

spark 宽依赖窄依赖

功夫小当家评论(0) 有2654人浏览 2018-03-21 20:08

spark - RDD持久化

1.RDD的cache和persist cache：存储级别是MEMORY_ONLY的，是个transformation，是lazy的，只有触发了action，才会真正执行(spark sql中的cache是立刻执行的) persist：可以指定存储级别 spark使用lru算法移除过期的cache数据，用户也可以手动取消序列化：unpersist（立即执行，不是lazy的） 2. ...

spark rdd持久化

功夫小当家评论(0) 有598人浏览 2018-03-21 13:37

spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars

测试下spark.yarn.archive 和 spark.yarn.jars 参数的作用，官网对这俩参数的描述如下：（1）spark-defaults.conf配置下面两个参数 spark.yarn.archive hdfs:// ...

spark 启动优化参数spark.yarn.archive 和 spark.yarn.jars

功夫小当家评论(0) 有5248人浏览 2018-03-20 11:42

spark - RDD梳理

1.RDD是什么？ RDD源码中的五个特性：弹性的，分布式的，不可变的，支持并行化操作，可以分区的数据集五个主要属性： 1个rdd可以有多个partition 如果对1个rdd作用于一个function，其实是对里面的每个split做function，1个split就是一个partition rdd间是有一系列依赖的，例如：（可选）对于（groupbykey）有一个Has ...

spark rdd

功夫小当家评论(0) 有869人浏览 2018-03-19 20:24

Spark 连接 MongoDB

Spark 连接 Mongodb 官方地址：https://www.mongodb.com/products/spark-connector 使用时候遇到一个问题，就是通过MongodbConnector 连接 Mongodb 时候，如果mongodb 是有密码验证的，一直不能通过验证：一直报错：not authorized on admin to execute command 引用[WAR ...

mongodb Spark

yi_17328214 评论(0) 有3297人浏览 2018-03-07 09:55

Spark Streaming实时流处理项目实战

Spark Streaming实时流处理项目实战网盘地址：https://pan.baidu.com/s/1psKNKnIsz7Y1Xdp5rRZuVQ 密码: gcie 备用地址（腾讯微云）：https://share.weiyun.com/176190792247a0fba33c6c67 ...

spark

天地合1 评论(0) 有26人浏览 2018-03-07 08:56

Spark分布式环境搭建

参考链接1：https://www.cnblogs.com/purstar/p/6293605.html 参考链接2：http://blog.csdn.net/xiaoxiangzi222/article/details/52757168 一、spark集群搭建这里介绍spark的集群安装，需要依赖于hadoop的集群所以，首先搭建了一个hadoop集群，1个master，2个sla ...

spark hadoop java scala

elfasd 评论(0) 有965人浏览 2018-02-09 14:30

Spark如何读取一些大数据集到本地机器上

最近在使用spark处理分析一些公司的埋点数据，埋点数据是json格式，现在要解析json取特定字段的数据，做一些统计分析，所以有时候需要把数据从集群 ...

spark

qindongliang1922 评论(0) 有1636人浏览 2018-01-04 21:07

使用Spark SQL的临时表解决一个小问题

最近在使用spark处理一个业务场景时，遇到一个小问题，我在scala代码里，使用spark sql访问hive的表，然后根据一批id把需要的数据过滤出来，本来是非常简单的需求直接使用下面的伪SQL即可： ```` select * from table where id in (id1,id2,id3,id4,idn) ```` 但现在遇到的问题是id条件比较多，大概有几万个，这样量级 ...

spark

qindongliang1922 评论(0) 有2410人浏览 2017-12-28 18:27

Spark任务两个小问题笔记

今天在用spark处理数据的时候，遇到两个小问题，特此笔记一下。两个问题都与网络交互有关，大致处理场景是，在driver端会提前获取组装一批数据，� ...

spark

qindongliang1922 评论(0) 有1614人浏览 2017-12-26 19:52

Spark中foreachPartition和mapPartitions的区别

spark的运算操作有两种类型：分别是Transformation和Action，区别如下： Transformation：代表的是转化操作就是我们的计算流程，返回是RDD[T]，可以是一个链式的转化，并且是延迟触发的。 Action：代表是一个具体的行为，返回的值非RDD类型，可以一个object，或者是一个数值，也可以为Unit代表无返回值，并且action会立即触发job的执行。 ...

spark

qindongliang1922 评论(0) 有3284人浏览 2017-12-25 21:19

Spark系列文章列表

一、 Spark - Cluster Mode概述（翻译）

spark

商人shang 评论(0) 有483人浏览 2017-12-09 02:09

Spark - Cluster Mode概述（翻译）

这个文档简要的介绍下Spark是怎么样在集群模式中运行的，以方便更容易的理解其涉及到的组件。可以通过阅读 application submission guide来了解怎么样在集群中运行应用程序。 Components Spark应用程序作为独立的进程集运行，它们是由 main程序（称为driver程序）中的SparkContext 对象进行协调的。特别地，在集群上运行是，Spar ...

Spark Yarn Cluster Mode

商人shang 评论(0) 有1568人浏览 2017-12-09 02:03

Spark Streaming优雅的关闭策略优化

前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Streaming的流程序。到目前为止还有几个问题：（1）有关spark streaming集成kafka时，如果kafka新增分区，那么spark streaming程序能不能动态识别到而不用重启？（2）如果需要重启，那么在自己管理offset时，如何才能识别到新增的分区？ ...

spark

qindongliang1922 评论(0) 有4103人浏览 2017-12-07 19:26

Tigase服务安装及配合Spark客户端通信

1 下载Tigase 下载tigase-server-7.1.2-b4471.jar----https://projects.tigase.org/projects/tigase-server/files Tigase安装配置参考文献：https://wenku.baidu.com/view/2d3da03426fff705cd170a01.html 下载 spark客户端官网 ht ...

xmpp tigase spark

wangzhigang2 评论(0) 有1199人浏览 2017-12-05 19:57

kafka版本不一致导致的一个小问题（二）

背景介绍：我们公司的实时流项目现在用的spark streaming比较多，这里在介绍下版本： spark streaming2.1.0 kafka 0.9.0.0 spark streaming如果想要集成kafka使用时，必须得使用spark官网提供的依赖包，目前有两种大的kafka分支依赖集成包，他们的一些信息如下：描述信息 | spark-streaming-kafka ...

spark kafka

qindongliang1922 评论(0) 有8508人浏览 2017-12-04 21:37

理解Spark的运行机制

Spark生态系统目前已经非常成熟了，有很多类型的任务都可以使用spark完成，我们先看下spark生态系统的组成： spark的核心主要由3个模块组成：（1）spark core 是spark的最底层的编程实现，定义了许多的函数及方法，是所有spark组件的基础依赖（2）spark ecosystems 是spark里面的一些高级组件，基本就是我们最常用 ...

spark

qindongliang1922 评论(0) 有1215人浏览 2017-11-23 21:52

« 上一页 1 2 3 4 … 22 23 下一页 »

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

Spark核心技术原理透视一（Spark运行原理）

spark - 宽依赖和窄依赖

spark - RDD持久化

spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars

spark - RDD梳理

Spark 连接 MongoDB

Spark Streaming实时流处理项目实战

Spark分布式环境搭建

Spark如何读取一些大数据集到本地机器上

使用Spark SQL的临时表解决一个小问题

Spark任务两个小问题笔记

Spark中foreachPartition和mapPartitions的区别

Spark系列文章列表

Spark - Cluster Mode概述（翻译）

Spark Streaming优雅的关闭策略优化

Tigase服务安装及配合Spark客户端通信

kafka版本不一致导致的一个小问题（二）

理解Spark的运行机制

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论