最新文章列表

spark 抽样

 use sessiondb;  set NUM_SAMPLE = 30; CREATE EXTERNAL TABLE task_samples ( date_str string, task_id string, review_type string, task_type string, score string, user_name string ) ROW F ...
jickcai 评论(0) 有101人浏览 2023-11-29 09:58

SQLLineage.com(分析SQL的数据血缘关系)

数据的生产就像淘金,生产的步骤繁琐还需消耗大量的计算资源。而数据的多样性和差异性使得数据生产不得不不断的迭代处理逻辑, 分层数仓的设计简化了单层数据模型的设计,但增加了额外的计算资源消耗,当出现数据质量问题时更是质控者的噩梦。梳理清楚数据的来源、经过那些处理步骤、数据间存在那些引用和依赖的关系,这些信息归纳起来就是数据的血缘关系。而SQL强大的描述能力被广泛的应用在各种数据工具,分析SQL的AS ...
ding__lin 评论(0) 有998人浏览 2021-08-20 14:52

【赵强老师】Flink的DataSet算子

Flink为了能够处理有边界的数据集和无边界的数据集,提供了对应的DataSet API和DataStream API。我们可以开发对应的Java程序或者Scala程序来完成相应的功能。下面举例了一些DataSet API中的基本的算子。 下面我们通过具体的代码来为大家演示每个算子的作用。 1、Map、FlatMap与MapPartition //获取运行环境 Executio ...
collen7788 评论(0) 有349人浏览 2020-10-09 13:44

spark3.0基于hadoop2.6.0编译问题

        spark3.0出来一段时间了,内部做了很多的优化,所以想尝尝新。           下载下来spark3.0的源码,查看pom.xml文件,发现profile中的hadoop版本是2.7,所以把这个属性改成2.6, 当然我们是cdh5.14.2,hadoop版本是2.6.0。开始编译,发现编译报错,这是因为在2.6.0到2.6.3hadoop中有个class在之后的版本变 ...
tangjunliang 评论(0) 有653人浏览 2020-09-15 14:30

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/

从spark2.4升级到spark3.0,在跑spark任务的时候,报了一下错误: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/internal/connector/SimpleTableProvider at java.lang.ClassLoader.de ...
tangjunliang 评论(0) 有1257人浏览 2020-09-14 18:31

【赵强老师】Flink的Watermark机制(基于Flink 1.11.0实现)

在使用eventTime的时候如何处理乱序数据?我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下, ...
collen7788 评论(0) 有372人浏览 2020-07-20 08:56

【赵强老师】什么是Spark SQL?

一、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所 ...
collen7788 评论(0) 有334人浏览 2020-07-02 16:34

Jerry's spark demo application

Java应用程序入口: 输入一个文本文件,这个Java应用会利用Spark的大数据处理功能,迅速统计出这个文本文件里每个单词出现的次数,按从高到低排序。 因为Spark的核心代码是Scala编写,因此也能直接在Scala控制台里演示这个demo:   这个demo演示的命令行:  
JerryWang_SAP 评论(0) 有316人浏览 2020-07-02 15:05

【赵强老师】Kafka的体系架构

一、什么是Kafka? 数据工程中最具挑战性的部分之一是如何从不同点收集和传输大量数据到分布式系统进行处理和分析。需要通过消息队列正确地分离大量数据,因为如果一部分数据无法传送,则可以在系统恢复时传输和分析其他数据。有两种消息排队,对于上述目的,它们都是可靠的和异步的。点对点(Point to point)和发布者——订阅者(publisher-subscriber)。下图展示了一个典型的 ...
collen7788 评论(0) 有306人浏览 2020-05-25 10:19

【赵强老师】如何分析Java的内存溢出问题

一、什么是内存溢出? 内存溢出(OOM:out of memory)通俗理解就是内存不够,通常在运行大型软件或游戏时,软件或游戏所需要的内存远远超出了你主机内安装的内存所承受大小,就叫内存溢出。 在Java中,将会产生java.lang.OutOfMemoryError。看下关于的官方说明: Thrown when the Java Virtual Machine cannot allo ...
collen7788 评论(0) 有540人浏览 2020-05-13 10:56

【赵强老师】在Spark SQL中读取JSON文件

​ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大 ...
collen7788 评论(0) 有332人浏览 2020-04-12 10:44

【赵强老师】搭建Hadoop环境

说明:这里我们以本地模式和伪分布模式伪列,为大家介绍如何搭建Hadoop环境。有了这个基础,大家可以自行搭建Hadoop的全分布模式。需要使用的安装介质: hadoop-2.7.3.tar.gz jdk-8u181-linux-x64.tar.gz rhel-server-7.4-x86_64-dvd.iso 一、安装前的准备工作 安装好Redhat Linux 7.4(安装 ...
collen7788 评论(0) 有395人浏览 2020-04-08 13:40

初识Spark

Spark简介 Spark是什么 Spark是一个快读且通用的集群计算平台 Spark的特点 Spark应用程序可以使用R语言、Java、Scala和Python进行编写,极少使用R语言编写Spar ...
wx1568016009 评论(0) 有222人浏览 2019-09-09 16:00

linux spark 安装

linux spark 安装   0.准备工作 hadoop 服务器 10.156.50.35 yanfabu2-35.base.app.dev.yf zk1 hadoop1 master1 master sparkmaster 10.156.50.36 yanfabu2-36.base.app.dev.yf zk2 hadoop2 master2 sparkwork1 ...
knight_black_bob 评论(0) 有810人浏览 2019-08-31 17:45

Spark Streaming的优化之从Receiver到Direct模式

 作者:个推数据研发工程师 学长     1  业务背景   随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析、决策。Spark Streaming是一种分布式的大数据实时计算框架,他提供了动态的,高吞吐量的,可容错的流式数据处理,不仅可以实现用户行为分析,还能在金融、舆情分析、网络监控等方面发挥 ...
Qiucold 评论(0) 有138人浏览 2019-06-18 11:38

Spark中分布式使用HanLP(1.7.0)分词示例

  HanLP分词,如README中所说,如果没有特殊需求,可以通过maven配置,如果要添加自定义词典,需要下载“依赖jar包和用户字典". 分享某大神的示例经验: 是直接"java xf hanlp-1.6.8-sources.jar" 解压源码,把源码加入工程(依赖本地jar包,有些麻烦,有时候到服务器有找不到jar包的情况) 按照文档操作,在Spark ...
adnb34g 评论(0) 有478人浏览 2019-05-08 09:48

掌握Spark机器学习库 大数据开发技能更进一步

掌握Spark机器学习库 大数据开发技能更进一步 网盘地址:https://pan.baidu.com/s/1QwYaPnbN-9Yng4TZ8JW0Sw 提取码: 635i 备用地址(腾讯微云):https://share.weiyun.com/5kul7fA 密码:mrfmsh 本课程主要讲解Spark机器学习库,侧重实践的讲解,同时也以浅显易懂的方式介绍机器学习算法的内在原理。学习本课程,可 ...
360pluse 评论(0) 有1100人浏览 2019-04-29 09:22

Spark经典题目

https://blog.csdn.net/xuefenxi/article/details/81083727 https://blog.csdn.net/lijiaqi0612/article/details/79384594 1.Spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据 ...
flylynne 评论(0) 有1316人浏览 2019-04-29 01:09

Spark的操作列表

Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, std ...
neeleon 评论(0) 有977人浏览 2019-04-04 17:52

Hanlp分词1.7版本在Spark中分布式使用记录

  新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过按照当前的整理进度,还需要一段时间再给大家详细分享整理的内容。昨天正好看到的这篇关于关于1.7.0版本hanlp分词在spark中的使用介绍的文章,顺便分享给大家一起学习一下!   以下为分享的文章内容: HanLP分词,如README中所说,如果没有 ...
adnb34g 评论(0) 有530人浏览 2019-03-11 15:09

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics