`
flylynne
  • 浏览: 362927 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以 ...
1、flume整合sparkStreaming问题 (1)、如何实现sparkStreaming读取flume中的数据可以这样说:前期经过技术调研,查看官网相关资料,发现sparkStreaming整合flume有2种模式,一种是拉模式,一种是推模式,然后在简单的聊聊这2种模式的特点,以及如何部署实现,需要做哪些事情,最后对比两种模式的特点,选择那种模式更好。推模式:Flume将数据Push推给Spark Streaming拉模式:Spark Streaming从flume 中Poll拉取数据 (2)、在实际开发的时候是如何保证数据不丢失的可以这样说:flume那边采用的channel是 ...
1.消费位移确认 Kafka消费者消费位移确认有自动提交与手动提交两种策略。在创建KafkaConsumer对象时,通过参数enable.auto.commit设定,true表示自动提交(默认)。自动提交策略由消费者协调器(ConsumerCoordinator)每隔${auto.commit.interval.ms}毫秒执行一次偏移量的提交。手动提交需要由客户端自己控制偏移量的提交。 (1)自动提交。在创建一个消费者时,默认是自动提交偏移量,当然我们也可以显示设置为自动。例如,我们创建一个消费者,该消费者自动提交偏移量 Properties props = new Pro ...
Kafka的用途有哪些?使用场景如何? 总结下来就几个字:异步处理、日常系统解耦、削峰、提速、广播如果再说具体一点例如:消息,网站活动追踪,监测指标,日志聚合,流处理,事件采集,提交日志等 Kafka中的ISR、AR又代表什么?ISR的伸缩又指什么 AR:Assigned Replicas 所有副本列表ISR:InSync Replicas 同步副本列表ISR expand : 有副本恢复同步状态ISR shrink : 有副本脱离同步状态ISR是由leader维护,follower从leader同步数据有一些延迟(包括延迟时间replica.lag.time.max. ...
在并发编程中,多个线程之间采取什么机制进行通信(信息交换),什么机制进行数据的同步?   在Java语言中,采用的是共享内存模型来实现多线程之间的信息交换和数据同步的。   线程之间通过共享程序公共的状态,通过读-写内存中公共状态的方式来进行隐式的通信。同步指的是程序在控制多个线程之间执行程序的相对顺序的机制,在共享内存模型中,同步是显式的,程序员必须显式指定某个方法/代码块需要在多线程之间互斥执行。   在说Java内存模型之前,我们先说一下Java的内存结构,也就是运行时的数据区域:   Java虚拟机在执行Java程序的过程中,会把它管理的内存划分为几个不同的数据区域,这些区域都 ...
一、常见垃圾收集器 现在常见的垃圾收集器有如下几种: 新生代收集器: Serial ParNew Parallel Scavenge 老年代收集器: Serial Old CMS Parallel Old 堆内存垃圾收集器:G1 每种垃圾收集器之间有连线,表示他们可以搭配使用。 二、新生代垃圾收集器 (1)Serial 收集器 Serial 是一款用于新生代的单线程收集器,采用复制算法进行垃圾收集。Serial 进行垃圾收集时,不仅只用一条线程执行垃圾收集工作,它在收集的同时,所有的用户线程必须暂停(Sto ...
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。      首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样 ...
https://blog.csdn.net/xuefenxi/article/details/81083727 https://blog.csdn.net/lijiaqi0612/article/details/79384594 1.Spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合 机制: 所有算子都是基于rdd来执行的,不同的场景会有不同的rdd实现类,但是都可以进行互相转换。 rdd执行过程中会形成dag图, ...
oracle18c ,12c 等下载速度特别慢,才十几KB,真是猴年马月才能下载完成,还可能出现下载多次出现异常情况产生,断了就无法下载了。个人经验,刚开始也是认命,换过其他下载工具,也从网上看过攻罗,都没有什么用。下载了两天结果又无法重续下载,那个心雷。经过不断尝试找到一个小技巧,可以达到800KB-1M/s的下载速度,我家宽带是100M电信带宽。具体操作如下: 1、我下载两份就是比下载速度的,事实证明先下载且速度快的始终是快了些,两个同时下载不会影响带宽的下载,因为速度本身就难提升 2、提升速度方法,每个下载,我都反复操作,平均十次左右,且反复操作,每几分钟就观测下,就是不断暂停下载 ...
Centos7 安装 Kettle8.1,包括安装依赖包 必要的工作: 官网下载最新版本的kettle,目前最新版本是8.1 一、安装JDK1.8,我的路径是/usr/local/java下 配置Java环境变量 [root@master]# vim /etc/profile export JAVA_HOME=/usr/local/java/jdk export JAVA_BIN=/usr/local/java/jdk/bin export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export ...
Step 1. Download the latest Gradle distribution The current Gradle release is version 5.4, released on 16 Apr 2019. The distribution zip file comes in two flavors: Binary-only Complete, with docs and sources https://gradle.org/next-steps/?version=5.4&format=bin Step 2. Unpack the distr ...
从kafka-0.9版本及以后,kafka的消费者组和offset信息就不存zookeeper了,而是存到broker服务器上 三种安装Kafka的方式,分别为:单节点单Broker部署、单节点多Broker部署、集群部署(多节点多Broker)。实际生产环境中使用的是第三种方式,以集群的方式来部署Kafka。Kafka强依赖ZK,如果想要使用Kafka,就必须安装ZK,Kafka中的消费偏置信息、kafka集群、topic信息会被存储在ZK中。有人可能会说我在使用Kafka的时候就没有安装ZK,那是因为Kafka内置了一个ZK,一般我们不使用它。 一、Kafka 单节点部署 Kafk ...
安装fcitx,想安装搜狗输入法,看到一个傻逼写的文章,说ibus和fcitx不能兼容,必须先卸载ibus 结果卸载ibus后,系统就无法进入了,一直黑屏。只能用文本型登录,无桌面系统 其实centos 7 中ibus和gnome很多都是绑定在一起的。不 ...
一、Redis介绍 Redis是当前比较热门的NOSQL系统之一,它是一个key-value存储系统。和Memcache类似,但很大程度补偿了Memcache的不足,它支持存储的value类型相对更多,包括string、list、set、zset和hash。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作。在此基础上,Redis支持各种不同方式的排序。和Memcache一样,Redis数据都是缓存在计算机内存中,不同的是,Memcache只能将数据缓存到内存中,无法自动定期写入硬盘,这就表示,一断电或重启,内存清空,数据丢失。所以Memcache的应用 ...
1、解压 tar -zxvf Downloads/apache-hive-3.1.1-bin.tar.gz -C applications/ 2、建软连接 ln -s apache-hive-3.1.1-bin hive 3、驱动包mysql-connector-java-5.1.27.jar放在/lib cp ~/Downloads/mysql-connector-java-5.1.46/mysql-connector-java-5.1.46.jar ~/applications/apache-hive-3.1.1-bin/lib/ 4、配置环境变量 /etc/profile ...
Global site tag (gtag.js) - Google Analytics