hadoop3.0 HA 启动start-yarn.sh失败

博客分类：

hadoop

问题描述： hadoop-3.0.0 搭建HA 启动start-yarn.sh脚本之后，ResourceManager并未启动分析：执行start-yarn.sh脚本启动yarn，log如下： jps查看ResourceManger并没有启动起来，查看启动脚本，发现需要配置yarn.resourcemanager.hostname.${id} 参数在yarn-site.xml中配置一下，重启启动 jps查看，启动成功对比hadoop-2.8.1中的strat-yarn.sh脚本，发现 hadoop-3.0中已经

2018-05-16 19:16
浏览 2411
评论(0)
分类:开源软件

influxdb安装

博客分类：

influxdb

influxdb安装

（1）下载和安装： wget https://dl.influxdata.com/influxdb/releases/influxdb-1.2.4.x86_64.rpm sudo yum localinstall influxdb-1.2.4.x86_64.rpm （2）启动 sudo service influxdb start 启动失败查看 influxdb启动日志的位置：/var/log/influxdb/influxd.log，分析发现8088端口被占用查看配置信息 influxd config | head -n 10 解决方案： ● ...

2018-04-28 18:42
浏览 2893
评论(0)
分类:开源软件

yarn架构和mr优化参数梳理

博客分类：

hadoop

yarn架构和mr优化参数梳理

2018-04-27 19:11
浏览 610
评论(0)
分类:开源软件

hadoop client机搭建

博客分类：

hadoop

hadoop client机搭建

hadoop client机作为集群的堡垒机使用，使得集群环境和开发环境分离开来选择集群外的一台机器，搭建client机，流程如下：（1）配置单向（master可以ssh到client，client不可以ssh到master）ssh免登陆，把master的id_rsa.pub内容添加到client机器的authorized_keys中（2）修改client机器的 /etc/hosts 文件，添加master节点的ip和hostname （3）把master节点的hadoop包scp到client机（4）修改client机器的 /etc/profile ...

2018-04-26 11:57
浏览 4627
评论(0)
分类:开源软件

flume 对接spark streaming

博客分类：

flume

flume对接spark streaming

1.flume对接kafka的两种方式：pull 和 push 流程如下： 2.两者的区别 3.使用pull方式可能遇到的问题：本地测试环境： spark 2.3 flume 1.8 使用pull方式，flume报错如下：（官网上存在这个bug，尚未修复：https://issues.apache.org/jira/browse/SPARK-17152） java.lang.IllegalStateException: begin() called when transaction is OPEN! 网上的解决方法: 这 ...

2018-04-25 19:01
浏览 1134
评论(0)
分类:开源软件

spark - 分区自动探测

博客分类：

spark

spark 分区探测

spark支持分区的自动探测例如：目录如下： df读取的时候，分别传不同的路径进去，schema是不一样的，通过下图可以看到，spark可以探测到当前路径下的分区可以控制这个参数，决定是否开启自动类型推测（控制的是类型推测，如果设为false，都是分区字段string类型） spark.sql.sources.partitionColumnTypeInference.enabled 测试代码：分区类型推测的源码位置：

2018-04-22 11:24
浏览 1381
评论(0)
分类:开源软件

flume ExecSource 支持获取获取指定列数据

博客分类：

flume

flume ExecSource 支持获取获取指定列数据

需求描述： flume使用 execSource 类型实现截取数据行中指定列的数据（详见下图）实现： 1.方案一： execSource接受的是linux命令，所以可以使用linux awk实现这个功能命令：tail -F /root/test.log | awk -F ',' '{print $2;ffl ...

2018-04-15 13:27
浏览 1268
评论(0)
分类:开源软件

flume 源码编译和 inteallij IDEA远程调试

博客分类：

flume

flume源码编译

1.本地环境： apache-flume-1.8.0-src （官网下载源码，或者git下载） java1.8 2.编译（1）用Inteallij IDEA 导入已下载的flume工程（2）修改flume-parent下的 pom.xml 添加 aliyun的仓库（加快下载，有些包直接从maven repository上� ...

2018-04-15 12:23
浏览 3584
评论(0)
分类:开源软件

spark -外部数据源

博客分类：

spark

外部数据源 avro

1.在Spark1.2中提供了External DataSource API，开发者可以根据接口来实现自己的外部数据源，如avro, csv, json, parquet等等。（1）spark自带的外部数据源（2）其他开发者贡献的 https://spark-packages.org/ 以avro为例，点击homepage，跳转到github网址：https://github.com/databricks/spark-avro，github页面详细介绍了用法本地shell测试 2.spark 外部数据源 Api 练习 package ...

2018-04-07 18:47
浏览 1266
评论(0)
分类:开源软件

spark - DataFrame Api 练习

博客分类：

spark

DataFrame Api 练习

DataFrame Api 练习（需要了解下functions.scala源码） package df import org.apache.spark.sql.SparkSession object DataFrameDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("DF_DEMO").master("local").getOrCreate() /** * ...

2018-04-07 18:10
浏览 1457
评论(0)
分类:开源软件

spark - RDD转成DataFrame

博客分类：

spark

spark RDD转成DataFrame

1.RDD转成DataFrame的两种方式： package df import org.apache.spark.sql.{Row, SparkSession} object RDD2DataFrame { case class Person(name: String, score: Int) def main(args: Array[String]): Unit = { //enableHiveSupport()开启支持hive val spark = SparkSession.builder().appName("DF_DE ...

2018-04-07 17:37
浏览 2936
评论(0)
分类:开源软件

spark - Spark-sql， DataFrame，DataSet名词解释

博客分类：

spark

spark sql dataframe api

1.什么是spark-sql？ spark-sql 不是sql，它是spark提供的处理结构化数据的框架，不仅仅是一个sql框架，还支持DataFrame和DataSet hive on spark 是hive提供的以spark作为计算引擎的计算框架，类似的框架还有hive on tez， mr等，hive1.1版本开始� ...

2018-04-07 16:55
浏览 1377
评论(0)
分类:开源软件

spark - 性能优化指南(基础篇)

博客分类：

spark

spark优化

参考美团的技术博客 https://tech.meituan.com/spark-tuning-basic.html，整理一下spark优化知识点。 1.尽可能少的创建RDD 避免创建重复的RDD （例如：一个文件被读取多次，对应多个RDD）尽可能复用RDD （例如： rdd1 完全包含 rdd2的信息，直接使用rdd1即可，不用再创建rdd2）对多次使用的RDD进行持久化（例如：先调用 rdd.map，第二次又调用了rdd.reduce，每次你对一个RDD执行一个算子操作时，都会重新从源头处计算一遍，计算出那个RDD来，然后再对这个RDD执行你的算子操作。这种方式的性 ...

2018-04-07 14:30
浏览 682
评论(0)
分类:开源软件

spark - sql开启thriftServer服务

博客分类：

spark

spark sql thriftServer

1.开启thriftServer服务命令：./start-thriftserver.sh --master local[2] 2.启动后，查看服务的http://hd1:4040 页面 3.启动spark bin目录下的beeline：命令：bin/beeline -u jdbc:hive2://localhost:10000 -n root 4.连接成功后，多次执行sql（我本地测试用的select * from a），然后查看服务的 http://hd1:4040/SQL/ 和 http://hd1:4040/sqlserver/ 页面 ...

2018-04-06 15:38
浏览 4113
评论(0)
分类:开源软件

flume 安装

博客分类：

flume

flume 安装

1.什么是flume？分布式的海量日志的收集，聚合，移动，传输的框架： fulme Agent是一个jvm进程，包括Source， Channel, Sink三部分。 flume event是数据流中的一个基本单位 Source接收并且消费外部数据源传递过来的events，Channel用于中间的存储，Sink做数据输出。外部数据源发送数据到flume，必须按照Source支持的格式发，例如Avro Source接收的是Avro events(可能是外部的avro client 或 avro sink发来的数据) 复杂的流：flume支持多跳的流（多个agent连接到一 ...

2018-04-05 17:36
浏览 796
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop3.0 HA 启动start-yarn.sh失败

influxdb安装

yarn架构和mr优化参数梳理

hadoop client机搭建

flume 对接spark streaming

spark - 分区自动探测

flume ExecSource 支持获取获取指定列数据

flume 源码编译和 inteallij IDEA远程调试

spark -外部数据源

spark - DataFrame Api 练习

spark - RDD转成DataFrame

spark - Spark-sql， DataFrame，DataSet名词解释

spark - 性能优化指南(基础篇)

spark - sql开启thriftServer服务

flume 安装

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>