`
功夫小当家
  • 浏览: 183420 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
问题描述:     hadoop-3.0.0 搭建HA 启动start-yarn.sh脚本之后,ResourceManager并未启动   分析: 执行start-yarn.sh脚本启动yarn,log如下:   jps查看ResourceManger并没有启动起来, 查看启动脚本,发现需要配置yarn.resourcemanager.hostname.${id} 参数   在yarn-site.xml中配置一下,重启启动   jps查看,启动成功   对比hadoop-2.8.1中的strat-yarn.sh脚本,发现 hadoop-3.0中已经
(1)下载和安装: wget https://dl.influxdata.com/influxdb/releases/influxdb-1.2.4.x86_64.rpm sudo yum localinstall influxdb-1.2.4.x86_64.rpm   (2)启动 sudo service influxdb start   启动失败查看 influxdb启动日志的位置:/var/log/influxdb/influxd.log,分析发现8088端口被占用   查看配置信息 influxd config | head -n 10   解决方案:   ● ...
yarn架构和mr优化参数梳理 
hadoop client机作为集群的堡垒机使用,使得集群环境和开发环境分离开来   选择集群外的一台机器,搭建client机,流程如下: (1)配置单向(master可以ssh到client,client不可以ssh到master)ssh免登陆, 把master的id_rsa.pub内容添加到client机器的authorized_keys中   (2)修改client机器的 /etc/hosts 文件,添加master节点的ip和hostname   (3)把master节点的hadoop包scp到client机 (4)修改client机器的 /etc/profile ...
1.flume对接kafka的两种方式:pull 和 push 流程如下:    2.两者的区别   3.使用pull方式可能遇到的问题: 本地测试环境: spark 2.3 flume 1.8    使用pull方式,flume报错如下:   (官网上存在这个bug,尚未修复:https://issues.apache.org/jira/browse/SPARK-17152)   java.lang.IllegalStateException: begin() called when transaction is OPEN!     网上的解决方法: 这 ...
spark支持分区的自动探测 例如:目录如下:  df读取的时候,分别传不同的路径进去,schema是不一样的,通过下图可以看到,spark可以探测到当前路径下的分区   可以控制这个参数,决定是否开启自动类型推测(控制的是类型推测,如果设为false,都是分区字段string类型) spark.sql.sources.partitionColumnTypeInference.enabled     测试代码:     分区类型推测的源码位置:      
需求描述:     flume使用 execSource 类型 实现截取数据行中指定列的数据(详见下图)       实现: 1.方案一: execSource接受的是linux命令,所以可以使用linux awk实现这个功能    命令:tail -F /root/test.log | awk -F ',' '{print $2;ffl ...
1.本地环境: apache-flume-1.8.0-src (官网下载源码,或者git下载) java1.8   2.编译     (1)用Inteallij IDEA 导入已下载的flume工程       (2)修改flume-parent下的 pom.xml 添加 aliyun的仓库(加快下载,有些包直接从maven repository上 ...
1.在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。   (1)spark自带的外部数据源  (2)其他开发者贡献的 https://spark-packages.org/   以avro为例,点击homepage,跳转到github网址:https://github.com/databricks/spark-avro,github页面详细介绍了用法   本地shell测试       2.spark 外部数据源 Api 练习 package ...
DataFrame Api 练习(需要了解下functions.scala源码)   package df import org.apache.spark.sql.SparkSession object DataFrameDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("DF_DEMO").master("local").getOrCreate() /** * ...
1.RDD转成DataFrame的两种方式: package df import org.apache.spark.sql.{Row, SparkSession} object RDD2DataFrame { case class Person(name: String, score: Int) def main(args: Array[String]): Unit = { //enableHiveSupport()开启支持hive val spark = SparkSession.builder().appName("DF_DE ...
1.什么是spark-sql? spark-sql 不是sql,它是spark提供的处理结构化数据的框架,不仅仅是一个sql框架,还支持DataFrame和DataSet hive on spark 是hive提供的以spark作为计算引擎的计算框架,类似的框架还有hive on tez, mr等,hive1.1版本开始 ...
参考美团的技术博客 https://tech.meituan.com/spark-tuning-basic.html,整理一下spark优化知识点。   1.尽可能少的创建RDD 避免创建重复的RDD (例如:一个文件被读取多次,对应多个RDD) 尽可能复用RDD (例如: rdd1 完全包含 rdd2的信息,直接使用rdd1即可,不用再创建rdd2) 对多次使用的RDD进行持久化 (例如:先调用 rdd.map,第二次又调用了rdd.reduce,每次你对一个RDD执行一个算子操作时,都会重新从源头处计算一遍,计算出那个RDD来,然后再对这个RDD执行你的算子操作。这种方式的性 ...
1.开启thriftServer服务 命令:./start-thriftserver.sh --master local[2]   2.启动后,查看服务的http://hd1:4040  页面   3.启动spark bin目录下的beeline: 命令:bin/beeline -u jdbc:hive2://localhost:10000 -n root   4.连接成功后,多次执行sql(我本地测试用的select * from a),然后查看服务的 http://hd1:4040/SQL/  和 http://hd1:4040/sqlserver/ 页面      ...

flume 安装

1.什么是flume?     分布式的海量日志的收集,聚合,移动,传输的框架: fulme Agent是一个jvm进程,包括Source, Channel, Sink三部分。 flume event是数据流中的一个基本单位 Source接收并且消费外部数据源传递过来的events,Channel用于中间的存储,Sink做数据输出。外部数据源发送数据到flume,必须按照Source支持的格式发,例如Avro Source接收的是Avro events(可能是外部的avro client 或 avro sink发来的数据) 复杂的流:flume支持多跳的流(多个agent连接到一 ...
Global site tag (gtag.js) - Google Analytics