spark使用总结 - chaoboma - ITeye博客

`

chaoboma

浏览: 22943 次
性别:
来自: 北京

最近访客更多访客>>

ieo2004

z5241248

hgsunyong

大龙湖东哥

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

spark使用总结

博客分类：

spark

阅读更多

1.
RDD：Resilient Distributed Dataset 弹性分布数据集
http://developer.51cto.com/art/201309/410276_1.htm
2.spark-shell 的使用

./spark-shell --driver-library-path :/usr/local/hadoop-1.1.2/lib/native/Linux-i386-32:/usr/local/hadoop-1.1.2/lib/native/Linux-amd64-64:/usr/local/hadoop-1.1.2/lib/hadoop-lzo-0.4.17-SNAPSHOT.jar
3.
wordcount 程序
val file = sc.textFile("hdfs://192.168.100.99:9000/user/chaobo/test/tmp/2014/07/07/hive-site.xml.lzo")
val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)
结果打印到屏幕count.collect()
结果写到hdfs count.saveAsTextFile("hdfs://192.168.100.99:9000/user/chaobo/result_20140707") 最后一级目录不能存在
4.启动主节点
../sbin/start-master.sh
5.启动子节点
../sbin/start-slave.sh --webui-port 8081

分享到：

从任意hive单表读取并计算数据写入任意mysq ... | 新建hadoop及hive账户

2014-07-07 15:11
浏览 747
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark使用总结与分享: 忆苦思甜，为了避免项目组的其他同学走弯路，决定总结和梳理spark的使用经验。spark的核心是RDD（弹性分布式数据集），一种通用的数据抽象，封装了基础的数据操作，如map，filter，reduce等。RDD提供数据共享的抽象...

Spark学习总结-入门: Spark是一个高效的分布式计算系统，发源...Spark立足于内存计算，相比Hadoop MapReduce，Spark在性能上要高100倍，而且Spark提供了比Hadoop更上层的API，同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。

spark个人总结.doc: 实际情况，与理想情况不同的，...那如果task数量设置成cpu core总数的2~3倍，那么一个task运行完了以后，另一个task马上可以补上来，就尽量让cpu core不要空闲，同时也是尽量提升spark作业运行的效率和速度，提升性能。

spark学习总结-入门: spark学习总结-入门

spark期末复习题总结: spark期末复习题总结

Spark生产优化总结: Spark生产优化总结，企业中Spark作业的调优等的总结，spark 任务详解、调度、资源分配

Spark零基础思维导图(内含spark-core ，spark-streaming,spark-sql)，总结的很全面.zip: Spark零基础思维导图(内含spark-core ，spark-streaming,spark-sql)，总结的很全面。 Spark零基础思维导图(内含spark-core ，spark-streaming,spark-sql)。 Spark零基础思维导图(内含spark-core ，spark-streaming,...

spark知识点个人总结: spark知识点个人总结

Spark总结PPT: Spark总结PPT介绍spark常用的方法，shuffle，优化方法等

spark读取hbase数据，并使用spark sql保存到mysql: 使用spark读取hbase中的数据，并插入到mysql中

Spark学习总结-入门.rar_Spark!_spark_spark入门_大数据 spark: 这是一位大数据分析开发者的一本Spark入门学习用的总结

实验八、Spark的安装与使用.doc: 实验八、Spark的安装与使用.doc

spark学习总结: 我是何成俭，很高兴认识你

SparkCore总结.xmind: spark core的总结包括分区累加器。

spark3.0优化总结: spark3.0优化总结

spark调优.rar: 个人spark学习总结文档，个人使用，个人spark学习总结文档，个人使用个人spark学习总结文档，个人使用

Spark2学习总结: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架

大数据技术实践——Spark词频统计: 本次作业要完成在Hadoop平台搭建完成的基础上，利用Spark组件完成文本词频统计的任务，目标是学习Scala语言，理解Spark编程思想，基于Spark 思想，使用IDEA编写SparkWordCount程序，并能够在spark-shell中执行代码和...

Global site tag (gtag.js) - Google Analytics