`
congli
  • 浏览: 14921 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
第一个程序 将搜狗实验室的日志分析,分析出查询排行榜; 需要先将txt文件传到HDFS上,然后分析; 程序代码: package main.scala import org.apache.spark.{ SparkContext, SparkConf } import org.apache.spark.SparkContext._ object SogouQA { def main(args: Array[String]) { // if (args.length == 0) { 都在里面运行不需要提交参数 // System.er ...
下载和安装Scala插件 Scala IDE(http://scala-ide.org/);或者在已有的Eclipse IDE里面安装Scala插件,选择插件安装时注意要选Scala worksheet功能,以方便在Eclipse里面直接测试一些代码片段。也要看清楚和对应版本的Eclipse,不然会有问题。 下载后,叫update-site.zip,将里面对应的jar拷贝到eclipse的plugin和features下。 然后再将页面上,绿色部分的地址拷贝,将其安装。 安装方法: a 打开help菜单->install new software b 绿色部分的地址拷贝,加 ...
我目前了解的有一下几个用处: 1、作为“通配符”,类似Java中的*。如import scala.math._ 2、:_*作为一个整体,告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。 3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶数,并乘以2,可以用以下办法: a.filter(_%2==0).map(2*_)。 又如要对缓冲数组ArrayBuffer b排序,可以这样: val bSorted = b.sorted(_ 4、在元组中,可以用方法_1, _2, _3访问组员。如a._2 ...
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍Spark RDD中与Map和Reduce相关的API中。 如何创建RDD? RDD可以从普通数组创建出来,也可以从文件系统或者HDFS中的文件创建出来。 举例:从普通数组创建RDD,里面包含了1到9这 ...
不van骄傲
word写好再粘过来
背景及用处 用来看问号的说明,样式美观,书写比较方便; 缺点是,当需要动态的时候,箭头指向不到鼠标的点; 官网: 介绍和例子都可以参见官方网站: http://vadikom.com/demos/poshytip/#、 经验总结 对于在弹出层例如之前的dialog组件上弹出tootip,这样的话tootip会被弹出层遮挡,所以要改原始的css文件,加上绝对位置定位position:absolute ;以及z-index:10000;这样才确保tootip显示在最上面;
这个组件式参考了一篇博客: http://hngmduyi.iteye.com/blog/1660075 组件的具体介绍见此博客即可; 但是此组件有几处可优化的地方,后续在介绍热力点击图的时候,会将所有功能介绍完整
背景 公司要做一个热力点击图,并能选择一定的区域(框选出一个矩形),并拿到左上角和右下角的坐标。然后计算该区域的点击量以及所占页面点击量的百分比,并显示在框选区域内,并显示在弹出层上。 框选的组件选择了imgAreaSelect; 介绍 官网:http://odyniec.net/projects/imgareaselect 英文介绍:http://odyniec.net/projects/imgareaselect/usage.html#styling-options 中文介绍:http://www.poluoluo.com/jzxy/201110/145600.html 练手的例 ...
JDK和Scala的安装 请参阅Hadoop安装文章里的说明:http://congli.iteye.com/blog/2158007 SSH无密码登录 请参阅Hadoop安装文章里的说明:http://congli.iteye.com/blog/2158007 Spark的下载和安装包解压 1、  下载spark,我用的是1.1.0 for hadoop2.4版本,不用自己编译(暂时没有需要编译的需求,且编译需要下载jar包等,有些被墙了,先用编译好的) 2、  用hadoop用户解压安装: tar zxf /home/spark/spark-1.1.0-bin-hadoop2.4.t ...
由于Spark以后会用到HDFS以及YARN,所以第一步可以先将Hadoop的最简单的集群搭建好,以便以后方便使用。 集群规划(根据我虚拟机而定): NameNode – Hadoop1 ( 192.168.52.151) DataNode – Hadoop1 ( 192.168.52.151) – Hadoop2 ( 192.168.52.162) – Hadoop3 ( 192.168.52.163) 系统环境: centos6.3 x64 vmware 硬盘:30G 内存:1G hadoop版本:hadoop-2.4.0(为了方便Spark1.1.0 for Hadoop2.4的 ...
Global site tag (gtag.js) - Google Analytics