第一个Spark程序（编码+Spark-submit提交运行）

博客分类：

Spark之路

第一个程序将搜狗实验室的日志分析，分析出查询排行榜；需要先将txt文件传到HDFS上，然后分析；程序代码： package main.scala import org.apache.spark.{ SparkContext, SparkConf } import org.apache.spark.SparkContext._ object SogouQA { def main(args: Array[String]) { // if (args.length == 0) { 都在里面运行不需要提交参数 // System.er ...

2014-12-23 15:01
浏览 5934
评论(0)
分类:行业应用

Spark开发环境搭建（for Eclipse）

博客分类：

Spark之路

下载和安装Scala插件 Scala IDE（http://scala-ide.org/）；或者在已有的Eclipse IDE里面安装Scala插件，选择插件安装时注意要选Scala worksheet功能，以方便在Eclipse里面直接测试一些代码片段。也要看清楚和对应版本的Eclipse,不然会有问题。下载后，叫update-site.zip,将里面对应的jar拷贝到eclipse的plugin和features下。然后再将页面上，绿色部分的地址拷贝，将其安装。安装方法: a 打开help菜单->install new software b 绿色部分的地址拷贝,加 ...

2014-12-23 14:20
浏览 1662
评论(0)
分类:行业应用

Scala中的下划线到底有多少种应用场景

博客分类：

Scala学习

我目前了解的有一下几个用处： 1、作为“通配符”，类似Java中的*。如import scala.math._ 2、:_*作为一个整体，告诉编译器你希望将某个参数当作参数序列处理！例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。 3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶数，并乘以2，可以用以下办法： a.filter(_%2==0).map(2*_)。又如要对缓冲数组ArrayBuffer b排序，可以这样： val bSorted = b.sorted(_ 4、在元组中，可以用方法_1, _2, _3访问组员。如a._2 ...

2014-12-23 09:18
浏览 1193
评论(0)
分类:行业应用

Spark RDD API详解(一) Map和Reduce

博客分类：

Spark之路

RDD是什么？ RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分，将介绍Spark RDD中与Map和Reduce相关的API中。如何创建RDD？ RDD可以从普通数组创建出来，也可以从文件系统或者HDFS中的文件创建出来。举例：从普通数组创建RDD，里面包含了1到9这 ...

2014-12-23 09:16
浏览 535
评论(0)
分类:行业应用

将博客搬至CSDN

不van骄傲

2014-12-17 10:01
浏览 378
评论(0)
分类:非技术

热力点击图--划区统计的前端实现

博客分类：

热力点击图

word写好再粘过来

2014-11-26 10:17
浏览 634
评论(0)
分类:Web前端

热力图划区统计--用到的tootip组件介绍

博客分类：

前端开源组件

背景及用处用来看问号的说明，样式美观，书写比较方便；缺点是，当需要动态的时候，箭头指向不到鼠标的点；官网：介绍和例子都可以参见官方网站： http://vadikom.com/demos/poshytip/#、经验总结对于在弹出层例如之前的dialog组件上弹出tootip,这样的话tootip会被弹出层遮挡，所以要改原始的css文件，加上绝对位置定位position:absolute ；以及z-index:10000；这样才确保tootip显示在最上面；

2014-11-26 10:16
浏览 690
评论(0)
分类:Web前端

热力图划区统计--用到的jquery_dialog组件介绍

博客分类：

前端开源组件

jquery dialog 弹出层

这个组件式参考了一篇博客： http://hngmduyi.iteye.com/blog/1660075 组件的具体介绍见此博客即可；但是此组件有几处可优化的地方，后续在介绍热力点击图的时候，会将所有功能介绍完整

2014-11-25 14:42
浏览 612
评论(0)
分类:Web前端

热力图划区统计--用到的imgAreaSelect组件介绍

博客分类：

前端开源组件

背景公司要做一个热力点击图，并能选择一定的区域（框选出一个矩形），并拿到左上角和右下角的坐标。然后计算该区域的点击量以及所占页面点击量的百分比，并显示在框选区域内，并显示在弹出层上。框选的组件选择了imgAreaSelect; 介绍官网：http://odyniec.net/projects/imgareaselect 英文介绍：http://odyniec.net/projects/imgareaselect/usage.html#styling-options 中文介绍：http://www.poluoluo.com/jzxy/201110/145600.html 练手的例 ...

2014-11-25 14:14
浏览 424
评论(0)
分类:Web前端

Spark Standalone 集群部署图文分享

博客分类：

Spark之路

Spark

JDK和Scala的安装请参阅Hadoop安装文章里的说明：http://congli.iteye.com/blog/2158007 SSH无密码登录请参阅Hadoop安装文章里的说明：http://congli.iteye.com/blog/2158007 Spark的下载和安装包解压 1、下载spark，我用的是1.1.0 for hadoop2.4版本，不用自己编译（暂时没有需要编译的需求，且编译需要下载jar包等，有些被墙了，先用编译好的） 2、用hadoop用户解压安装： tar zxf /home/spark/spark-1.1.0-bin-hadoop2.4.t ...

2014-11-19 16:37
浏览 1347
评论(0)
分类:企业架构

Hadoop的分布式安装部署图文分享

博客分类：

Hadoop基础

由于Spark以后会用到HDFS以及YARN，所以第一步可以先将Hadoop的最简单的集群搭建好，以便以后方便使用。集群规划（根据我虚拟机而定）: NameNode – Hadoop1 （ 192.168.52.151） DataNode – Hadoop1 （ 192.168.52.151） – Hadoop2 （ 192.168.52.162） – Hadoop3 （ 192.168.52.163）系统环境： centos6.3 x64 vmware 硬盘：30G 内存：1G hadoop版本：hadoop-2.4.0（为了方便Spark1.1.0 for Hadoop2.4的 ...

2014-11-19 14:37
浏览 1481
评论(0)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

第一个Spark程序（编码+Spark-submit提交运行）

Spark开发环境搭建（for Eclipse）

Scala中的下划线到底有多少种应用场景

Spark RDD API详解(一) Map和Reduce

将博客搬至CSDN

热力点击图--划区统计的前端实现

热力图划区统计--用到的tootip组件介绍

热力图划区统计--用到的jquery_dialog组件介绍

热力图划区统计--用到的imgAreaSelect组件介绍

Spark Standalone 集群部署图文分享

Hadoop的分布式安装部署图文分享

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>