Spark GraphX源码解析启动篇（1）

博客分类：

spark

一直负责公司的大数据平台技术建设，也一直在使用并研究spark，讲spark架构和原理的文章非常多，但是真正对graphx，mllib，sql，r等API实现源码介绍的文章非常少，也刚好最近有些时间，就把自己使用和学习的一些心得写出来，希望会有些帮助。首先就是图计算框架GraphX，在淘宝中有比较多的应用。图计算顾名思义，就是对图结构进行分析计算，现实中社交网站，电网，互联网，物联网等等无一不是一种图结构，图的结构在现实生活中无处不在。 GraphX基于Spark的RDD计算框架来实现，基于spark的RDD实现了分布式的图数据结构，这个图结构是一个有向多重 ...

2015-07-02 16:35
浏览 1545
评论(0)
分类:开源软件

java

博客分类：

GC算法

首先感谢阿宝同学的帮助，我才对这个gc算法的调整有了一定的认识，而不是停留在过去仅仅了解的阶段。在读过sun的文档和跟阿宝讨论之后，做个小小的总结，如果有谬误，敬请指正。 CMS，全称Concurrent Low Pause Collector，是 ...

2014-06-16 11:14
浏览 601
评论(0)
分类:编程语言

storm源代码编译

博客分类：

storm源码分析

storm twitter 实时计算源码编译

storm号称是实时领域的hadoop，作为一个平台型系统，他提供了实时计算，线性扩展，ack机制，事务型Tom，DRPC，Trident等等强大的服务，应用场景也非常广泛，作为一个storm的爱好者，第一步肯定是迫不及待的想编译一下源代码，下面简单的介绍一下storm的在线编译过程，离线编译过程稍微有点复杂（有需求的可以单独联系）。 1.编译storm源代码之前需要先安装好以下软件： jdk1.6.0_37.tgz（clojure就是运行在jvm之上，这个不用多说） Python-2.6.tgz（可以使用python编写Topology） e2fsprogs-1.42.3_ ...

2013-01-25 17:15
浏览 4599
评论(0)
分类:开源软件

在公司介绍Corona时的ppt共享一下

2013-01-08 12:14
浏览 848
评论(0)
分类:开源软件

在Hadoop平台上运行程序时，导入第三方类库的方法

博客分类：

Hadoop

Hadoop Mapreduce Linux EXT JDK

在将编写的MapReduce程序提交到Hadoop集群中运行时，往往需要导入第三方类库，否则很容易报出：Error: java.lang.ClassNotFoundException:异常，首先说一下以下四种解决方法： (1) 将第三方jar包放在集群中每个节点$HADOOP_HOME/lib目录下或者JDK的ext目录下，其中$HAOOP_HOME为Hadoop的根目录。这种方法在linux下还可以写一个shell脚本，用scp或者rcp命令来实现，这脱离了java范畴，依赖操作系统，不好。 (2) 将所有的jar包解压缩，然后把他和源程序的 ...

2010-12-23 17:01
浏览 2103
评论(2)
分类:企业架构

WinRCP和Putty乱码问题的解决方法

.net thread Blog HTML

http://www.lupaworld.com/thread-18917-1-1.html http://blog.csdn.net/flyoxs/archive/2010/11/30/6044695.aspx

2010-12-07 16:55
浏览 1048
评论(0)
分类:操作系统

final关键字，finnally finalize的区别

博客分类：

Java基础学习系列

final： final关键字可以用来声明：不可变变量，静态常量，不可变参数，不可重写方法，不可继承类（String），final类的变量方法自动变成了final的，不可变引用变量可以改变其指向的对象的内部状态，但是不能改变他指向的对象。 finally：在异常处理时经常遇到，被包含在try，try/catch中，用来保证无论try语句中是否抛出异常，finally中的都能保证代码被执行，一般可以把流关闭语句，数据库连接关闭语句，网络连接关闭语句等放在finally语句块中，保证系统资源被释放，值得一提的是finally语句在try子句里面的return语句之前，catc ...

2010-09-01 21:33
浏览 1239
评论(0)
分类:编程语言

Java内存回收机制

Java 算法 JVM 编程 JDBC

Java内存回收机制：好处：不用程序员管理对象的释放，减轻了编程负担，避免了大部分的内存泄漏问题。坏处：GC线程影响了程序的性能和执行速度。原理：当一个对象在程序中不再被其他对象引用时，这个对象就可以被回收，具体回不回收跟具体的JVM及其垃圾回收算法是相关的。实现时，比较常见的一些算法就是火车算法，引用计数器算法，对象引用树，每个线程一个，值得一提的就是GC只管理堆内存，而不管理方法区，栈区，本地方法栈区，程序计数器等部分内存，而且内存管理的时候也会把堆区分为新生代和年老代去管理。程序员在编程的时候可以通过System.gc()方式，来显示的提醒JVM进行垃圾回 ...

2010-09-01 20:39
浏览 1191
评论(0)
分类:编程语言

MapReduce的适用场合

博客分类：

MapReduce

Mapreduce Access performance C C++

MapReduce is a good fit for problems that need to analyze the whole dataset, in a batch fashion, particularly for ad hoc analysis. MapReduce suits applications where the data is written once, and read many times, whereas a relational database is good for datasets that are continually updated ...

2010-08-30 13:55
浏览 1715
评论(0)
分类:编程语言

ChainMapper和ChainReducer的实现原理

博客分类：

Hadoop

由于项目中要用到ChainMapper和ChainReducer来实现数据处理流程的优化，故今天特意花了半天的时间研究了一下这两个类的实现源代码，先总结如下：实现类：Chain，ChainMapper , ChainReducer 第一步：配置链 JobConf addMapper setReducer addMapper 第二步：实现：chain configue： map： reduce： close：传值还是传引用 ...

2010-07-13 15:07
浏览 3468
评论(1)
分类:互联网

ChainMapper和ChainReducer处理数据流程示例

博客分类：

Hadoop

Hadoop Apache QQ F#

package com.oncedq.code; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.text.SimpleDateFormat; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.Writab ...

2010-06-04 16:52
浏览 3866
评论(1)
分类:企业架构

java中的可变参数

博客分类：

Java基础学习系列

Java

java1.5增加了新特性：可变参数。适用于参数个数不确定，类型确定的情况，java把可变参数当做数组处理。注意：可变参数必须位于最后一项。当可变参数个数多余一个时，必将有一个不是最后一项，所以只支持有一个可变参数。因为参数个数不定，所以当其后边还有相同类型参数时，java无法区分传入的参数属于前一个可变参数还是后边的参数，所以只能让可变参数位于最后一项。

2010-04-13 09:16
浏览 1032
评论(0)
分类:编程语言

转:Java应用开发中代码生成工具的作用

博客分类：

数据流程

Java

http://www.infoq.com/cn/news/2009/09/codegen-java-development

2009-12-28 21:04
浏览 759
评论(0)

基于代码生成的数据流程实现方式

博客分类：

数据流程

框架

1. 有什么用？答：模型驱动的开发，用户构建好一个数据模型，程序自动会生成。数据模型实现了最大限度的重用，提供了在不同的框架中迁移代码的能力，只需要改模板，数据模型保持不变。相对于死板的写代码，代码生成技术提供了更好的变更能力，改变了传统的软件开发流程，有一点不好的是调试太不方便，很容易出错。 2. 怎么用？数据流程是一个模型，定义好模型参数。数据流程的执行是一份代码，写好执行代码。

2009-12-28 20:58
浏览 834
评论(0)
分类:企业架构

博卡工作助手即时通信

博客分类：

项目感怀

工作

博卡工作助手项目虽然顺利完成了一个初始版本，从软件工程的角度来总结一下这个过程中的一些经验吧： 1.

2009-12-26 23:47
浏览 966
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark GraphX源码解析启动篇（1）

java

storm源代码编译

在公司介绍Corona时的ppt共享一下

在Hadoop平台上运行程序时，导入第三方类库的方法

WinRCP和Putty乱码问题的解决方法

final关键字，finnally finalize的区别

Java内存回收机制

MapReduce的适用场合

ChainMapper和ChainReducer的实现原理

ChainMapper和ChainReducer处理数据流程示例

java中的可变参数

转:Java应用开发中代码生成工具的作用

基于代码生成的数据流程实现方式

博卡工作助手即时通信

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>