Hadoop读书笔记----（四）序列化

博客分类：

hadoop

Hadoop 分布式计算，序列化是Hadoop通过RPC调用，使得每个节点之间有效沟通的方法。于是序列化就成为了分布式计算的一个重要课题。序列化之后，对于分布式计算还需要排序。因此排序也相当重要： Hadoop要求对象在序列化之后的字节也能够支持排序，以提高计算速度，还不必产生很多无谓的数据。下面两张图记录了JAVA原生类型转化成序列化以后所占的字节数 Hadoop里关于Writeable 相关类的继承树： A，Text类相当于 java.lang.String，不同的是Text用的是UTF-8的编码来解析的。也 ...

2010-01-09 11:26
浏览 2012
评论(0)
分类:非技术

Hadoop读书笔记----（三）压缩与解压缩

博客分类：

hadoop

Hadoop 读书算法 Mapreduce

压缩是否支持多文件和分割： hadoop默认用压缩算法的本地实现 ===============================邪恶的分割线======================= 压缩是否有本地实现：hadoop的mapReduce算方法需要Splittable的压缩算法支持。如何选择压缩算法：举例：大型的日志文件存储 1，不要压缩存储 2，选择zip 或者bzip2能 Splittable 的压缩算法 3，先把分成chunk，再选择任意一种压缩算法压缩 4，使用SequnceFile

2010-01-07 22:36
浏览 3390
评论(0)
分类:非技术

Hadoop读书笔记----（二）写文件

博客分类：

hadoop

Hadoop 读书 F#

hadoop写文件：流程：修正：跟了源代码，发现往HDFS里创建文件的源代码: public FSDataOutputStream create(Path f, Progressable progress) throws IOException { return create(f, true, getConf().getInt("io.file.buffer.size", 4096), getDefaultReplication(), ...

2010-01-06 20:41
浏览 2494
评论(0)
分类:非技术

Hadoop读书笔记----（一）概览+访问HDFS

博客分类：

hadoop

Hadoop 读书 JVM XML 活动

概览： ==================================== 邪恶的分割线 ======================= 访问HDFS 一，通过JAVA的URL类直接访问HDFS A，输入命令 bin/hadoop namenode -format B，输入命令 bin/start-all.sh 启动单机模式（前提是都配置好的情况下如果没有配置好可以参考http://hadoop.apache.org/common/docs/current/quickstart.html） C，hdfs -copyFromLocal txy. ...

2010-01-03 22:27
浏览 10511
评论(1)
分类:编程语言

hadoop常见配置含义备忘录

博客分类：

hadoop

Hadoop 框架

列了很多配置的参数其中红色的配置为必须配置参数参数取值备注 fs.default.name NameNode 的URI。 hdfs://主机名/ dfs.hosts/dfs.hosts.exclude 许可/拒绝DataNode列表。如有必要，用这个文件控制许可的datanode列表。 dfs.replication 默认： 3 数据复制的分数 dfs.name.dir 举例：/home/user ...

2009-12-21 23:13
浏览 2388
评论(0)
分类:编程语言

自己常用的网络地址

博客分类：

常见概念

Hadoop Spring Comet Ant IBM

因为在家里和公司都用的不同的浏览器，我把常用的URL地址记下来方便些，再此谢过JAVAEYE的的空间： JAVA常见用法 http://www.java2s.com/CN/Code/Java/File-Input-Output/Sortfilesbaseontheirlastmodifieddate.htm hadoop wiki http://wiki.apache.org/hadoop/FrontPage hadoop 官方网站 http://www.hadoop.org.cn/document/cn/r0.18.2/in ...

2009-12-19 21:55
浏览 1161
评论(2)
分类:编程语言

Quartz 学习第二课

博客分类：

spring

quartz Bean Spring HTML

根据官方文档上写的一些内容，因为发现文档写的不太详细：http://www.redsaga.com/spring_ref/2.0/html/scheduling.html ，所以自己尝试了下。记录了下来： 1，想要执行的任务实现了Quartz的接口，例如： public class RepeatPartBuild implements StatefulJob { private int i; public void execute(JobExecutionContext context) throws JobExecutionException { ...

2009-12-15 23:25
浏览 1146
评论(0)
分类:企业架构

Linux 文件时间的讲究

博客分类：

linux

Linux vim Access

LINUX有很多细节，今天遇到了文件时间的问题，特此记下来，一备后日回忆起来记下。一個檔案記錄的時間參數有三種，分別是 modification time (mtime) ：當該檔案的『內容資料』變更時，就會更新這個時間！內容資料指的是檔案的內容，而不是檔案的屬性或權限喔！ status time (ctime) ：當該檔案的『狀態 (status)』改變時，就會更新這個時間，舉例來說，像是權限與屬性被更改了，都會更新這個時間啊。 access time (atime) ：當『該檔案的內容被取 ...

2009-12-15 21:56
浏览 1195
评论(0)
分类:操作系统

常见LINUX使用

博客分类：

linux

Linux 软件测试编程 C#C++

linux 安装tar包软件： http://linux-vbird.bluedata.org/linux_base/0520source_code_and_tarball.htm#tarball_step awk 把多行日志显示成一行: awk '{if (NR % 6) printf $0 ; else print $0}' export.log_bak cookie_log 统计 cat cookie_log | awk '{print $8 " " $5}' | sed s/"\?.* "/" " ...

2009-12-11 17:45
浏览 1160
评论(0)
分类:操作系统

struts 乱码问题

博客分类：

web层

Struts Tomcat XML

最重要的保证页面本身的编码，页面传递的参数或者URL传递的参数的编码，用相应的编码解析request中带的参数，输出到页面的编码都是同一种编码！！！其次要理解下面两种情况：提交的两种方式,GET和POST 1.记住超链接是GET方式提交，FORM表单没写method也是GET方式 GET方式不能用统一转码，但可以 name=new String(name.getBytes("ISO-8859-1"),"GB18030"); //这种也叫重新赋值的方式 ...

2009-12-05 22:45
浏览 1173
评论(0)

struts2 与 spring 整合

博客分类：

web层

Spring velocity Struts Bean Apache

此文章的例子承接上一篇与velocity整合的例子：首先看下需要依赖的类库： <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>3.8.1</version> <scope>test</scope> </dependency> <dependency> ...

2009-11-27 00:30
浏览 1286
评论(0)

struts2 的 velocity整合

博客分类：

web层

velocity Struts Servlet Apache Web

感觉现在的JAVA框架越来越多，纷繁复杂。想彻底研究一种框架，了解下其中的一些通用的东西，于是选择了struts2。看了很多struts2的文档，发现很多都是在讲struts2与JSP使用很多标签库，我不喜欢用那么多的标签，于是研究了下如何使用velocity与 struts2整合。主要有四个步骤： 1，添加pom依赖 (这里我采用 maven管理依赖，相当方便) <dependency> <groupId>org.apache.velocity</groupId> <artifactId>velocit ...

2009-11-21 23:51
浏览 10399
评论(1)

JAVA 正则表达式初探

博客分类：

常见概念

正则表达式 Java Apache SVN J2SE

一直听说apache 有个oro的正则表达式比JAVA的好，于是稍仔细的研究了一番：写了些许个很简单的代码： package com.yajun; import java.util.ArrayList; import java.util.List; import org.apache.oro.text.regex.MalformedPatternException; import org.apache.oro.text.regex.Pattern; import org.apache.oro.text.regex.PatternCompiler; import org. ...

2009-11-16 23:13
浏览 4486
评论(0)

常用杂谈

Windows

VirtualBox 开启远程桌面服务。 VBoxHeadless --startvm windows （这里的windows为虚拟的名称）

2009-11-16 21:23
浏览 1229
评论(0)

将文本的16进制转换为真正的2进制存入文本

博客分类：

常见概念

前些天想要抓包分析，抓下来的包都是16进制文本，想要复制过来转化成真正的二进制分析。于是写了下面的程序： package com.yajun; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; /** * 将16进制字符串转换为二进制数据存入文本 * * @author yajun.wuyj */ public class IntegerDeocde { public static void main(String[] arg ...

2009-11-12 23:55
浏览 2179
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop读书笔记----（四）序列化

Hadoop读书笔记----（三）压缩与解压缩

Hadoop读书笔记----（二）写文件

Hadoop读书笔记----（一）概览+访问HDFS

hadoop常见配置含义备忘录

自己常用的网络地址

Quartz 学习第二课

Linux 文件时间的讲究

常见LINUX使用

struts 乱码问题

struts2 与 spring 整合

struts2 的 velocity整合

JAVA 正则表达式初探

常用杂谈

将文本的16进制转换为真正的2进制存入文本

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>