`
landyer
  • 浏览: 139041 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
原文地址:http://www.cnblogs.com/end/archive/2011/04/26/2029496.html     一、客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的。 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public static RunningJob runJob(JobConf job) throws IOException {   //首先生成一个JobClient对象   JobClient jc = new JobClient(job);   ……   ...
原文地址:http://www.cnblogs.com/end/archive/2011/04/26/2029492.html     1、Map-Reduce的逻辑过程 假设我们需要处理一批有关天气的数据,其格式如下: 按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+ 0043011990999991950051512+0022+ 0043011990999991950051518-0011+ 0043 ...
原文地址:http://qa.taobao.com/?p=10523     引言在本系列的上篇文章中介绍了Hadoop的基本概念和架构,本文将通过一个实例演示MapReduce基本编程。在继续进行前希望能重温下前面的内容,至少理解
  原文地址:http://qa.taobao.com/?p=10514   引言最近了解到淘宝使用hadoop的项目多了起来,hadoop对于许多测试人员来说或许是个新鲜玩儿,因此,把自己之前整理的学习笔记整理发上来,希望通过此系列文章快速了解Hadoop的基本概念和架构原理,从而助于hadoop相关项目的测试理解和沟通。
1.   Hellow hadoop~~! Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。 说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机 ...
参照官方wordcount示例,统计每个产品的销量数据:产品编号    销量131B    643CB2    61BC1A    41CCC2    59ACC2    92131B     63CB2    323CB2    36BC1A    48ACC2    40将相同的产品编号的销量统计出来程序如下:   1,Mapper: package com.sun.hadoop; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop ...
在Eeclipse直接运行运行Nutch的Crawl任务,会出现异常: Hadoop java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1232) while indexing   刚开始还以为是配置文件写的有问题,在详细检查了配置文件以后,发现配置文件没有问题 查日志,发现为out of memory异常 于是乎,设置VM arguments参数如下: -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop ...
本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。 硬件环境共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0。IP配置如下:dbrg-1:202.197.18.72dbrg-2:202.197.18.73dbrg-3:202.197.18.74 这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确解析。 一个很简单的测试办法就是ping一下主机名,比如在dbrg-1上ping dbrg-2,如果能ping通就OK!若不能正确解析,可以修改/etc/hosts文件,如果该台机器作Nameno ...
hadoop 0.20 程式開發 http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617 零. 前言 ¶ 開發hadoop 需要用到許多的物件導向語法,包括繼承關係、介面類別,而且需要匯入正確的classpath,否則寫hadoop程式只是打字練習... 用類 vim 來處理這種複雜的程式,有可能會變成一場惡夢,因此用eclipse開發,搭配mapreduce-plugin會事半功倍。 早在hadoop 0.19~0.16之間的版本,筆者就試過各個plugin,每個版本的plugin都確實有大大小小的問題,如:hadoop plugi ...
学习Hadoop有一段时间了,主要是通过《Hadoop权威指南》,同时参考了网上的很多文章。静下心来,盘点下这一段时间的收获,归纳总结,做一个学习笔记,因为可以记录的东西实在太多了,所以这里就着重记录我在学习过程中花费比较多时间去理解的内容。 说到Hadoop就不能不提到Lucene和Nutch。Lucene并不是一个应用程序,只是提供了一个Java的全文索引引擎工具包,可以方便的嵌入到各种实际应用中实现全文搜索、索引功能。Nutch是一个以Lucene为基础实现的搜索引擎应用。在Nutch0.8.0版本之前,Hadoop还属于Nutch的一部分,而从Nutch0.8.0开始,将其中实现的 ...
WordCount程序应该是学习MapReduce编程最经典的样例程序了,小小一段程序就基本概括了MapReduce编程模型的核心思想。 现在考虑实现一个增强版的WordCount程序,要求: 提供大小写忽略的选项。 在原始串中,过滤掉一些内容,例如要过滤hexie,那么单词hexieshehui就作为shehui统计。第一个很好实现,只需要在map函 数里判断一下要不要toLowerCase()即可。第二个也很好实现,将需要过滤的内容组合成一个长字符串,通过JobConf设置即可,但是如果需要 过滤的参数很多,多到需要从DFS上的文件里读取呢。显然,我们可以在map函数里直接读取D ...
Hadoop学习笔记之五:使用Eclipse插件 2010年12月19日 由 yedu留言 » 引言在开发调试过程中,需要将程序打包,运行任务后通过命令或web界面查看运行输出及job运行情况,这个比较繁琐,下面介绍的eclipse插件可以简化这个过程,方便调试。
Hadoop学习笔记之四:运行MapReduce作业做集成测试 2010年12月19日 由 yedu留言 » 引言通过本系列的前篇文章用MRUnit做单元测试介绍可以很容易对MapReduce进

初学Hadoop

创建目录 hadoop dfs -mkdir 目录名(dfs也可以用fs代替) 列取目录 hadoop dfs -ls .(当前目录) hadoop dfs -ls 目录名 从本地文件系统复制文件到DFS hadoop dfs -copyFromLocal 源文件 目标文件 源文件默认从当前目录中读取,如果目标文件是相对路径则是保存在DFS的/user/root/目录下 从DFS复制文件到本地文件系统 hadoop fs -copyToLocal 源文件 目标文件 如果源文件是相对路径这是从DFS的/user/root/目录中取得,目标文件默认保存在当前目录中 在执行操 ...
基于Eclipse的Hadoop应用开发环境的配置  (2009-01-22 22:17:54) 转载 标签:  eclipse  
Global site tag (gtag.js) - Google Analytics