最新文章列表

MapReduce来构建索引

单机程序使用使用hadoop的构建lucene索引,本篇呢,我们里看下如何使用MapReduce来构建索引,代码如下: Java代码   package com.mapreduceindex;      import java.io.IOException;   import java.util.ArrayList;   import java.util.List; ...
weitao1026 评论(0) 有501人浏览 2016-12-14 10:04

Win7下用Eclipse向Hadoop2.5.2集群提交MapReduce程序的注意事项

  主要描述下,在Win7环境下,通过eclipse往集群提交MapReduce程序的过程。 一、环境说明: 开发环境:WIN7 Eclipse版本:eclipse-jee-indigo Hadoop版本:Hadoop ...
szjian 评论(0) 有958人浏览 2016-04-14 11:14

大数据入门

一.典型高性能计算机软件栈   二.大数据处理平台与应用的特性 MPI要求所有资源都可用才能正常运行,容错困难,MPI在系统同构时才能发挥效率。 大数据平台需要支持廉价的硬件,软件需要支持自动容错和自动负载平衡—即支持扩展性。 1.MapReduce编程模型 a.借用了函数语言的概念 b.用户只需要写串行的Map和Reduce函数 map(in key, in_value) ...
bijian1013 评论(0) 有644人浏览 2016-03-26 23:01

hadoop mapreduce v1接口实现自定义inputformat,mysql作为输入

工作需要,自定义实现hadoop的一个inputformat,使用v1的接口(org.apache.hadoop.mapred),此inputformat的功能为读取mysql数据库的数据,将这些数据分成几块作为多个InputSplit, package com.demo7; import java.io.DataInput; import java.io.DataOutput; i ...
linc09 评论(0) 有865人浏览 2016-03-24 14:17

深入浅出Hadoop实战开发视频教程升级版

下载地址:http://pan.baidu.com/s/1o7rEcNS 密码:f74s hadoop版本:hadoop 2.4.1 hive版本:hive 0.13.1 hbase版本:hbase 0.98.6.1 centos版本:6.5 课程大纲: 01,课程介绍,HDFS架构和原理,搭建CentOS开发环境 > Hadoop背景 > HDFS设计目标,应用场景,架构分析 ...
捣蛋小孩 评论(1) 有405人浏览 2016-01-19 14:39

MAC下hadoop开发环境搭建系列(五)

  分享一个mapreduce程序,作用:将hdfs文件数据批量加载进redis内存数据库: 1.源代码:   /** * Program: * The program is used to batch load data to redis by Jedis. * History: * Created by Qingshou Chen on 15/11/13. */package ...
qingshou117 评论(0) 有1421人浏览 2015-12-21 19:34

近一月翻阅资料小结

近一个月接触的东西比较多,梳理一下。   Nginx+Tomcat, 实现负载均衡,同时采用keepalived的形式实现HA。负载后,关键问题就是session共享的问题,可实现的思路较多:Tomcat6以后本身可以使用cluster技术达成。也可以借鉴第三方软件实现。Memcached,redis都是采用的方案,【tomcat8在redis的方案中兼容性稍差,可以改造原有jar包,目前 ...
guooo 评论(0) 有594人浏览 2015-12-19 17:41

Hive (一) 简介

Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。 其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。   适用场景 Hive 的最佳使 ...
bibithink 评论(0) 有557人浏览 2015-12-10 11:51

spring hadoop之batch处理(二)

一、测试 public class MrBatchApp {     // Log     private static final Log log = LogFactory.getLog(MrBatchApp.class);     //     public static void main(String[] args) throws      JobParametersInvalidExce ...
dalan_123 评论(0) 有1471人浏览 2015-11-24 18:10

spring hadoop之mapreduce batch

一、测试 // 定义hadoop configuration Configuration conf = new Configuration(); // 指定hdfs上获取分析文件目录和输出分析结果目录 // 格式:hdfs://10.33.96.241:8020/user/tweets/input //       hdfs://10.33.96.241:8020/user/tweets/outpu ...
dalan_123 评论(0) 有585人浏览 2015-11-24 15:51

Hadoop MapReduce表关联

假设有两个文件,分别对应要关联的两张表(部门表,员工表)部门表文件格式如下:部门ID    部门名称1            技术部2            市场部员工表文件格式如下:部门ID    员工ID    员工姓名1             1             小明1             2             张三2             3             ...
kenblog 评论(0) 有734人浏览 2015-11-17 23:25

从菜鸟走向大数据高手

大数据是用scala语言,和java有些不同又比java强大,省去了很多繁琐的东西,scala中的的接口用trait来定义,不同于java的接口,trait中可以有抽象方法也可 ...
lionkingzw 评论(0) 有945人浏览 2015-11-15 11:37

Hadoop2.7.1配置NameNode+ResourceManager高可用原理分析

关于NameNode高可靠需要配置的文件有core-site.xml和hdfs-site.xml 关于ResourceManager高可靠需要配置的文件有yarn-site.xml 逻辑结构: NameNode-HA工作原理: 在一个典型的HA集群中,最好有2台独立的机器的来配置NameNode角色,无论在任何时候,集群中只能有一个NameNode作为Active状态,而另一个是Stan ...
qindongliang1922 评论(0) 有3135人浏览 2015-11-11 19:51

Hadoop+Hbase+Zookeeper(独立)环境搭建 ---(转)

准备的机器信息:192.168.247.128  dengnn(master)   192.168.247.129 dengdn1 (slave1)   192.168.247.130 dengdn2 (slave2)集群搭建 参考资料 cloudera hadoop 搭建http://he ...
dalan_123 评论(0) 有569人浏览 2015-10-23 08:34

hadoop2.6.1单机安装

centos6.6安装hadoop2.6.1操作步骤 大致如下 1.安装JDK 1.1下载上传 jdk-7u79-linux-i586.rpm 1.2安装 rpm -ivh jdk-7u79-linux-i586.rpm 1.3将java添加到环境变量中 vim /etc/profile #在文件最后添加 export JAVA_HOME=/usr/java/jdk1.7.0_79/ expor ...
dalan_123 评论(0) 有1108人浏览 2015-10-22 17:12

一个适合MapReduce处理的gz压缩方式

最近在筹备hadoop,测试集群只有普通的6个虚拟机,每个1G内存,100G硬盘。所以在yarn进行资源调度的时候比较纠结,硬盘空间也有限。在执行作业的时候就希望能够尽量对输入数据进行压缩。 hadoop可以直接处理gz格式的压缩文件,但不会产生split,而是不论多大都直接交给一个Mapper去做,因为gz在算法上不支持split。虽然bzip2支持split,但压缩速度又比较慢,gz可以说是 ...
lihaosu 评论(0) 有1464人浏览 2015-10-21 13:48

Hadoop学习笔记 2 - MapReduce 简单实例

1.2 MapReduce开发实例   MapReduce 执行过程,如下图,(先由Mapper进行map计算,将数据进行分组,然后在由Reduce进行结果汇总计算)   直接上代码 package com.itbuilder.hadoop.mr; import java.io.IOException; import org.apache.hadoop.conf.Con ...
muruiheng 评论(0) 有887人浏览 2015-10-18 11:54

Sqoop--关系型数据库跟hdfs数据传输工具

1.什么是Sqoop   Sqoop即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,Sqoop1和Sqoop2。  Sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive、hdfs,hbase之间数据的相互导入, ...
zhanghh321 评论(0) 有1860人浏览 2015-10-09 16:48

hive on spark 编译

前置条件说明 Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样。 从Hive 1.1版本开始,Hive on Spark已经成为Hive代码的一部分了,并且在spark分支上面,可以看这里https://github.com/apache/hive/tree/spark,并会定期的移到master分支上 ...
Stark_Summer 评论(0) 有3939人浏览 2015-09-30 17:27

最近博客热门TAG

浏览器(34332) Blog(32213) Google(26471) 网络应用(23512) IE(21696) 互联网(13882) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics