Mapreduce热门博客列表 - 互联网 ITeye博客频道 - 第4页

博客专栏推荐

本月博客排行

年度博客排行

MapReduce来构建索引

单机程序使用使用hadoop的构建lucene索引，本篇呢，我们里看下如何使用MapReduce来构建索引，代码如下： Java代码 package com.mapreduceindex; import java.io.IOException; import java.util.ArrayList; import java.util.List; ...

mapreduce

weitao1026 评论(0) 有501人浏览 2016-12-14 10:04

Win7下用Eclipse向Hadoop2.5.2集群提交MapReduce程序的注意事项

主要描述下，在Win7环境下，通过eclipse往集群提交MapReduce程序的过程。一、环境说明：开发环境：WIN7 Eclipse版本：eclipse-jee-indigo Hadoop版本：Hadoop ...

hadoop mapreduce yarn

szjian 评论(0) 有958人浏览 2016-04-14 11:14

大数据入门

一.典型高性能计算机软件栈二.大数据处理平台与应用的特性 MPI要求所有资源都可用才能正常运行，容错困难，MPI在系统同构时才能发挥效率。大数据平台需要支持廉价的硬件，软件需要支持自动容错和自动负载平衡—即支持扩展性。 1.MapReduce编程模型 a.借用了函数语言的概念 b.用户只需要写串行的Map和Reduce函数 map(in key, in_value) ...

MapReduce Hadoop Spark GraphLab

bijian1013 评论(0) 有644人浏览 2016-03-26 23:01

hadoop mapreduce v1接口实现自定义inputformat，mysql作为输入

工作需要，自定义实现hadoop的一个inputformat，使用v1的接口（org.apache.hadoop.mapred），此inputformat的功能为读取mysql数据库的数据，将这些数据分成几块作为多个InputSplit， package com.demo7; import java.io.DataInput; import java.io.DataOutput; i ...

hadoop mapreduce inputformat

linc09 评论(0) 有865人浏览 2016-03-24 14:17

深入浅出Hadoop实战开发视频教程升级版

下载地址：http://pan.baidu.com/s/1o7rEcNS 密码：f74s hadoop版本:hadoop 2.4.1 hive版本:hive 0.13.1 hbase版本:hbase 0.98.6.1 centos版本:6.5 课程大纲： 01，课程介绍，HDFS架构和原理，搭建CentOS开发环境 > Hadoop背景 > HDFS设计目标，应用场景，架构分析 ...

hadoop mapreduce hbase

捣蛋小孩评论(1) 有405人浏览 2016-01-19 14:39

MAC下hadoop开发环境搭建系列（五）

分享一个mapreduce程序，作用：将hdfs文件数据批量加载进redis内存数据库： 1.源代码： /** * Program: * The program is used to batch load data to redis by Jedis. * History: * Created by Qingshou Chen on 15/11/13. */package ...

JEDIS REDIS HADOOP MAPREDUCE CONFIG

qingshou117 评论(0) 有1421人浏览 2015-12-21 19:34

近一月翻阅资料小结

近一个月接触的东西比较多，梳理一下。 Nginx+Tomcat，实现负载均衡，同时采用keepalived的形式实现HA。负载后，关键问题就是session共享的问题，可实现的思路较多：Tomcat6以后本身可以使用cluster技术达成。也可以借鉴第三方软件实现。Memcached，redis都是采用的方案，【tomcat8在redis的方案中兼容性稍差，可以改造原有jar包，目前 ...

mapreduce redis mongodb memcached hadoop

guooo 评论(0) 有594人浏览 2015-12-19 17:41

Hive (一) 简介

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。适用场景 Hive 的最佳使 ...

hive Hadoop Mapreduce sql

bibithink 评论(0) 有557人浏览 2015-12-10 11:51

spring hadoop之batch处理(二)

一、测试 public class MrBatchApp { // Log private static final Log log = LogFactory.getLog(MrBatchApp.class); // public static void main(String[] args) throws JobParametersInvalidExce ...

hadoop 脚本 groovy spring mapreduce

dalan_123 评论(0) 有1471人浏览 2015-11-24 18:10

spring hadoop之mapreduce batch

一、测试 // 定义hadoop configuration Configuration conf = new Configuration(); // 指定hdfs上获取分析文件目录和输出分析结果目录 // 格式：hdfs://10.33.96.241:8020/user/tweets/input // hdfs://10.33.96.241:8020/user/tweets/outpu ...

hadoop mapreduce spring 正则表达式

dalan_123 评论(0) 有585人浏览 2015-11-24 15:51

Hadoop MapReduce表关联

假设有两个文件，分别对应要关联的两张表（部门表，员工表）部门表文件格式如下：部门ID 部门名称1 技术部2 市场部员工表文件格式如下：部门ID 员工ID 员工姓名1 1 小明1 2 张三2 3 ...

Hadoop MapReduce

kenblog 评论(0) 有734人浏览 2015-11-17 23:25

从菜鸟走向大数据高手

大数据是用scala语言，和java有些不同又比java强大，省去了很多繁琐的东西，scala中的的接口用trait来定义，不同于java的接口，trait中可以有抽象方法也可 ...

王家林 scala hadoop mapreduce 云计算

lionkingzw 评论(0) 有945人浏览 2015-11-15 11:37

Hadoop2.7.1配置NameNode+ResourceManager高可用原理分析

关于NameNode高可靠需要配置的文件有core-site.xml和hdfs-site.xml 关于ResourceManager高可靠需要配置的文件有yarn-site.xml 逻辑结构： NameNode-HA工作原理：在一个典型的HA集群中，最好有2台独立的机器的来配置NameNode角色，无论在任何时候，集群中只能有一个NameNode作为Active状态，而另一个是Stan ...

hadoop mapreduce namenode ha

qindongliang1922 评论(0) 有3135人浏览 2015-11-11 19:51

Hadoop+Hbase+Zookeeper（独立）环境搭建 ---（转）

准备的机器信息：192.168.247.128 dengnn（master） 192.168.247.129 dengdn1 （slave1） 192.168.247.130 dengdn2 （slave2）集群搭建参考资料 cloudera hadoop 搭建http://he ...

hadoop hbase mapreduce zk

dalan_123 评论(0) 有569人浏览 2015-10-23 08:34

centos6.6安装hadoop2.6.1操作步骤大致如下 1.安装JDK 1.1下载上传 jdk-7u79-linux-i586.rpm 1.2安装 rpm -ivh jdk-7u79-linux-i586.rpm 1.3将java添加到环境变量中 vim /etc/profile #在文件最后添加 export JAVA_HOME=/usr/java/jdk1.7.0_79/ expor ...

hadoop linux mapreduce centos

dalan_123 评论(0) 有1108人浏览 2015-10-22 17:12

一个适合MapReduce处理的gz压缩方式

最近在筹备hadoop，测试集群只有普通的6个虚拟机，每个1G内存，100G硬盘。所以在yarn进行资源调度的时候比较纠结，硬盘空间也有限。在执行作业的时候就希望能够尽量对输入数据进行压缩。 hadoop可以直接处理gz格式的压缩文件，但不会产生split，而是不论多大都直接交给一个Mapper去做，因为gz在算法上不支持split。虽然bzip2支持split，但压缩速度又比较慢，gz可以说是 ...

hadoop mapreduce 压缩算法

lihaosu 评论(0) 有1464人浏览 2015-10-21 13:48

Hadoop学习笔记 2 - MapReduce 简单实例

1.2 MapReduce开发实例 MapReduce 执行过程，如下图，（先由Mapper进行map计算，将数据进行分组，然后在由Reduce进行结果汇总计算）直接上代码 package com.itbuilder.hadoop.mr; import java.io.IOException; import org.apache.hadoop.conf.Con ...

mapreduce

muruiheng 评论(0) 有887人浏览 2015-10-18 11:54

Sqoop--关系型数据库跟hdfs数据传输工具

1.什么是Sqoop Sqoop即 SQL to Hadoop ，是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具，充分利用MapReduce并行特点以批处理的方式加快数据传输，发展至今主要演化了二大版本，Sqoop1和Sqoop2。 Sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁，支持关系型数据库和hive、hdfs，hbase之间数据的相互导入， ...

sqoop hbase mapreduce hadoop mysql

zhanghh321 评论(0) 有1860人浏览 2015-10-09 16:48

hive on spark 编译

前置条件说明 Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive on Tez的道理一样。从Hive 1.1版本开始，Hive on Spark已经成为Hive代码的一部分了，并且在spark分支上面，可以看这里https://github.com/apache/hive/tree/spark，并会定期的移到master分支上 ...

spark hive mapreduce 代码

Stark_Summer 评论(0) 有3939人浏览 2015-09-30 17:27

« 上一页 1 2 3 4 5 … 69 70 下一页 »

最近博客热门TAG

浏览器(34332) Blog(32213) Google(26471) 网络应用(23512) IE(21696) 互联网(13882) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载