reduce热门博客列表 - ITeye博客频道

博客专栏推荐

本月博客排行

年度博客排行

flink-reduce

一.背景有时候我们需要过滤数据，有些中间数据是不需要的，比如场景： binlog 数据更新的时候，我们仅仅需要最新数据。会根据ID 分组，然后取version 最大的一条，存储二.简单实例 @Data @ToString public class Order { // 主键id private Integer id; ...

flink reduce

greemranqq 评论(0) 有2976人浏览 2019-03-11 18:50

Java Lambda

该语法糖在jvm脚本语言Groovy/Scale已有很好的支持，Java从8.0才开始支持该特性。 /** * 基础Lambda表达式 * */ public static void testLambda() { String[] ss = { "hello", "world", "sun" }; L ...

lambda map reduce

tcspecial 评论(0) 有621人浏览 2017-12-11 15:35

从海量订单中利用Map Reduce获取Top N的较优算法实现应用程序

package com.dt.spark.topn; import java.io.IOException; import java.util.Arrays; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.I ...

Hadoop Map Reduce 算法

zhangym195 评论(0) 有1635人浏览 2016-02-14 15:09

最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile ...

hbase map reduce Hfile path实例

Stark_Summer 评论(0) 有3556人浏览 2015-03-10 15:19

spark内核揭秘-14-Spark性能优化的10大问题及其解决方案

问题1：reduce task数目不合适解决方案：需要根据实际情况调整默认配置，调整方式是修改参数spark.default.parallelism。通常的，reduce数目设置为core数目的2-3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太小，任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism 问题2：shuffle ...

reduce shuffle parallelism partition concurrentJobs

Stark_Summer 评论(0) 有8355人浏览 2015-01-26 11:29

Hadoop集群搭建完毕后，如何测试是否正常工作？

最近，要在沙箱的环境装一个hadoop的集群，用来建索引所需，装hadoop已经没啥难的了，后面，散仙会把重要的配置信息，贴出来，本次装的hadoop版本是hadoop1.2的版本，如果不知道怎么装的，可以参考这篇文章，安装的具体步骤，散仙在这里不在重述，重点在于hadoop-nd,hadoop-dd,tmp目录的配置，下面是配置文件的示例： core-site.xml的配置： <con ...

hadoop reduce linux

qindongliang1922 评论(0) 有7058人浏览 2014-10-28 16:25

【转载】hive中map和reduce个数控制

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)； 2. 举例： a) 假设input目录下有1个文件a,大 ...

hadoop hive map reduce

zhangxiong0301 评论(0) 有868人浏览 2014-07-22 21:42

【转载】mapreduce编程模型

阅读本文可以带着下面问题1.reduce数量由谁来决定？2.运行作业的工具由哪些？更多问题等待你挖掘 MapReduce的设计目标是方便编程人员在不熟悉分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（化简）函数，用来保证所有映射的键值对中的每一个共享相同的键组 ...

hadoop map reduce shuffle

yuanjin 评论(0) 有577人浏览 2014-05-22 12:58

array的reduce

ES5 (js 1.8)加入了 reduce 接收一个函数，然后从左到右遍历item，直到reduce到一个值。 arr.reduce(callback, [initialValue]); 参数： callback(previousValue, currentValue, index, array) previousValue ...

array es5 reduce

zhangyaochun 评论(0) 有3512人浏览 2014-04-27 20:12

hadoop 工作流程图

hadoop工作流程，用两张简单的map， reduce图来解释一下，主要集中讲述hadoop shuffle map阶段 reduce阶段：

hadoop map reduce 工作流程图

blackproof 评论(0) 有3901人浏览 2014-03-09 22:59

MongoDB 关于Map及Reduce

Hadoop中的map/reduce(分布式计算模型) Mapper:对输入的列表中的每一个元素执行一个函数,生成一个列表结果。(运算前后列表的元素数量不变) Reduce:对输入的列表的所有元素执行一个函数操作,并将中间结果作为参数继续执行函数。 map把(k1,v1)变成(k2,v2),shuffle把(k2,v2)变成(k2,list ...

map reduce mapReduce

jacobcookie 评论(0) 有991人浏览 2013-11-26 23:08

awk and hadoop 之reducer

配合上面一篇 mapper篇，这篇主要讲在reducer的时候怎么处理两个文件中的内容，在mapper中我们给每个文件中的内容打了 tag ，在第二个字段，然后就能处理了，只要key一样，就可以弄到一个文件中去。 awk -F '\t' '{ id = $1; tag = $2; if (0 == tag){ idPre = $1; }else (1 == ta ...

awk hadoop reduce reducer 合并

sharp-fcc 评论(0) 有802人浏览 2013-11-07 15:50

基于hadoop的多个reduce 输出

import java.io.File; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hado ...

hadoop reduce 多个输出

ganliang13 评论(0) 有1782人浏览 2013-07-17 19:11

Hadoop简介

Hadoop是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。 HD ...

hadoop map reduce hdfs

welcome66 评论(0) 有1023人浏览 2013-07-03 12:28

MapReduce中的Shuffle和Sort分析

MapReduce 是现今一个非常流行的分布式计算框架，它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司，而Google 的灵感则来自� ...

hadoop shuffle sort map reduce

welcome66 评论(0) 有3292人浏览 2013-07-03 12:22

Hive常用Job配置 & Map,Reduce数量控制

开启动态分区：hive.exec.dynamic.partition=true默认值：false描述：是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值：strict描述：strict是避免全分区字段是动态的，必须有至少一个分区字段是指定有值的。读取表的时候可以不指定分区。设置如下参数配置动态分区的使用环境：hive.exec.max. ...

Hive 配置 Map Reduce 数量

dacoolbaby 评论(0) 有22252人浏览 2013-05-28 18:00

Python内建函数之——filter,map,reduce

首先介绍一下匿名函数Lambada： Lambda的使用方法如下：lambda [arg1[,arg2,arg3,...,argn]] : expression 实际就是一个匿名的对象，可以封装一些逻辑算术代码如： >>> add = lambda x,y : x + y>>> add(1,2)3 然后是第一个函数，filter filter ...

Python 内建函数 map reduce

dacoolbaby 评论(0) 有1199人浏览 2013-05-09 17:51

Chapter 5. Functional Programming

1. Functions that operate on other functions are called higher-order functions. By manipulating functions, they can talk about actions on a new level. 2. Functions have a method called apply ...

Higher-order Function forEach reduce map partial

leonzhx 评论(0) 有990人浏览 2013-04-03 13:27

分布式计算开源框架Hadoop入门实践（三）

分布式计算开源框架Hadoop入门实践（三） Hadoop基本流程一个图片太大了，只好分割成为两部分。根据� ...

Hadoop Map Reduce

elicer 评论(0) 有1174人浏览 2012-09-24 21:52

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载