0 0

hadoop 分析多个文件应采用怎样的算法才有效率5

我有3个文件,内容主要是
文件1 A...
文件2 A...B
文件3 B...C

其中A=A,B=B
想根据文件2来找到对应的内容A和内容C来构成一条完整的记录
同时,文件1和文件3未必会有对应的A C的记录

请问应该如何写算法比较有效率呢

文件举例
文件1
2014 01 01 135 SDFSSDSDF
2014 01 01 136 SDFSSCCCS
2014 01 01 137 SPOJDCCCS

文件2
2014 01 01 134 阿迪法师打发 ACD
2014 01 01 135 阿迪法师打发 ACE
2014 01 01 136 阿迪法师打发 ACF

文件3
2014 01 01 3452345 ACD
2014 01 01 2345225 ACE
2014 01 01 2345266 ACG

希望最后会形成
null 134 ACD 3452345
SDFSSDSDF 135 ACE 2345225
SDFSSCCCS 136 ACF null


我曾经想过遍历文件的方式,但是不知道会不会因为文件被hadoop分割而产生错误。同时由于遍历文件N多次将会出现严重的效率问题。特此来求一个算法。希望高手能贴出代码来,谢谢

2014年3月05日 17:11

2个答案 按时间排序 按投票排序

0 0

可以参看我的博文[url] http://jimmee.iteye.com/blog/2008609[/url]

1. 自己可以写mapreduce任务来跑

2. 其实这个是3个表的join操作, 所以推荐使用hive来直接跑好了, 省得自己写mapreduce任务.

2014年3月06日 13:02
0 0

用Hive吧,outer join就可以做到

2014年3月05日 20:32

相关推荐

    Hadoop海量网络数据处理平台的关键技术

    首先该算法在主节点中引入了节点动态性能推断模块,该模块采用基于指数平滑预测法实现对该集群中运行的作业历史数据学习分析,从而计算出集群中各个节点的计算能力。然后本文结合集群节点的性能指标对Reduce任务分配...

    基于Hadoop框架的船舶轨迹停留段提取算法实现.pdf

    基于真实船舶轨迹数据的实验结果表明,与基于Stop/Move模型的轨迹停留提取方法相比,MPISSE方法在三个港口泊位的提取中准确率提高了22%。MPTSSE方法能有效避免轨迹停留段误分割情况,同时在大规模船舶轨迹数据下具有...

    一种基于多衡量指标的HDFS负载均衡算法 (2014年)

    针对在Hadoop分布式文件系统中,系统默认的数据负载均衡算法在做负载均衡决策时只根据磁盘空间使用率这单一的衡量指标无法准确反映集群中各服务器实际的工作负载状况这一缺陷,通过研究和分析Hadoop分布式文件系统...

    第7章-大数据分析与挖掘技术---大数据基础.pptx

    (2)聚类分析:聚类分析是一种创建数据对象集合的方法,这种数据集合也称为簇(Cluster),聚类分析力求使得同簇成员尽可能相似,异簇成员尽可能相异 (3)关联分析:关联分析是指找出多个事物之间具有的规律性...

    Cubert:快速高效的批处理计算引擎,用于在Hadoop上对海量数据集进行复杂的分析和报告

    该模型允许用户以非常适合于后续查询处理运算符的可伸缩执行的格式组织数据,以及利用该算法可显着改善组织结构的一组算法有效运算符(MeshJoin和CUBE)与现有解决方案相比,CPU和资源利用率。 多维数据集和分组...

    BI与大数据区别.docx

    对于大数据来说,现阶段更多的大数据关注在非结构化数据,不同的数据分析工具的出现和行内的应用范围不断的加大,对于大数据应用来说,怎么与应用的行业进行一个深层次的结合才是最重要的。 第四、从工具的角度 传统...

    大数据时代银行业的机遇与挑战.docx

    MapReduce框架是进行海量数据并行计算的框架,由一个作业追踪(Master)节点和多个任务追踪(Worker)节点构成。作业追踪节点用于任务划分、任务调度;而任务追踪节点用于接收来自于作业追踪节点分配的Map或者Reduce...

    大数据特征与发展历程.pdf

    Hadoop本⾝不是⼀个产品,⽽是由多个软件产品组成的⼀个⽣态系统,这些软件产品共 同实现全⾯功能和灵活的⼤数据分析。从技术上看,Hadoop由两项关键服务构成:采⽤Hadoop分布式⽂件系统(HDFS)的可靠数据存储 服务,...

    antlr4权威指南

    在没有内嵌动作的情况下,你可以在多个程序中复用同一份语法,甚至都无须重新编译生成的语法分析器。虽然ANTLR仍然允许内嵌动作的存在,但是在ANTLR 4中,它们更像是一种进阶用法。这样的行为能够最大程度地掌控语法...

    大数据概述——精选推荐.pdf

    对分析结果进⾏可视化呈现,帮 助⼈们更好地理解数据、分析数据 析 数据安 全和隐 私保护 在从⼤数据中挖掘潜在的巨⼤商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个⼈隐私和数据安全 ...

Global site tag (gtag.js) - Google Analytics