`
lookqlp
  • 浏览: 341735 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

关于mapreduce解析xml的方法

阅读更多
mapreduce的TextInputFormat很方便的处理行行的文本,但遇到xml的时候就很纠结了,曾经采用</property>分隔数据重写FileInputFormat(网上有资料),可以解决此问题,但会获取很多噪音数据。
后来想到以起始<property>结束</property>来获取数据,重写FileInputFormat没有这个技术能力,呵呵。
后来一直找资料,看了一篇http://www.linezing.com/blog/?p=489,可以借助mahout工程的XmlInputFormat.java很方便的解决问题。

根据mahout的版本有适宜hadoop0.20以前版本的XmlInputFormat,新版本适宜0.20以后的版本。从官网上下mahout包源码即可。
分享到:
评论

相关推荐

    HadoopXMLTool

    HadoopXMLTool利用MapReduce对大XML文件进行解析处理, 实例看DemoMain.java###1、参数说明1) mapreduce.input.xmlInputFormat.headXml填充文件头部信息,用于对中间位置和最后位置的分块添加文件头举例: conf.set(...

    United-States-Census-Data-Analysis-using-MapReduce

    美国人口普查数据分析使用MapReduce :diamond_suit: 开发了一个系统来解析和处理1990年的人口普查数据,支持对所有五十个州(Java,Hadoop MapReduce,HDFS)的人口统计数据进行知识提取 :diamond_suit: 然后使用...

    Hadoop实战(第2版)

     《Hadoop硬实战》包含: ·Hadoop和MapReduce的基本概念 ·85个实战和测试技术 ·真实的场景,实用的解决方案 ·如何整合MapReduce和R前言 致谢关于本书 第1 部分 背景和基本原理1 跳跃中的Hadoop1.1 什么...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    8.1 比较R 和MapReduce 集成的几种方法 8.2 R 基础知识 8.3 R 和Streaming 8.3.1 Streaming 和map-only R 技术点57 计算股票日平均值 8.3.2 Streaming、R 和完整的MapReduce 技术点58 计算股票的...

    bliki2:MediaWiki文本解析器

    添加命令以将xml转储转换为tsv格式文件,以供MapReduce工具(如Spark)使用 目标: 提供MediaWiki文本解析器 将MediaWiki文本清除为纯文本 可以读取MediaWiki转储文件 将xml转储转换为tsv格式 要将xml转储转换为tsv...

    hadoop重新格式化HDFS步骤解析

    了解Hadoop的同学都知道,Hadoop有两个核心的组成部分,一个是HDFS,另一个则是MapReduce,HDFS作为Hadoop的数据存储方案,MapReduce则提供计算服务;同时,HDFS作为一种分布式文件系统,它的安装也是需要相应的格式...

    recordLinkageMapreduce

    hadoop mapreduce 中的记录链接/实体解析框架 添加Hadoop依赖的步骤 一步步 : 添加 cloudera 您的 settings.xml(在 ${HOME}/.m2/settings.xml 下)以访问 hadoop 依赖项 &lt;id&gt;cloudera &lt;url&gt;...

    Scala程序设计(第2版)

    20.3.1 关于解析组合子 410 20.3.2 计算工资单的外部DSL 410 20.4 内部DSL与外部DSL:最后的思考 413 20.5 本章回顾与下一章提要 413 第21章 Scala工具和库 414 21.1 命令行工具 414 21.1.1 ...

    代码之美(中文完整版).pdf

    本书既不是一本关于设计模式的书,也不是一本关于软件工程的书,它告诉你的不仅仅是一些正确的方式或者错误的方式。它让你站在那些优秀软件设计师的肩膀上,从他们的角度来看待问题。 本书给出了38位大师级程序员在...

    datalake-etl-pipeline:使用Apache Spark的Hadoop中简化的ETL过程。 具有用于datalake的完整ETL管道。 SparkSession扩展,DataFrame验证,列扩展,SQL函数和DataFrame转换

    支持ETL管道的以下基本转换- 过滤源和目标数据框在源和目标数据帧上进行分组和聚合大量嵌套的查询/数据框具有复杂且高度嵌套的XML,JSON,Parquet和ORC解析器到第n级嵌套在功能/方法级别上设计了单元测试用例并衡量...

    大数据培训课程安排.pdf

    主要技术包括:JavaScript、Jquery、注解反射⼀起使⽤,XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、 Maven、easyui 4. 描述如下: 前两个阶段的基础上化静为动,可以实现让我们⽹页内容更加的丰富,当然...

Global site tag (gtag.js) - Google Analytics