Hadoop在Mapper中获取当前操作文件的文件名 - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1218720 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

Hadoop在Mapper中获取当前操作文件的文件名

博客分类：

Java
DataMining

阅读更多

需求如下：

hadoop的MR执行时，有时候需要获取当前读取的文件名，如对qq聊天记录的分词解析，每个聊天记录的问题命名为qq1-qq2.txt用来表示qq1对qq2说的所有的聊天记录，那么当我们分词完成之后，需要入Hbase，这个时候rowkey为qq1-qq2，内容为语义分析的结果列表。

方案：

针对此操作需要获取当前读取的文件的路径或者直接读到文件名，从而得到文件名，实现如下:

String id = ((FileSplit) context.getInputSplit()).getPath().getName();

分享到：

Hbase工具一点通之一 | 任务调度Quartz的cron表达式

2013-03-01 16:56
浏览 3937
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java通过api方式操作Hadoop: 2.在hadoop中新建文件，并写入 3.删除hadoop上的文件 4.读取文件 5.文件修改时间二.目录操作 1.在hadoop上创建目录 2.删除目录 3.读取某个目录下的所有文件三.hdfs信息 1.查找某个文件在HDFS集群中位置 2.获取HDFS...

hadoop的dll文件 hadoop.zip: hadoop的dll文件 hadoop.zip

HadoopHA集群配置文件: Hadoop HA 集群搭建所需要的配置文件：core-site，hdfs-site，mapred-site，yarn-site四个xml文件和一个slaves文件

Hadoop分布式文件系统的模型分析: 鉴于当前缺乏从系统设计理论的角度对其开展的相关研究，本文从 Hadoop 分布式文件系统架构的建模入手，通过对模型各组成部分进行分析，并将其与传统的分布式文件系统进行比较，总结出 Hadoop 分布式文件系统具有...

操作系统课设——Hadoop文件系统: （1）局域网的Hadoop分布式文件系统对象图： ...OSFile包中是文件分解加密的功能类，通过调用DivedeStream类中的方法，对上述选择的文件进行分解操作。每个类的代码在目录的源代码文件夹中可以找到。

各个版本Hadoop，hadoop.dll以及winutils.exe文件下载大合集: 各个版本Hadoop，hadoop.dll以及winutils.exe文件下载大合集，包含hadoop-2.6.5-3.2.1

hadoop安装过程中的问题: 7./hadoop/etc/slaves这个文件里必须把所有的slaves的主机名写进去。 8.mast的/etc/hosts slave1的/etc/hosts slave2 的/etc/hosts （localhost： 127.0.0.1可以去掉，只写主机名对应的IP地址）如下 1）以下是...

hadoop3.3.3-winutils: 在Hadoop1.x 时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce 只负责运算。 Hadoop3.x在组成上没有变化Hadoop ...

Hadoop豆瓣电影数据分析（Hadoop）操作源码: Hadoop豆瓣电影数据分析（Hadoop）操作源码

hadoop2.7.2在windows环境中相关依赖文件hadoop.dll和winutils.exe: hadoop2.7.2在windows环境中相关依赖文件hadoop.dll和winutils.exe

ecplise远程连接hadoop--hdfs java api操作文件.pdf: ecplise远程连接hadoop--hdfs java api操作文件.pdf

hadoop的默认配置文件: hadoop的默认配置文件，下载记得关注我哦

hadoop2.6，window7 64bit，hadoop.dll、winutils.exe文件下载: hadoop2.6，window7 64bit，hadoop.dll、winutils.exe文件下载

java操作Hadoop源码之HDFS Java API操作-上传文件: java操作Hadoop源码之HDFS Java API操作-上传文件，附带所需全部jar包，欢迎下载学习。

hadoop3.3.0-winutils所有bin文件: hadoop3.3.0-winutils所有bin文件，亲测有效

Hadoop3.1.3 配置文件: Hadoop3.1.3 配置文件

hadoop Java接口文件操作类: 基于hadoop Java接口文件操作类，对hadoop服务进行增删改查等系列操作，非常实用

hadoop2.8 window支持bin文件: 在本地安装hadoop时需要用此目录替换原来的bin目录

大数据hadoop框架，java获取数据，并支持翻页技术: 1.大数据框架hadoop； 2.根据表名，获取全部数据，支持翻页； 3.获取数据总条数； 4.根据表名、上次查询最后一条记录的rowkey，获取下一页数据； 5.数据支持jsonarray/list等；

Global site tag (gtag.js) - Google Analytics