利用带返回值多线程实现Hadoop中的WordCount实例

芝加哥09

浏览: 61406 次

最近访客更多访客>>

独善其身008

我啊来了

tiamofr

zzhouzz

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

更多IT互联网学习资源，尽在“通通学 - 知识学习与分享平台”

学习过Hadoop的都知道中，里面有一个经典实例就是统计文档每个单词出现的次数，即WordCount实例。这里利用Executor框架及带返回值的多线程实现Word?Count实例。

以下是核心代码：

WordCountMapper.java

package com.tongtongxue.wordcount;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
import java.util.StringTokenizer;
import java.util.concurrent.Callable;

public class WordCountMapper implements Callable<Map> {
    private int start;
    private int end;
    private File[] files;

    public WordCountMapper() {
    }

    public WordCountMapper(File[] files, int start, int end) {
        this.files = files;
        this.start = start;
        this.end = end;
    }

    @Override
    public Map call() throws Exception {
        BufferedReader reader = null;
        Map result = new HashMap();
        String line = null;
        for (int i = start; i < end; i++) {
            File file = files[i];
            try {
                reader = new BufferedReader(new InputStreamReader(new FileInputStream(file), "utf-8"));
                while ((line = reader.readLine()) != null) {
                    StringTokenizer tokenizer = new StringTokenizer(line);
                    while (tokenizer.hasMoreTokens()) {
                        String word = tokenizer.nextToken();
                        if (result.containsKey(word)) {
                            result.put(word, result.get(word) + 1L);
                        } else {
                            result.put(word, 1L);
                        }
                    }
                }
            } finally {
                if (reader != null) {
                    reader.close();
                }
            }
        }
        return result;
    }
}

WordCount.java

package com.tongtongxue.wordcount;

import java.io.File;
import java.io.FileFilter;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Future;
import java.util.concurrent.FutureTask;

public class WordCount {
    private ExecutorService executorService;
    private int threadNum;
    private List<Future<Map>> tasks = new ArrayList<Future<Map>>();
    private File[] txtFiles;

    public WordCount() {
        // 以cup的个数，作为线程个数
        threadNum = Runtime.getRuntime().availableProcessors();
        executorService = Executors.newFixedThreadPool(threadNum);
    }

    public WordCount(int threadNum) {
        this.threadNum = threadNum;
        executorService = Executors.newFixedThreadPool(threadNum);
    }

    public void count(String dirPath) throws Exception {
        File dir = new File(dirPath);
        txtFiles = dir.listFiles(new FileFilter() {

            @Override
            public boolean accept(File file) {
                String fileName = file.getName();
                if (fileName.endsWith(".txt") || fileName.endsWith(".TXT")) {
                    return true;
                }
                return false;
            }
        });

        int size = txtFiles.length;
        for (int i = 0; i  size) {
                end = size;
            }

            WordCountMapper mapper = new WordCountMapper(txtFiles, start, end);
            FutureTask<Map> futureTask = new FutureTask<Map>(mapper);
            tasks.add(futureTask);

            if (!executorService.isShutdown()) {
                executorService.submit(futureTask);
            }

        }
        showResult();
    }

    public void close() {
        executorService.shutdown();
    }

    public void showResult() throws Exception {
        Map map = new HashMap();
        for (Future<Map> task : tasks) {
            Map result = task.get();
            for (Entry entry : result.entrySet()) {
                String word = entry.getKey();
                Long num = entry.getValue();
                if (map.containsKey(word)) {
                    map.put(word, map.get(word) + num);
                } else {
                    map.put(word, num);
                }
            }
        }

        System.out.println(map.size());

        for (Entry entry : map.entrySet()) {
            System.out.println(entry.getKey() + " ------> " + entry.getValue());
        }
    }
}

转载本文链接为：http://www.tongtongxue.com/archives/1141.html

1
顶

1
踩

分享到：

基于lucene5.5.0的创建索引与查询

2016-03-21 21:26
浏览 1222
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

利用带返回值多线程实现Hadoop中的WordCount实例

WordCountMapper.java

WordCount.java

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

利用带返回值多线程实现Hadoop中的WordCount实例

WordCountMapper.java

WordCount.java

评论

发表评论

相关推荐

基于lucene5.5.0的创建索引与查询

Hadoop深入浅出实战经典视频教程（共22讲）

统计邮件的打开率

动手写批量邮件发送器

Hadoop深入浅出实战经典–第02讲

网络爬虫：利用Selenium实现登录

动手写最优的单例模式

自己动手写单向链表

一起研究haoop（二）：Java代码操作HDFS

吃透Java中的动态代理

自己动手写SSO（单点登录）

自己动手写Tomcat

maven搭建SSH工程

自己动手写MVC框架

一起研究hadoop（一）：hadoop的伪分布式安装配置

Spring + SpringMVC + Mybatis + Maven 搭建Web工程

Velocity详解——(maven管理)

观察者模式与spring的结合

利用注解模拟权限管理

用反射机制调用类的main方法

最近访客更多访客>>