近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8 lambda表达式支持,而且与Java的旧版本保持兼容。该版本将在5月初发布。
文中举了两个例子,用于说明Java 8如何使代码更简洁。第一个例子是使用Spark的filter和count算子在一个日志文件中查找包含“error”的行。这很容易实现,但在Java 7中需要向filter传递一个Function对象,这有些笨拙:
JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter( new Function<String, Boolean>() { public Boolean call(String s) { return s.contains("error"); } }); long numErrors = lines.count();
在Java 8中,代码更为简洁:
JavaRDD<String> lines = sc.textFile("hdfs://log.txt") .filter(s -> s.contains("error")); long numErrors = lines.count();
当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在Java 7中,实现代码如下:
JavaRDD<String> lines = sc.textFile("hdfs://log.txt"); //将每一行映射成多个单词 JavaRDD<String> words = lines.flatMap( new FlatMapFunction<String, String>() { public Iterable<String> call(String line) { return Arrays.asList(line.split(" ")); } }); // 将单词转换成(word, 1)对 JavaPairRDD<String, Integer> ones = words.mapToPair( new PairFunction<String, String, Integer>() { public Tuple2<String, Integer> call(String w) { return new Tuple2<String, Integer>(w, 1); } }); // 分组并按键值添加对以产生计数 JavaPairRDD<String, Integer> counts = ones.reduceByKey( new Function2<Integer, Integer, Integer>() { public Integer call(Integer i1, Integer i2) { return i1 + i2; } }); counts.saveAsTextFile("hdfs://counts.txt");
而在Java 8中,该程序只需要几行代码:
JavaRDD<String> lines = sc.textFile("hdfs://log.txt"); JavaRDD<String> words = lines.flatMap(line -> Arrays.asList(line.split(" "))); JavaPairRDD<String, Integer> counts = words.mapToPair(w -> new Tuple2<String, Integer>(w, 1)) .reduceByKey((x, y) -> x + y); counts.saveAsTextFile("hdfs://counts.txt");
引用:http://www.infoq.com/cn/news/2014/04/lambda-make-spark-easy?utm_source=infoq&utm_medium=related_content_link&utm_campaign=relatedContent_articles_clk
大家可以加我个人微信号:scccdgf
或者关注soledede的微信公众号:soledede
相关推荐
● 为何需要lambda,它将如何改变Java编程 ● lambda表达式语法 ● 流与管道的基本操作 ● 使用收集器与汇聚来终止管道 ● 创建流 ● 分割迭代器、fork/join框架与异常 ● 使用微基准测试检查流的性能 ● ...
关于Java中lambda的表达式,Java多核编程,清华大学(出版)
精通lambda表达式:Java多核编程,使用lambda表达式和流的最佳实践
《精通Lambda表达式:Java多核编程》
精通lambda表达式 Java多核编程,作者:[美]Maurice Naftalin,翻译:张龙。
Lambda 表达式(C# 编程指南).docLambda 表达式(C# 编程指南).docLambda 表达式(C# 编程指南).doc
Python 利用lambda表达式简化编程 Python源码Python 利用lambda表达式简化编程 Python源码Python 利用lambda表达式简化编程 Python源码Python 利用lambda表达式简化编程 Python源码Python 利用lambda表达式简化编程 ...
Stream、Lambda表达式练习.doc
2_Lambda表达式.zip2_Lambda表达式.zip2_Lambda表达式.zip
精通lambda表达式:Java多核编程(去水印版)
1、Lambda表达式概述:了解Lambda表达式的定义、语法和变量捕获机制,以及为什么要在Java中引入Lambda表达式来支持函数式编程。 2、函数式接口与Lambda表达式:学习如何使用Lambda表达式与不同类型的函数式接口进行...
Code for the book 《Mastering Lambdas: Java Programming in a Multicore World--精通lambda表达式: java多核编程》
Java8发布到现在至少3年了,但是对Lambda表达式不熟悉、看不懂、不会用的现象非常常见。 即使是升级到JDK1.8了,但是很多开发者依然是停留在1.8之前的开发方式,使用的也是非常老旧和过时的API,遇到函数式接口也是...
主要介绍了解决mybatis-plus3.1.1版本使用lambda表达式查询报错的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
Microsoft Visual Studio.Net(VS2010)编写的lambda表达式语法控制台程序。
通过多个示例详细演示了.Net中C#语言lambda表达式的基本用法,主要包括三个方面内容: 1.什么是lambda表达式 2.理解lambda表达式 3.使用lambda表达式
Java8的lambda表达式
本资源是根据精通lambda表达式Java多核编程书籍整理出来的xmind资源,纯手工整理,可能有一些问题,望见谅
用于将将字符串转换为lambda表达式,对于实时获取运算结果或界面筛选条件,很有帮助
简单的一些lambda表达式的测试代码,可用来学习简单的一些lambda表达式的测试代码,可用来学习