- 浏览: 93356 次
- 性别:
- 来自: 上海
文章分类
最新评论
-
jyjsjd:
请教博主这个ChineseTokenizer()你是怎么写的, ...
使用WVTool进行文本分类 -
superclay:
能不能发个indexwriter indexsearch ...
结合ehcache缓存对lucene使用单例模式搜索 -
strayly:
我采用和ehcache缓存结合使用单例模式
使用ehcache ...
lucene搜索优化(转)
首先安装好spark后 设置环境变量SPARK_HOME=d:\spark,在环境变量path后面添加%SPARK_HOME%bin;
启动Eclipse建立Java项目,建立一个测试的类 比如WordCount 用来统计文件中的字数
添加需要的jar库,选择菜单project=>properties,
然后在左侧选择java build path 右侧选择libraries,
然后选择add external jars 选择spark目录下jars目录下所有文件
WordCount.java代码
右键选择刚才建立的项目,选择 run as => run configurations , 选择arguments,
在program arguments 填入一个测试字数的文件,比如read.txt
在vm arguments参数设置中 添加程序运行的环境参数 比如 -Dspark.master=local -Xmx1g
然后 运行程序
启动Eclipse建立Java项目,建立一个测试的类 比如WordCount 用来统计文件中的字数
添加需要的jar库,选择菜单project=>properties,
然后在左侧选择java build path 右侧选择libraries,
然后选择add external jars 选择spark目录下jars目录下所有文件
WordCount.java代码
package test.spark; import scala.Tuple2; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFunction; import org.apache.spark.sql.SparkSession; import java.util.Arrays; import java.util.Iterator; import java.util.List; import java.util.regex.Pattern; public final class WordCount { private static final Pattern SPACE = Pattern.compile(" "); public static void main(String[] args) throws Exception { if (args.length < 1) { System.err.println("Usage: JavaWordCount <file>"); System.exit(1); } SparkSession spark = SparkSession .builder() .appName("JavaWordCount") .getOrCreate(); JavaRDD<String> lines = spark.read().textFile(args[0]).javaRDD(); JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { @Override public Iterator<String> call(String s) { return Arrays.asList(SPACE.split(s)).iterator(); } }); JavaPairRDD<String, Integer> ones = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<>(s, 1); } }); JavaPairRDD<String, Integer> counts = ones.reduceByKey( new Function2<Integer, Integer, Integer>() { @Override public Integer call(Integer i1, Integer i2) { return i1 + i2; } }); List<Tuple2<String, Integer>> output = counts.collect(); for (Tuple2<?,?> tuple : output) { System.out.println(tuple._1() + ": " + tuple._2()); } spark.stop(); } }
右键选择刚才建立的项目,选择 run as => run configurations , 选择arguments,
在program arguments 填入一个测试字数的文件,比如read.txt
在vm arguments参数设置中 添加程序运行的环境参数 比如 -Dspark.master=local -Xmx1g
然后 运行程序
发表评论
-
sklearn聚类之kmeans以及增量聚类
2019-07-11 14:47 1112使用kmeans聚类时,计算量往往都比较大,当有新的数据要添加 ... -
spark进行svd降维和kmeans聚类
2019-07-05 16:36 775import jieba import jieba.analy ... -
spark 的 itemcf推荐
2019-05-29 16:21 0#-*-coding:utf-8-*- ''' Cr ... -
卡方检验提取特征来对文本分类
2019-05-05 17:30 876count_vect = CountVectorizer( ... -
计算文本词频进行聚类
2019-05-05 17:04 424import jieba import jieba.an ... -
sklearn文本聚类
2019-05-05 17:04 1import jieba import jieba.an ... -
spark之word2vec使用(python)
2018-08-15 09:57 2014from pyspark import SparkConf, ... -
spark2.3聚类算法lda代码(python)
2018-08-15 09:49 1541spark的lda有两个一个是mllib下 一个是ml下的,下 ... -
TensorFlow 的SSE avx fma安装
2017-05-06 19:22 918W tensorflow/core/platform/cpu_ ... -
(转载)Seq2SeqModel参数
2017-05-05 16:15 1639训练数据和预处理 数 ... -
(转载)基于CRF的中文分词
2017-04-28 17:27 1014CRF简介 Conditional Random Fi ... -
(转载)jieba全应用入门
2017-03-22 09:14 416# coding: utf-8 # ###jieba特 ... -
(转载)汉语词性对照表[北大标准/中科院标准]
2017-03-22 09:15 429词性编码 词性名称 注 解 Ag ... -
(转)python的nltk中文使用和学习资料汇总帮你入门提高
2017-03-06 10:19 596转自:http://blog.csdn.net/huy ... -
windows下python中运用libsvm的配置(转载)
2016-12-13 14:03 632转载 http://blog.sina.com.cn/ ... -
pyspark在windows下java.net.SocketException: Connection reset by peer 错误
2016-12-05 16:12 2087pyspark在windows加载数据集 训练模型出现 以下错 ... -
用Spark ALS通过预测推荐电影(python)
2016-12-02 11:34 3518#!/usr/bin/env python # codi ... -
Spark ALS推荐系统简单例子(python)
2016-11-30 10:55 5155采用MovieLens 100k数据集 http://file ... -
spark web ui 开启history server
2016-11-29 17:22 839在/tmp下建立目录 spark-events ./sbin ... -
Ubuntu下spark安装
2016-11-22 10:26 405先安装jdk: sudo apt-get update sud ...
相关推荐
Eclipse搭建的spark开发环境,微云可下!Eclipse搭建的spark开发环境,微云可下!
eclipse中java ee开发环境搭建。主要包含:jdk,服务器等。
ubuntu 下eclipse CDT搭建交叉编译开发环境
Eclipse 搭建Spring 开发环境
详细介绍了Ubuntu下搭建Java开发环境方法
在Eclipse下搭建Android开发环境教程
本人原创。图文并茂,详细讲述了安装JDK、Tomcat以及Eclipse4EE开发工具的过程及在工具中开发、发布、运行Web项目的基本方法。同时还说明了MySQL及其界面管理工具SQLYog的安装及使用。
Spark 开发环境搭建 关于scala for eclipse搭建
My Eclipse Dream weaver搭建Java Web开发环境
java统一开发环境搭建介绍了java开发环境的搭建,eclipse的搭建等于java开发相关的内容,是java开发的前提和基础。
怎样去搭建一个java的开发环境,详细的搭建步骤,学java很简单了
Windows下用Eclipse搭建CC++开发环境
Java开发环境的搭建以及使用eclipse创建项目 Java开发环境的搭建以及使用eclipse创建项目
在Eclipse4.2.2中搭建android开发环境
Eclipse下Jboss_ESB开发环境搭建
用Eclipse 搭建j2me 开发环境 非常好用
在Windows上搭建Android的JAVA开发环境图文教程(Eclipse版本)
javacard开发环境 Eclipse 配置完成 安装了jdk后可以直接开发
Windows下Eclipse搭建Android_NDK开发环境,开发过程中用到了JNI,必然要牵扯到NDK开发环境的搭建。也就是安装Cygwin的过程。相信按照文档你能够完成任务。因为搭建环境如果不认真的话,你可能还真的搭不成功哈~~~
在Eclipse下搭建Android开发环境入门教程 可以初步了解Eclipse开发Android.