`
weihong01267
  • 浏览: 48442 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

pyspark 优化spark分析代码

阅读更多
源代码为使用一段for循环进行数据处理,未使用map进行分布式计算
优化为:
log.rdd.repartition(100).map(RowFunction).saveAsHadoopFile()
其中使用repartition(100)进行重新分区,使得之前只有8个分区的task变成了100个task大大的加速了分析速度
(ps:其中又解决了一个乱码问题 ascii unicode乱码导致挂掉了,解决方法:

在 /usr/lib/python2.7/site-packages
加入一个 sitecustomize.py文件
内容为:
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
解决)
0
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics