hadoop MR任务优化总结

发布时间:2024-12-23 19:19

定期进行任务回顾和总结,优化工作流程。 #生活技巧# #工作效率提升#

最新推荐文章于 2024-11-06 09:15:00 发布

天蓝控 于 2017-08-25 16:17:16 发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

最近在做数据灌库工作,数据量较大不能基于单机进行灌库,需要编写MR任务。由于做MR开发经验不足,几经优化才满足灌库性能要求,这里总结一下。

如非必要,请规避reduce任务

reduce任务涉及跨计算节点拉取数据,shuffle及数据排序,而这些过程都是很耗资源的。
对于灌库任务来说,我们没有必要对数据做排序,完全不要reduce任务,不要画蛇添足地去将reduce设置为cat,看上去cat只是作了数据的打印,但因此引入的资源消耗是很大的
最简单的规避reduce任务的方式就是设置reduce为NONE,如
hadoop streaming \
-D fs.default.name=${NJ_HDFS_NAME}\
-D hadoop.job.ugi=${RANK_RP_UGI}\
-D mapred.job.tracker=${JOB_TRACKER}\
-D mapred.job.map.capacity=${capacity}\
-D mapred.map.over.capacity.allowed=false\
-D mapred.job.priority=VERY_HIGH\
-D mapred.job.queue.name=rank-rp\
-D mapred.job.name=import2redis_showlist\
-files conf\
-files monitor\
-file bin/import2redis.sep\
-input ${input_path}/part-*\
-output ${output_path}\
-mapper "./import2redis.se

网址:hadoop MR任务优化总结 https://www.yuejiaxmz.com/news/view/547766

相关内容

Hadoop 2.x完全分布式安装
凸优化总结
【Python】Python连接Hadoop数据中遇到的各种坑(汇总)
借势5G+MR,中国移动咪咕打造5G场景化服务
hadoop目前遇到的问题
Hadoop配置集群的详细步骤
网络优化总结
保护数据安全的九个技巧
总结保洁工作优化工作流程提高服务效率.doc
工作总结优化的实用建议.docx

随便看看