利用大数据处理框架如Hadoop或Spark #生活技巧# #工作学习技巧# #数字技能提升#
最新推荐文章于 2024-10-11 21:15:53 发布

WQ同学 于 2018-03-25 16:52:06 发布
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
文章地址:http://www.haha174.top/article/details/254892

如图在这里可以很清楚的看到对一个RDD前后进行了两次操作。在第一次的时候先计算出一个RDD然后计算出第二个RDD继续往后计算。
但是对第二次RDD操作在执行的时候,由于RDD数据在执行完成之后很有可能会被立即丢弃那么这个时候就需要重新计算第一个和第二个RDD了
我们可以把第二个RDD的计算结果进行持久化放入到BlockManager。
这个时候第二次计算这个RDD的时候直接从BlockManager中取数据不需要在在一次计算第一和第二次RDD。
但是有可能存储在BlockManager中的数据会丢失掉那么在第二次计算这个RDD的时候发现没有数据会尝试取检索checkpoint的值如果读取失败则需要重新计算。
所以针对这种情况那么在第一次计算RDD的时候将数据存入到checkpoint。哪怕数据丢失了也可以在checkpoint 中找到。
欢迎关注,更多福利

网址:spark从入门到放弃二十一:Spark 性能优化(4)对多次使用的RDD进行持久化或者checkpoint https://www.yuejiaxmz.com/news/view/244175
相关内容
Apache Spark:何时执行spark清理磁盘缓存(persist() w/ StorageLevel.useDisk == true)实时个性化推荐(三十六)亚马逊推出社交应用Spark:全新购物分享平台PBS高端访谈:又到了整理橱柜的时间了(打印版)智能决策支持系统的评估与优化方法1.背景介绍 智能决策支持系统(Intelligent Decision Support优化学习方法 发展学生能力运动后多久可以进行性生活SQL Server数据库性能优化(一)之 优化SQL 语句数字生活20181222游戏攻略,从入门到放弃卡片相机,从了解到放弃
随便看看