注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

mmicky 的博客

追逐刹那的惊艳

 
 
 

日志

 
 

Stage 细解  

2014-04-28 16:57:56|  分类: spark |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
Spark Application在遇到action算子时,SparkContext会生成Job,并将构成DAG图将给DAG Scheduler解析成Stage。
Stage有两种:
  • ShuffleMapStage 
    • 这种Stage是以Shuffle为输出边界
    • 其输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出
    • 其输出可以是另一个Stage的开始
    • ShuffleMapStage的最后Task就是ShuffleMapTask
    • 在一个Job里可能有该类型的Stage,也可以能没有该类型Stage。
  • ResultStage 
    • 这种Stage是直接输出结果
    • 其输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出
    • ResultStage的最后Task就是ResultTask
    • 在一个Job里必定有该类型Stage。
一个Job含有一个或多个Stage,但至少含有一个ResultStage。

相关信息可以参看源码:org.apache.spark.scheduler 中Stage.class

/**
* Each Stage can either be a shuffle map stage, in which case its tasks' results are input for
* another stage, or a result stage, in which case its tasks directly compute the action that
* initiated a job (e.g. count(), save(), etc). For shuffle map stages, we also track the nodes
* that each output partition is on.
*/


  评论这张
 
阅读(145)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017