spark集群节点异常导致Spark job失败,(已解决)

现象

集群节点异常导致Spark job失败,如磁盘只读

产生原因

Spark 是一个高性能、容错的分布式计算框架,一旦它知道某个计算所在的机器出现问题会依据之前生成的 lineage 重新在这台机器上调度这个 Task,如果超过失败次数就会导致job失败。

解决方案

Spark有黑名单机制,在超出一定次数的失败后不会往该节点或者Executor调度Task。设置相应Black参数:spark.blacklist.enabled=true

赞(2) 打赏
特别声明:除特殊标注,本站文章均为原创,遵循CC BY-NC 3.0,转载请注明出处。三伏磨 » spark集群节点异常导致Spark job失败,(已解决)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏