现象

集群节点异常导致Spark job失败,如磁盘只读

产生原因

Spark 是一个高性能、容错的分布式计算框架,一旦它知道某个计算所在的机器出现问题会依据之前生成的 lineage 重新在这台机器上调度这个 Task,如果超过失败次数就会导致job失败。

解决方案

Spark有黑名单机制,在超出一定次数的失败后不会往该节点或者Executor调度Task。设置相应Black参数:spark.blacklist.enabled=true