
spark 的运行架构
Cluster Manager(Master):在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器 Worker节点:从节点,负责控制计算节点,启动Executor或者Drive...
Cluster Manager(Master):在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器 Worker节点:从节点,负责控制计算节点,启动Executor或者Drive...
Spark除了本地模式外,有支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN Standalone模式即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理...
spark executor的个数和并行任务的个数合理的core,mem比例以及并行度是能显著提升spark执行效率。也是spark优化的一个重点 spark executor 数量 指定spark executor 数量的公式 spark...
什么是 UnifiedMemoryManager UnifiedMemoryManager是Spark统一内存管理。它主要由2部分内存:spark部分内存和系统部分。 spark部分:由 spark memory 和Execution me...
环境: Spark1.6.2 目标:提高CPU利用率,降低带宽IO,提高缓存命中率,减少数据落盘。 Spark作为Zeppelin的SQL底层执行引擎,通过Thriftserver处理jdbc连接,为提高硬件资源利用率、IO带宽和内存利用率...
GC开销超过限制 报错: 处理:分为两个角度,一是是检查代码,减少不必要的冗余,重用的RDD要序列化缓存,减少shuffle数据,加大并行度;二从参数配置看,加大executor内存,增加shuffle buffer缓存,但有时候也因为jo...
在spark升级过程中,和开发中有可能因java版本、spark版本、 scala版本、相关jar包版本不一致或不匹配。导致出一些不应该发生的问题。记录下,以后面采坑。 版本不一致 java版本不一致 报错: 处理:该问题一般是spark的...
现象 集群节点异常导致Spark job失败,如磁盘只读 产生原因 Spark 是一个高性能、容错的分布式计算框架,一旦它知道某个计算所在的机器出现问题会依据之前生成的 lineage 重新在这台机器上调度这个 Task,如果超过失败次数就...
现象 Saprk-sql和ThriftServer使用时报错:Java.net.socketTimeOutException:read time out 产生原因 是由于hivemetastore过于繁忙或者gc导致连接超时 解决方案 sp...
现象 在Spark SQL中运行的SQL语句过于复杂的话,会出现 java.lang.StackOverflowError 异常 产生原因 这是因为程序运行的时候 Stack 大小大于 JVM 的设置大小 解决方案 通过在启动 Spark-...