spark 中的文章

spark 的运行架构

Cluster Manager(Master):在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器 Worker节点:从节点,负责控制计算节点,启动Executor或者Dri……

阅读全文

spark的几种部署方式

Spark除了本地模式外,有支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN Standalone模式即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。从一……

阅读全文

spark executor的个数和并行任务的个数优化 spark优化

spark executor的个数和并行任务的个数 合理的core,mem比例以及并行度是能显著提升spark执行效率。也是spark优化的一个重点 spark executor 数量 指定spark executor 数量的公式 executor 数量 = spark.cores.max/spark.executor.cores spark.cores.max 是指你的spark程序需要的总核数 spark.executor.cores 是……

阅读全文

spark 内存问题记录

GC开销超过限制 报错: java.lang.OutOfMemoryError: GC overhead limit exceeded at scala.collection.immutable.HashMap.scala.collection.immutable.HashMap makeHashTrieMap(HashMap.scala:175) 处理:分为两个角度,一是是检查代码,减少不必要的冗余,重用的RDD要序列化缓存,减少shuffle数据,加大并行度;二从参数配置看,加大executor内存,增加shuffle buf……

阅读全文

spark报错:java.lang.StackOverflowError (已解决)

现象 在Spark SQL中运行的SQL语句过于复杂的话,会出现 java.lang.StackOverflowError 异常 产生原因 这是因为程序运行的时候 Stack 大小大于 JVM 的设置大小 解决方案 通过在启动 Spark-sql 的时候加上 –driver-java-options “-Xss10m” 选项解决这个问题……

阅读全文

分类

福利派送

标签

其它

休闲室