大数据 中的文章

spark executor的个数和并行任务的个数优化 spark优化

spark executor的个数和并行任务的个数 合理的core,mem比例以及并行度是能显著提升spark执行效率。也是spark优化的一个重点 spark executor 数量 指定spark executor 数量的公式 executor 数量 = spark.cores.max/spark.executor.cores spark.cores.max 是指你的spark程序需要的总核数 spark.executor.cores 是……

阅读全文

hadoop集群维护记录

备份namenode的元数据 namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用。因此应该经常对元数据进行备份,最好是异地备份。 1、将元数据复制到远程站点 (1)以下代码将secondary namenod……

阅读全文

hadoop集群优化

硬件选择 hadoop运行环境 如何选择合适的硬件 主节点: NameNode的内存决定了集群保存文件数的总量。ResourceManager同时运行的作业会消耗一定的内存。 4-6块 1TB 硬盘(1块给操作系统,2块给FS image [RAID 1],1……

阅读全文

spark 内存问题记录

GC开销超过限制 报错: java.lang.OutOfMemoryError: GC overhead limit exceeded at scala.collection.immutable.HashMap.scala.collection.immutable.HashMap makeHashTrieMap(HashMap.scala:175) 处理:分为两个角度,一是是检查代码,减少不必要的冗余,重用的RDD要序列化缓存,减少shuffle数据,加大并行度;二从参数配置看,加大executor内存,增加shuffle buf……

阅读全文

分类

福利派送

标签

其它

休闲室