那些年不懂的spark(3)

aws的emr起来之后,默认的磁盘很小,所以长期跑任务的时候,经常会因为磁盘不够,导致节点失败。而且,这种情况下的emr,是不会自动修复的。

spark-history

spark-default.xml

1
2
3
spark.history.fs.cleaner.enabled true
spark.history.fs.cleaner.interval 1m
spark.history.fs.cleaner.maxAge 1h

spark-history里面保存着spark的application的log,因此如果不需要的话,可以把清理的时间变短一下。

spark-yarn

yarn-site.xml

1
2
3
4
5
6
7
8
9
<property>
<name>yarn.nodemanager.localizer.cache.target-size-mb</name>
<value>5120</value>
</property>

<property>
<name>yarn.nodemanager.localizer.cache.cleanup.interval-ms</name>
<value>30000</value>
</property>

spark执行任务的时候,会将自身需要的jar放到hadoop上,导致hadoop的磁盘会缓存下一堆的目录,也是可以定期清理的。

结局

未完待续

Done