aws的emr起来之后,默认的磁盘很小,所以长期跑任务的时候,经常会因为磁盘不够,导致节点失败。而且,这种情况下的emr,是不会自动修复的。
spark-history
spark-default.xml1
2
3spark.history.fs.cleaner.enabled true
spark.history.fs.cleaner.interval 1m
spark.history.fs.cleaner.maxAge 1h
spark-history里面保存着spark的application的log,因此如果不需要的话,可以把清理的时间变短一下。
spark-yarn
yarn-site.xml1
2
3
4
5
6
7
8
9<property>
<name>yarn.nodemanager.localizer.cache.target-size-mb</name>
<value>5120</value>
</property>
<property>
<name>yarn.nodemanager.localizer.cache.cleanup.interval-ms</name>
<value>30000</value>
</property>
spark执行任务的时候,会将自身需要的jar放到hadoop上,导致hadoop的磁盘会缓存下一堆的目录,也是可以定期清理的。
结局
未完待续