那些年不懂的spark(3)

aws的emr起来之后，默认的磁盘很小，所以长期跑任务的时候，经常会因为磁盘不够，导致节点失败。而且，这种情况下的emr，是不会自动修复的。

spark-history

spark-default.xml

1
2
3

spark.history.fs.cleaner.enabled true
spark.history.fs.cleaner.interval 1m
spark.history.fs.cleaner.maxAge 1h

spark-history里面保存着spark的application的log，因此如果不需要的话，可以把清理的时间变短一下。

spark-yarn

yarn-site.xml

<property>
    <name>yarn.nodemanager.localizer.cache.target-size-mb</name>
    <value>5120</value>
</property>

<property>
    <name>yarn.nodemanager.localizer.cache.cleanup.interval-ms</name>
    <value>30000</value>
</property>

spark执行任务的时候，会将自身需要的jar放到hadoop上，导致hadoop的磁盘会缓存下一堆的目录，也是可以定期清理的。

结局

未完待续

CatChen

我的王国，我一定会让你永垂不朽的

那些年不懂的spark(3)

spark-history

spark-yarn

结局

Done