STASH LIST

いい感じに蓄えた技術的なことを吐き出すところ。もしくは独り言

2018-01-01から1年間の記事一覧

Apache Sparkで意図的にCache/Persistをしないと期待した結果にならないこともある

TL;DR Apache Sparkを使うとき、一つのSpark Applicationが動く前提としている状態(Dataset)はCacheかPersistしておいたほうがいい。 Sparkが内部でどういう動きをしているのかというのをわからずに使っていると、こちらの予想とは違う挙動をして期待した結…