apache pysparkでUnicodeEncodeError: ‘ascii’ codec can’t encode characterとか出たら

localeの設定が間違っていると思われます。

pysparkの実行環境で

を表示してみましょう。ANSIとか出てきたら駄目です。ここがUTF-8でないといけません。

sparkの実行サーバーで

と打ってみて、LANGがja_JP.UTF-8になっていればこの問題は解決できます。

とりあえずconf/spark-env.shに

と打ってsparkを再起動して解決しました