apache pysparkでUnicodeEncodeError: ‘ascii’ codec can’t encode characterとか出たら

localeの設定が間違っていると思われます。 pysparkの実行環境で import locale print(locale.getpreferredencoding()) を表示してみましょう。ANSIとか出てきたら駄目です。ここがUTF-8でないといけません。 sparkの実行サーバーで locale と打ってみて、LANGがja_JP.UTF-8になっていればこの問題は解決できます。 とりあえずconf/spark-env.shに export LANG=ja_JP.UTF-8 と打ってsparkを再起動して解決しました