この記事を読む

apache pysparkでUnicodeEncodeError: ‘ascii’ codec can’t encode characterとか出たら

localeの設定が間違っていると思われます。 pysparkの実行環境で

を表示してみましょう。ANSIとか出てきたら駄目です。ここがUTF-8でないといけません。 spa…

この記事を読む

python-basic

ディレクトリを再帰的に検索

 

この記事を読む

arffとpandasのDataFrameを双方向変換できるライブラリarff2pandasをPyPIで公開しました

機械学習ツールWekaを使っていると、しばしば.arffのファイルフォーマットとpandasのDataFrameを行き来したくなります。 そこで普段はarff2pandasというパッケージを作って使っていたのですがせっかくなのでPyPIに公…

この記事を読む

neo4jをpythonから利用してGraphDBで遊ぶ

graphdbをpythonから遊びます。 利用するグラフDBはneo4jで、操作するクライアントはpythonのneo4jrestclientパッケージを利用しました。 OSはArchlLinuxでやっていますが他の環境でもまあ同じだと思…

この記事を読む

pandasでよく使うけど忘れやすい処理のメモ

特定の列削除

行のイテレーション

列条件に一致する行の抽出 [crayon-599a7c7080783781…