API Blueprint

install node install -g aglio convert aglio -i {inputfile} -o {output html} Atom plugin Atomでapi-blueprint-previewをインストールする Cmmand+Shift+Pからblueprintと打ってプレビューする

apache-sparkトラブルシュート

java.lang.OutOfMemoryError: Java heap space javaのヒープメモリが足りない。こういうトラブルの場合大抵はメモリの設定が悪い。 ExecuorMemoryとDriverMemoryを拡大させる conf/spark-env.shに以下を追加し、ドライバー(親)とエクゼキューター(複数のマシンに分散して実行するプロセス?)の確保できる最大メモリを増やす SPARK_EXECUTOR_MEMORY=5g SPARK_DRIVER_MEMORY=20g また、collectなど、最終的にmapしたRDDを収集するときの最大サイズにも注意が必要。そのような最大サイズはconfにspark.driver.maxResultSizeを設定する。 scalaを使用している場合、オプションはSparkContextから設定できる val conf = new SparkConf() conf.set(“spark.driver.maxResultSize”,”10g”)  

python-basic

ディレクトリを再帰的に検索 import os for root,dirs,files in os.walk(path): for file in files:  

arffとpandasのDataFrameを双方向変換できるライブラリarff2pandasをPyPIで公開しました

機械学習ツールWekaを使っていると、しばしば.arffのファイルフォーマットとpandasのDataFrameを行き来したくなります。 そこで普段はarff2pandasというパッケージを作って使っていたのですがせっかくなのでPyPIに公開してpipでインストールできるようにしました。 インストール pip install arff2pandas つかいかた # インポート from arff2pandas import a2p # 読み込み with open(‘sample.arff’) as f: df = a2p.load(f) print(df) # 書き込み import pandas as pd df = pd.DataFrame({ ‘power@NUMERIC’:[0.5,0.2], ‘label@{good,bad}’:[‘good’,’bad’] }) with open(‘sample.arff’,’w’) as f: a2p.dump(df,f) なるべくjsonファイル入出力のスタイルに近づけているつもりです。 pandasがCSVにできるのでarffとcsvの行き来も簡単 with open(‘sample.arff’) as f: a2p.load(f).to_csv(‘sample.csv’) PyPIのURLはこちらです https://pypi.python.org/pypi?:action=display&name=arff2pandas ソースコードはGitHubで公開しています。 https://github.com/garicchi/arff2pandas