・Math Foumula
・化合物の活性情報を弄っていると、単位がmMやμmol/L、mg/Lなど揃っていないことがある。このままでは比較するのに不便なので、単位を揃えるワークフローを組んでみた。 ・サンプルデータは以下。ここまでバラバラなことはまずないと思うが、これが一つの単…
・酵素反応速度論的解析をする際に、モデルの式に数値を当てはめてパラメータを推定するcurve fittingをやりたかったのだけれど、KNIMEでのやり方が分からなかった。 ・Pythonなら出来そうだったので、KNIMEにPythonを入れ込んで、サンプルデータのfittingを…
・以前に記載した通り、機械学習では、無駄な特徴量は捨てるか省くかした方が良い。 ・Random Forestで特徴量の大切さ(寄与度?)を算出する手法がないかと調べてみたところ、Random Forest Learnerノードの真ん中の出力ポートAttribute Statisticsを利用す…
・機械学習で多変量を扱う際に、変量(特徴量)を減らしたいことがある。 ・Uncle Bernie's ruleというもので、学習に必要なデータの数は、説明変数の数の10倍以上は準備しましょうというもので、いたずらに特徴量や説明変数を増やしてモデルするのはよろし…
・時系列データの解析手法として、トレンド解析及びトレンド除去後の周期性の解析というのが一般的に用いられるらしい。 ・時系列データの解析を実施してみたいと思って最初に思いついたのが、気温のデータだった。気温のデータは、気象庁のHPからcsvでダウ…
・関数でグラフを描く方法が分からなかったので、少し調べてワークフローを作成した(下図)。 ・工程としては、 ① 適当な表を作成(データは何でも良い。列名はXでデータ型はDouble) ② 空の行を追加(例えば100行。下図) ③ 行番号を抽出して10で割って、0…
・これまでにいくつかクラスタを扱ったが、k-meansなどの手法はクラスタ数を自分で決めなければならない。 ・何を以て「最適なクラスタ数」というのはは諸説あるが、k-means法でクラスタ数を決めるのに一般的に用いられたいるのは、エルボー法かシルエット法…
・数値データの表を扱っている際に、積算値を算出したいことがある。 ・調べてみると、Moving Aggregationというノードで可能らしい(下図)。 ・Scoreの対応する行までを加算した積算値がSum(Score)列に入っている。 ・Moving Aggregationの設定は以下の通…