いろいろ倉庫

KNIME、EXCEL、R、Pythonなどの備忘録

2022-02-01から1ヶ月間の記事一覧

【KNIME】グラフ通りのデータを作りたい。

・サンプルデータを使って分析を組んでいると、「こんな感じの分布のデータが欲しいなぁ」と思うことがある。 ・正規分布だったり一様分布だったりするならシンプルなのだが、例えば「平面グラフのこの辺に軸が傾いた楕円状に分布しているデータが欲しい」な…

【KNIME】棒グラフに色を付けたい。

・散布図はcolor managerノードで簡単に色を付けることができたが、棒グラフ(Bat Chart)のカラムに色を付ける方法が分からなかった。 ・少し癖があったので、メモしておく。 ・以下のようなフローを組んだ。 ・左のウィンドウはTable Creatorの中身。各列…

【KNIME】多変量データをt-sneで可視化したい

・多変量データを可視化する方法には様々あるが、今回はt-sneという手法を試してみたい。ティーズニーと読むらしい。 ・t-SNE (t-distribution Stochastic Neighbor Embedding)は、データ間の距離(類似性)を保持したまま、低次元化する手法だそうだ。・距…

【KNIME】Spectral Clusteringでクラスタリングしたい。

・先日KNIMEでk-meansクラスタリングなどを実施してみた。k-meansクラスタリングの特徴は、プロットした空間中で中心から距離をベースに考えるところで、要は2次元グラフ上なら丸く分布していないと綺麗に分けることができない。 ・歪んだ分布の場合、Spectr…

【KNIME】統計解析してみたい

・KNIMEには、ある程度の統計解析機能がデフォルトで搭載されている(下図)。また、デフォルトでない解析であっても、Extensionを入れれば非常に多様な解析をカバーできる。 ・例えば、A、B各群n=10から得られたデータのセットに対して、Independent groups…

【KNIME】curve fittingで酵素反応速度論的パラメータを推定してみたい(非線形回帰)。

・酵素反応速度論的解析をする際に、モデルの式に数値を当てはめてパラメータを推定するcurve fittingをやりたかったのだけれど、KNIMEでのやり方が分からなかった。 ・Pythonなら出来そうだったので、KNIMEにPythonを入れ込んで、サンプルデータのfittingを…

【その他】統計解析のサンプルデータセットを入手したい。

・以前、データセットの入手先に関して記事にした。 ・統計解析のデータセットで良いものはないか? ・特に統計解析に使うデータセットの場合ら、理想を言えば、このデータセットに対してこういう統計手法を使えば、こういう結果が得られるよ、ということま…

【KNIME】データをNormalizationしたい

・数値データを解析する際に、複数の特徴量を使う場合、単位の違いが問題になることがある。Random Forestなどの決定木系の手法ではそれほど問題にならないかも知れないが、その他多くの場合では何らかの手法でNormalizationされることが多い。 ・KNIMEでNor…

【KNIME】回帰分析に適用するモデルを決めたい(Pycaret)

・教師あり学習に使うモデルを決めるために、PythonのライブラリPycaretをKNIMEで実行してみた。 ・まず、先日作成したPythonの仮想環境にPycaretを入れようとインストールしようとしたが、上手くいかなかった。 ・knimeenvを作成した際にconda create -n kn…

【KNIME】KNIMEでPythonを使ってみたい。

・KNIMEにはデータ分析に関連する様々な機能が搭載されており、Extensionを用いることにより、PythonやRなどを動かすこともできる。 ・少し解析をやっていて、Pythonを回したいシチュエーションに出くわした。それならPythonだけで十分じゃないかという話は…

【その他】回帰モデルの評価指標のいろいろ

・回帰モデルの評価指標にも、いくつか種類がある。少しまとめてみた。・R2 (決定係数):1 に近いほど精度の高い予測が行えていることになる。が、案外癖のある指標。定義が色々ある。相関係数の二乗は、いろいろある決定係数の一つのらしい(決定係数と呼ば…

【KNIME】Random Forestで特徴量の重要度を算出したい

・以前に記載した通り、機械学習では、無駄な特徴量は捨てるか省くかした方が良い。 ・Random Forestで特徴量の大切さ(寄与度?)を算出する手法がないかと調べてみたところ、Random Forest Learnerノードの真ん中の出力ポートAttribute Statisticsを利用す…

【KNIME】重複した列を削除したい

・データ処理の不備で、同じ項目が複数混ざってしまうことがある。 ・そのような場合は、項目の行を削除するなどする必要がある。 ・そのような場合は、Duplicate Row Filterノードが便利。 ・例えば、同じ生徒が複数回含まれてしまっている表から、被ってい…

【KNIME】Random Forest Regressionで回帰問題を解きたい

・分類問題を試してみたので、次は回帰問題を試してみたい。 ・やり方は分類問題と全く同じで、Random Forestの回帰問題版を使用した(下図) ・サンプルデータセットとしては、ボストン家賃データセットを用いた。その他の設定はすべてデフォルトで、モデル…

【KNIME】特徴量を削りたい

・機械学習において特徴量を選抜する手法は様々にある。 ・一般的なものとして、分散が小さすぎる特徴量、相関が高すぎる特徴量を除去することは真っ先に挙げられると思う。 ・分散が小さすぎる特徴量を除く際には、Low Variance Filterノード、相関が高すぎ…

【その他】分類問題の評価指標を整理したい

・分類問題の評価指標がややこしいので、自分の言葉で整理することにした。 ・分類問題では、いろいろな指標がモデル評価に用いられる。調べたいことは、「このモデルで、ちゃんと正しく分けられましたか?」ということだが、それぞれ何なのか? ・私のイメ…