【Python】分類問題で遊んでみたい。

Python 分類問題機械学習

・お題：機械学習というやつで遊んでみたくて、画像に写っているものが何か分類する問題をやってみようと思った。有名な問題で、手書きの数字画像がなんの数字か判別するモデルを作るやつがあるらしい。やってみたい。・とりあえず、データをロードしてみる…

#Python

2022-04-08

【KNIME】ParameterをOptimizeしたい。

KNIME 分類問題機械学習・CSV Reader ・X-Aggregator ・X-Partitioner ・Random Forest Learner ・Random Forest Predictor ・Scorer ・Parameter Optimization Loop Start ・Parameter Optimization Loop End

・機械学習のハイパーパラメータを最適化したいと思って調べてみたところ、以下のKNIME Hubの記事が参考になりそうだった。 hub.knime.com ・まず、Parameter Optimization関連のノードを使うためには、Extensionをインストールする必要がある（以下）。・…

#KNIME #機械学習

2022-04-06

【KNIME】Cross Validationしてみたい。

KNIME 機械学習分類問題・X-Aggregator ・X-Partitioner ・CSV Reader ・Partitioning ・Random Forest Learner ・Random Forest Predictor ・Scorer

・モデルの汎化性能を評価する目的で、交差検証（Cross Validation）してみようと思った。・通常、機械学習の際には、データを学習用とテスト用に分割する。Cross Validationでは、これを何度も実施して、予測性能を検証することになる。例えば、学習用デー…

#KNIME #機械学習

2022-03-09

【KNIME】いろいろな分布の乱数を発生させたい。

KNIME Tips 機械学習・Empty Table Creator ・Random Number Assigner ・Gaussian Distributed Assigner

・KNIMEでいろいろな分析をしていると、乱数を発生させたくなることがある。・EXCELでの乱数の発生のさせ方は以前記事にしたが、KNIMEだともっと簡単たくさんの乱数を発生させることができる。・Node Repositoryで調べると、以下の一群のノードが役に立ち…

#KNIME #Tips #機械学習

2022-03-04

【KNIME】化合物を扱いたい。

KNIME 機械学習化学的な・File Reader ・Molecule Type Cast ・RDKit Fingerprint ・Fingerprint Similarity ・Distance Matrix Caliculate

・KNIMEの使い方は様々にあるが、そのうちで特に発達している利用法の1つにケモインフォマティクスがある。化学情報学や計算化学と日本語訳される学問で、化学物質の性質を情報学の観点から表現・解析・予測する学問らしい。せっかくKNIMEを扱っているので、…

#KNIME #ケモインフォマティクス

2022-02-28

【KNIME】グラフ通りのデータを作りたい。

KNIME Tips 機械学習・Visual 2D Data Generator

・サンプルデータを使って分析を組んでいると、「こんな感じの分布のデータが欲しいなぁ」と思うことがある。・正規分布だったり一様分布だったりするならシンプルなのだが、例えば「平面グラフのこの辺に軸が傾いた楕円状に分布しているデータが欲しい」な…

#KNIME #Tips #機械学習

2022-02-23

【KNIME】多変量データをt-sneで可視化したい

KNIME 機械学習可視化・File Reader ・t-SNE(L. Jonsson) ・Color Manager ・Scatter Plot

・多変量データを可視化する方法には様々あるが、今回はt-sneという手法を試してみたい。ティーズニーと読むらしい。・t-SNE (t-distribution Stochastic Neighbor Embedding)は、データ間の距離（類似性）を保持したまま、低次元化する手法だそうだ。・距…

#KNIME #機械学習 #可視化

2022-02-21

【KNIME】Spectral Clusteringでクラスタリングしたい。

KNIME クラスタリング可視化機械学習 Python ・Table Creator ・Python Script ・Scatter Plot ・Column Rename ・Column Appender ・Color Manager

・先日KNIMEでk-meansクラスタリングなどを実施してみた。k-meansクラスタリングの特徴は、プロットした空間中で中心から距離をベースに考えるところで、要は2次元グラフ上なら丸く分布していないと綺麗に分けることができない。・歪んだ分布の場合、Spectr…

#KNIME #Python #クラスタリング #可視化 #機械学習

2022-02-16

【KNIME】curve fittingで酵素反応速度論的パラメータを推定してみたい（非線形回帰）。

KNIME 機械学習 Python 回帰問題分子生物学的な・Table Creator ・Python Script ・String Manipulation ・Table Row to Variable ・Concatenate ・Color Manager ・Scatter Plot ・Add Empty Rows ・Math Foumula

・酵素反応速度論的解析をする際に、モデルの式に数値を当てはめてパラメータを推定するcurve fittingをやりたかったのだけれど、KNIMEでのやり方が分からなかった。・Pythonなら出来そうだったので、KNIMEにPythonを入れ込んで、サンプルデータのfittingを…

#KNIME #Python #機械学習 #非線形回帰

2022-02-14

【KNIME】データをNormalizationしたい

KNIME Tips 機械学習・Table Creator ・Normalizer (PMML) ・Statistics ・Concatenate

・数値データを解析する際に、複数の特徴量を使う場合、単位の違いが問題になることがある。Random Forestなどの決定木系の手法ではそれほど問題にならないかも知れないが、その他多くの場合では何らかの手法でNormalizationされることが多い。・KNIMEでNor…

#KNIME #Tips #機械学習

2022-02-11

【KNIME】回帰分析に適用するモデルを決めたい（Pycaret）

KNIME 機械学習 Python 回帰問題・File Reader ・Python Script

・教師あり学習に使うモデルを決めるために、PythonのライブラリPycaretをKNIMEで実行してみた。・まず、先日作成したPythonの仮想環境にPycaretを入れようとインストールしようとしたが、上手くいかなかった。・knimeenvを作成した際にconda create -n kn…

#KNIME #Python #機械学習

2022-02-08

【その他】回帰モデルの評価指標のいろいろ

その他機械学習回帰問題 Tips

・回帰モデルの評価指標にも、いくつか種類がある。少しまとめてみた。・R2 (決定係数)：1 に近いほど精度の高い予測が行えていることになる。が、案外癖のある指標。定義が色々ある。相関係数の二乗は、いろいろある決定係数の一つのらしい（決定係数と呼ば…

#機械学習 #回帰問題

2022-02-07

【KNIME】Random Forestで特徴量の重要度を算出したい

KNIME 機械学習分類問題・File Reader ・Partitioning ・Random Forest Learner ・Random Forest Predictor ・Scorer (javascript) ・Math Foumula ・Sorter ・RowID ・Bar Chart

・以前に記載した通り、機械学習では、無駄な特徴量は捨てるか省くかした方が良い。・Random Forestで特徴量の大切さ（寄与度？）を算出する手法がないかと調べてみたところ、Random Forest Learnerノードの真ん中の出力ポートAttribute Statisticsを利用す…

#KNIME #機械学習

2022-02-04

【KNIME】Random Forest Regressionで回帰問題を解きたい

KNIME 機械学習回帰問題・File Reader ・Scatter Plot ・Partitioning ・Random Forest Learner (Regression) ・Random Forest Predictor (Regression) ・Numeric Score

・分類問題を試してみたので、次は回帰問題を試してみたい。・やり方は分類問題と全く同じで、Random Forestの回帰問題版を使用した（下図）・サンプルデータセットとしては、ボストン家賃データセットを用いた。その他の設定はすべてデフォルトで、モデル…

#KNIME #機械学習 #回帰問題

2022-02-02

【KNIME】特徴量を削りたい

KNIME Tips 機械学習・Low Variance Filter ・Linear Correlation ・Correlation Filter

・機械学習において特徴量を選抜する手法は様々にある。・一般的なものとして、分散が小さすぎる特徴量、相関が高すぎる特徴量を除去することは真っ先に挙げられると思う。・分散が小さすぎる特徴量を除く際には、Low Variance Filterノード、相関が高すぎ…

#KNIME #Tips #機械学習

2022-02-01

【その他】分類問題の評価指標を整理したい

その他機械学習分類問題 Tips

・分類問題の評価指標がややこしいので、自分の言葉で整理することにした。・分類問題では、いろいろな指標がモデル評価に用いられる。調べたいことは、「このモデルで、ちゃんと正しく分けられましたか？」ということだが、それぞれ何なのか？・私のイメ…

#機械学習 #Tips

2022-01-31

【KNIME】Random Forestで分類問題を解いてみたい

KNIME 機械学習分類問題・File Reader ・Partitioning ・Random Forest Learner ・Random Forest Predictor ・Scorer (javascript)

・機械学習の教師あり学習というものをKNIMEでやってみたく、多くの場合で用いられるRandom Forestという手法を試してみた。・データのサンプルは、教師あり学習の分類問題で一般的なIris分類問題（アヤメの分類問題）を用いた。・一連の流れをフローで組…

#KNIME #機械学習 #分類問題

2022-01-28

【KNIME】主成分分析したい

KNIME 機械学習・Table Creator ・Normalizer ・PCA Apply ・PCA Compute ・Moving Aggregation ・Line Plot ・Math Foumula

・機械学習で多変量を扱う際に、変量（特徴量）を減らしたいことがある。・Uncle Bernie's ruleというもので、学習に必要なデータの数は、説明変数の数の10倍以上は準備しましょうというもので、いたずらに特徴量や説明変数を増やしてモデルするのはよろし…

#KNIME #機械学習

2022-01-26

【KNIME】階層型クラスタリングに使う距離情報を読み込みたい。

KNIME クラスタリング機械学習可視化

・データ間の距離情報のみを得た場合に、階層型クラスタリグを適用したい。・そこで、距離情報を読み込んで階層型クラスタリングに適用してみたい。・サンプルデータとして、10個のポイントの相互距離を用いた（下図）。・これを三角行列風の表に加工し、…

#KNIME #機械学習 #クラスタリング

2022-01-25

【その他】機械学習に使えるデータセットを探したい

Tips その他機械学習

・機械学習でいろいろ試していると、サンプルデータセットを入手したくなることがある。・少し調べてみると以下のサイトが便利そうだった。・The UCI Machine Learning Repository archive.ics.uci.edu ・kaggle dataset www.kaggle.com ・dataflair data-…

#Tips #機械学習