【KNIME】多変量データをt-sneで可視化したい

・多変量データを可視化する方法には様々あるが、今回はt-sneという手法を試してみたい。ティーズニーと読むらしい。

・t-SNE (t-distribution Stochastic Neighbor Embedding)は、データ間の距離（類似性）を保持したまま、低次元化する手法だそうだ。
・距離を確率分布と捉え、t分布に従っていると仮定して低次元での距離を表現する。

・よく弄られるハイパーパラメータはperplexity（有効な近傍点の評価基準≒分散の決定因子）で、5-50が一般的。

・アヤメ分類問題（下図）を用いて、多変量データを可視化してみる。

f:id:choron81:20211209235917p:plain

・ワークフローは非常にシンプル（下図）。ハイパーパラメータはほぼデフォルトを使った。最適化の余地を大いに感じるが、なんとなく、それぞれの種のポジションが分かる。

f:id:choron81:20211210000217p:plain

f:id:choron81:20211210000400p:plain

・ちなみに、3Dプロットすると更に愉快に可視化できる（下図）。ぐりぐり動かせて楽しい。

f:id:choron81:20211210000620p:plain

・最適化には学ばなければならないことがたくさんあるが、可視化はなんだか楽しい。

終わり。

いろいろ倉庫