いろいろ倉庫

KNIME、EXCEL、R、Pythonなどの備忘録

【KNIME】多変量データをt-sneで可視化したい

・多変量データを可視化する方法には様々あるが、今回はt-sneという手法を試してみたい。ティーズニーと読むらしい。

・t-SNE (t-distribution Stochastic Neighbor Embedding)は、データ間の距離(類似性)を保持したまま、低次元化する手法だそうだ。
・距離を確率分布と捉え、t分布に従っていると仮定して低次元での距離を表現する。

・よく弄られるハイパーパラメータはperplexity(有効な近傍点の評価基準≒分散の決定因子)で、5-50が一般的

・アヤメ分類問題(下図)を用いて、多変量データを可視化してみる。

f:id:choron81:20211209235917p:plain

・ワークフローは非常にシンプル(下図)。ハイパーパラメータはほぼデフォルトを使った。最適化の余地を大いに感じるが、なんとなく、それぞれの種のポジションが分かる。

f:id:choron81:20211210000217p:plain

f:id:choron81:20211210000400p:plain

・ちなみに、3Dプロットすると更に愉快に可視化できる(下図)。ぐりぐり動かせて楽しい。

f:id:choron81:20211210000620p:plain

・最適化には学ばなければならないことがたくさんあるが、可視化はなんだか楽しい。

 

終わり。