・多変量データを可視化する方法には様々あるが、今回はt-sneという手法を試してみたい。ティーズニーと読むらしい。
・t-SNE (t-distribution Stochastic Neighbor Embedding)は、データ間の距離(類似性)を保持したまま、低次元化する手法だそうだ。
・距離を確率分布と捉え、t分布に従っていると仮定して低次元での距離を表現する。
・よく弄られるハイパーパラメータはperplexity(有効な近傍点の評価基準≒分散の決定因子)で、5-50が一般的。
・アヤメ分類問題(下図)を用いて、多変量データを可視化してみる。
・ワークフローは非常にシンプル(下図)。ハイパーパラメータはほぼデフォルトを使った。最適化の余地を大いに感じるが、なんとなく、それぞれの種のポジションが分かる。
・ちなみに、3Dプロットすると更に愉快に可視化できる(下図)。ぐりぐり動かせて楽しい。
・最適化には学ばなければならないことがたくさんあるが、可視化はなんだか楽しい。
終わり。