いろいろ倉庫

KNIME、EXCEL、R、Pythonなどの備忘録

【その他】回帰モデルの評価指標のいろいろ

・回帰モデルの評価指標にも、いくつか種類がある。少しまとめてみた。

・R2 (決定係数):1 に近いほど精度の高い予測が行えていることになる。が、案外癖のある指標。定義が色々ある。相関係数の二乗は、いろいろある決定係数の一つのらしい(決定係数と呼ばれるものが、相関係数の二乗と異なる場合がある)。ついでに、線形回帰にしか適用出来ないらしい(パラメータに対する線形性がある回帰)。また、必要に応じて自由度を調整したりする必要がある。離れたデータに引っ張られたりすることもある。決定係数だけ見ればOK!とはならないらしい。
・予測値と実測値を散布図にプロットする:とても大事。変なことが起こっていないか、図示して見てみると案外分かる。

・Error:個別プロットの実測値と予測値の差。個別の予測をどれだけ外したか。絶対値を取らなければマイナスにもなる。
・Squared Error:Errorを二乗したもの。ゼロ以上になる。
・Mean Squared Error:個別のSquared Errorの算術平均値。
・Root Mean Squared Error (RMSE):Mean Squared Errorの平方根。よく使われる。極端に外した予測が混ざっていると、それに引っ張られて上がる可能性がある。多くのアルゴリズムでこれを最小化するようにパラメータを更新するようにできている。
・Mean Absolute Error (MAE):Errorの絶対値の平均値。外れ値が多い場合にはこちらの方が良い指標とされている。

・悩ましい。

終わり。