リッジ回帰の考察(主成分分析との関係)
リッジ回帰の考察
こちらの回で求めた最小二乗法とリッジ回帰の解は以下のようになりました。
2つの違いは逆行列を求める際に、対角成分にを足し合わせる点です。は罰則項の強さを調整するハイパーパラメータです。これが一体何を意味しているか式変形を行って解明していこうと思います。今回は特異値分解を使用しますので、参考に特異値分解の記事をリンクしておきます。
まず、を以下のように特異値分解します。
ここでとは、となるような行列です。は特異値を持つ対角行列です。(1)式の最小二乗回帰の解について、
これを特異値分解の式(2)を使って、
一方リッジ回帰は、
なお、なので、です。
最小二乗回帰とリッジ回帰との違いはの部分です。この分だけが縮小されます。ハイパーパラメータであるの値を大きくするか、の値が小さくなるとより強く縮小されることを示しています。は特異値の各成分の2乗値ですが、これは一体何を意味しているのでしょうか。
リッジ回帰と主成分分析の関係
実はリッジ回帰は主成分分析と関係があります。主成分分析は標本共分散行列を固有値分解して求めますが、標本共分散行列は下式で求めます。
ただし、は中心化(平均値で引かれている)されているとします。これを特異値分解の式(2)を使って変形すると、
となります。は直交行列であり、は対角行列です。つまりこの式は(を無視すれば)の固有値分解の形になっています。なのでの列ベクトルは固有ベクトルであり、の各値は固有値です。各固有ベクトルはの主成分方向を表しています。たとえば1列目の固有ベクトルとの内積
を第1主成分と言います。第1主成分は他の主成分と比較して、最も大きい標本分散を持っています。つまりは分散の方向を表しています。そして分散の大きさは固有値で表されています。固有値はなので、第1主成分の分散は、
となります。ここで(4)式の話に戻します。問題はが何であるのかということでした。これは(6)式が示しているように分散です。そしてリッジ回帰ではが小さい変数についてより強く縮小するという話でした。が小さいとはつまり、主成分方向にデータを射影したときの分散が小さくなることです。したがいまして、リッジ回帰は小さい分散方向の成分を持つ変数の係数をより強く縮小させることがわかります。
参考
- 現代数理統計学の基礎
- 統計的学習の基礎