リッジ回帰の数式を導出する
最小二乗法による線形回帰モデル
リッジ回帰を説明する上で最小二乗法による線形回帰モデルの推定方法の理解が必要になりますので、まずこちらから説明します。
説明変数が2以上の線形回帰モデル(重回帰モデル)は以下で表されます。
ここでは目的変数、は説明変数、は切片項を含む回帰係数(偏回帰係数)、は誤差項です。 これの回帰係数を推定する方法として最小二乗法があります。これは観測値とモデルによる予測値の差の二乗がについて最小になるようなを見つける方法です。観測値と予測値の差の二乗を数式で書くと、
この式をベクトルと行列を用いて書き直すと、
となります。なお、1行目から2行目の式変形はベクトルの2乗は自身の内積になるのでという関係を用いています。この観測値と予測値の差の二乗を残差平方和(RSS)と呼びます。ではこのRSSがについて最小となるようにするので、で偏微分してと置きます。ベクトルで微分しているので、0ベクトルとなることに注意してください。
式変形をしてについて解きます。
イコールの形にするためにはの逆行列を両辺の左からかける必要があります。逆行列はすべての行列において計算できるわけではなく、行列がフルランクである必要があります。がフルランクであるとは、言い換えると説明変数同士で完全相関(相関係数が1)している組が無いということです。なお、フルランクでない行列の場合、特異と呼びます。よって、ここではフルランクであることを仮定します。
これが最小二乗法を用いた場合の回帰係数(偏回帰係数)の推定量になります。
最小二乗法とバイアスについて
上の最小二乗法で求めた回帰係数は不偏推定量といって、バイアス(偏り)がありません。これは回帰係数の期待値(平均)が母数(真の値)に一致することを意味しています。しかしながら、回帰係数の選び方は無数にあるため、バイアスはあるもののもっと誤差を減らせる(精度を上げられる)ような回帰係数の選び方もあるかもしれません。そこで、バイアスを増やすことによってこれを実現することを考えます。変数選択もその一つであり、今回取り上げるリッジ回帰やラッソ回帰などの縮小推定があります。縮小推定では推定する回帰係数について制限を設けて縮小または0にする手法です。いずれにしても、縮小推定を用いて推定した回帰係数はバイアスを持つ可能性があるため、解釈には注意が必要になると考えられます。
# 最小二乗法による線形回帰をリッジ回帰に拡張する
最小二乗法による線形回帰は下式で表される残差平方和(RSS)を最小とするようなを求めることでした。
リッジ回帰を含む縮小推定では回帰係数に制限を制限を設けると上で書きました。縮小推定という名前が示しているように回帰係数が小さくなるようにします。残差平方和を最小とするというアプローチは変わりませんが、回帰係数を小さくしたいので回帰係数の大きさに応じてペナルティを課すようにします。具体的には、上の残差平方和の式に回帰係数の大きさを足し合わせます。単純に回帰係数を足し合わせないのは回帰係数はマイナスになることもあり得るからです。大きさという表現は数学的には様々な表現方法がありますが、回帰係数はベクトルであるためノルムになり、絶対値を取る方法(L1ノルム)、2乗する方法(L2ノルム)などがあります。前者を用いるとラッソ回帰に、後者だとリッジ回帰になります。
回帰係数の大きさを表す式を罰則項と呼ぶことにします。は切片項に該当しますが、これはの原点であり今回の関心から外れるものであり、罰則項には含めません。また、説明変数を中心化することで切片の推定量は単純にになります。これは切片の推定量が
から求めることができるので、説明変数が中心化されていることは説明変数の平均値が0になり、第2項が0になることからわかります。
以降では説明変数が中心化されていることを前提とします。つまり説明変数の次元が(個のデータと個の説明変数)です。罰則項を以下のように表現します。
ここでは罰則項の強さを調整するハイパーパラメータです。ではこの項を残差平方和に足し合わせます。
最小二乗法のときと同様にベクトルと行列を用いて書き換えます。
これを最小化するので偏微分してとおきます。
について解きます。
はの単位行列です。最小二乗法の時と同様に逆行列を用いてイコールの形にしますが、今回のリッジ回帰ではつまりが対角成分に足されています。これによって、必ずフルランクになりますので逆行列を持ちます。(個人的な感想ですが、これを始めて見たときにとても感動しました。)よって、
これがリッジ回帰における回帰係数の推定量です。最小二乗法のものと比べてみます。
その違いはがに足されていることだけです。ハイパーパラメータがであれば最小二乗法の式と等価に、で回帰係数がに縮小されます。
この数式が一体何を意味するのかは次回考察します。
参考
- 現代数理統計学の基礎
- 統計的学習の基礎