統計・確率のお勉強

統計学を中心に色々勉強するブログ

最小二乗法(単回帰)

理系の大学に入って、最初の年。物理学などの実験をかせられるところも多いだろう。その時、実験値に対して最小二乗法をしてグラフを書け!みたいなことを言われると思う。
私自身が物理学の実験を行っていた時も最小二乗法を使っていたが、何をしている課さっぱりわからなかった。実験前の授業で前準備として前で物理科の教授が高速で最小二乗法の導出を行っていたが当時はとりあえず実験データを与えられた式に当てはめて、その値をただ使っていただけだった。

ここでは、最小二乗法とは何がしたいのか。そしてその導出を行う。

記号の確認

最小二乗法に入る前に、各記号の定義?を確認しておく。

\begin{eqnarray}
\bar{x} &=& \frac{1}{n}\sum_{i=i}^n x_i \\
\bar{y} & =& \frac{1}{n}\sum_{i=1}^n y_i \\
s_x^2 &=& \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 \\
s_y^2 &=& \frac{1}{n}\sum_{i=1}^n (y_i - \bar{y})^2 \\
r_{xy} &=& \frac{s_{xy}}{s_x s_y} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n(y_i - \bar{y})^2}}
\end{eqnarray}

上から、 x,y の平均、分散、 xy相関係数である。

相関係数直線的関係を図る尺度である。

単回帰,重回帰,説明変数,従属変数

相関係数 r_{xy}\pm 1 に近く正(負)の相関が認められる時、一方の変数を他方の変数の1次関数として表すことができると考えられる。つまり、 yx の関数として考えた時、

$$
y = a + bx
$$

というモデルを考えることができる。このモデルを線形回帰モデル、このモデルを用いた分析を回帰分析という。

この時 x説明変数(独立変数) y従属変数(被説明変数)という。

  • 説明変数が1個 ・・・・・ 単回帰

  • 説明変数が2個以上 ・・・ 重回帰
  • となる。

    最小二乗法(単回帰)

    ここでは説明変数が一つの単回帰の最小二乗法について説明する。
    n 個の観測値 (x_i,y_i) \;\; (i = 1,2,\dots,n) を考える。この時、 n 個の観測値に対して、

    \begin{eqnarray}
    y_i &=& a + bx_i
    \end{eqnarray}

    という回帰モデルを考える。観測値が一つの直線上に乗ることはありえないので、
    回帰式の誤差を小さくする a,b を推定値とすることになる。

    回帰式の誤差

    \begin{eqnarray}
    y_i -(a + bx_i)
    \end{eqnarray}

    しかし、このまま足してしまうと、値に正負が存在するため、誤差の大きさを図ることができないそのため最小二乗法では上記の式を二乗したものをすべて足し合わせたものを用いる。つまり

    \begin{equation}
    \mathcal{Q} = \sum_{i=1}^n\{y_i - (a + bx_i)\}^2
    \end{equation}

    これは非負値の二次式であり、これを a,b について偏微分した式を 0 とするような a,b\mathcal{Q} を最小化する a,b である。よって以下の連立方程式の解が求める推定値 \hat{a}, \hat{b} である。


    \begin{eqnarray}
    \left\{
    \begin{array}{l}
    \frac{\partial \mathcal{Q}}{\partial a} = -2\sum_{i=1}^n\{y_i - (a+bx_i)\} = 0 \\
    \frac{\partial \mathcal{Q}}{\partial b} = -2\sum_{i=1}^n x_i\{y_i - (a+bx_i)\} = 0 \\
    \end{array}
    \right.
    \end{eqnarray}

    \begin{eqnarray}
    \Leftrightarrow \left\{
    \begin{array}{l}
    \sum_{i=1}^n\{y_i - (\hat{a}+\hat{b}x_i)\} = 0 \\
    \sum_{i=1}^n x_i\{y_i - (\hat{a}+\hat{b}x_i)\} = 0 \\
    \end{array}
    \right.
    \end{eqnarray}

    \begin{eqnarray}
    \Leftrightarrow \left\{
    \begin{array}{l}
    \sum_{i=1}^n y_i = \hat{a}n + \hat{b}\sum_{i=1}^n x_i \\
    \sum_{i=1}^n x_i y_i = \hat{a}\sum_{i=1}^n x_i + \hat{b}\sum_{i=1}^n x_i^2
    \end{array}
    \right.
    \end{eqnarray}

    \begin{eqnarray}
    \Leftrightarrow \left\{
    \begin{array}{l}
    \bar{y}= \hat{a} + \hat{b}\bar{x} \\
    \frac{1}{n}\sum_{i=1}^n x_i y_i = \hat{a}\bar{x} + \hat{b}\frac{1}{n}\sum_{i=1}^n x_i^2
    \end{array}
    \right.
    \end{eqnarray}

    \begin{eqnarray}
    \Leftrightarrow \left\{
    \begin{array}{l}
    \hat{a} = \bar{y} - \hat{b}\bar{x} \\
    \frac{1}{n}\sum_{i=1}^n x_i y_i - \bar{x}\bar{y} = \hat{b}(\frac{1}{n}\sum_{i=1}^n x_i^2 - \bar{x}^2)
    \end{array}
    \right.
    \end{eqnarray}

    \begin{eqnarray}
    \Leftrightarrow \left\{
    \begin{array}{l}
    \hat{a} = \bar{y} - \hat{b}\bar{x} \\
    \hat{b} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n(x_i - \bar{x})^2} = \frac{s_{xy}}{s_{x^2}} = \frac{r_{xy}s_y}{s_x}
    \end{array}
    \right.
    \end{eqnarray}


    したがって推定された回帰直線は

    \begin{equation}
    \hat{y} = \hat{a} + \hat{b}x = \bar{y} + \hat{b}(x-\bar{x}) = \bar{y} + (\frac{s_{xy}}{s_{x^2}})(x-\bar{x})
    \end{equation}

    これを推定回帰直線または標本回帰直線という。これを式変形すると

    \begin{eqnarray}
    (\frac{\hat{y} - \bar{y}}{s_y}) &=& r_{xy}(\frac{x-\bar{x}}{s_x})
    \end{eqnarray}

    とかける。この形は覚えやすいので、覚えておくといいだろう。

    まとめ

    最小二乗法の考え方の基本は誤差を小さくすることにある。この点だけ気をつけていれば、後の操作は極めて当然のものだと思えるだろう。最後にもう一度推定値を示しておく。

    \begin{eqnarray}
    \left\{
    \begin{array}{l}
    \hat{a} = \bar{y} - \hat{b}\bar{x} \\
    \hat{b} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n(x_i - \bar{x})^2} = \frac{s_{xy}}{s_{x^2}} = \frac{r_{xy}s_y}{s_x}
    \end{array}
    \right.
    \end{eqnarray}

    参考文献

    高澤俊幸・勝野健太郎・服部真・山内恒人(2005)『モデリング』社団法人 日本アクチュアリー会.
    稲垣宣生(2013)『数理統計学』(数学シリーズ)裳華房.