統計・確率のお勉強

統計学を中心に色々勉強するブログ

検定方式の定め方[正規分布の例]

統計を各分野で応用する場合、既に知られている検定方式をただ使うことがほとんどであり、その検定方式がどのようにして定まるのか触れられることは少なく、また、それを知る必要性も低い。しかし、統計学をきちんと学ぼうとする際に各手法がどのような理論のもとで成り立っているのかを知ることは、各手法がどのような考え方のもとできてきているのか、統計がどのような考え方を持って各手法を導き出しているのかを知る助けとなる。ここでは、Neyman-Pearsonの定理から、検定方式を定め方に関して、式を追っていくことにする。

※環境によっては分数やルートの横棒が表示されないことがあります。

Neyman-Pearson(ネイマン・ピアソン)の定理

帰無仮説 H_0 : \theta = \theta_0 (単純仮説)
対立仮説 H_1 : \theta = \theta_1 (単純仮説)

に対して検定する。標本数はnである。

棄却域が決まれば検定方式が決まる。最強力検定法をを作るにはNeyman-Pearsonの定理から以下の手順に従えば良いことがわかっている。

(1)領域を作る。

Rc = \{(x_1,x_2,...,x_n); \frac{\prod_{i=1}^n f(x_i; \theta_1)}{\prod_{i=1}^n f(x_i; \theta_0)} \ge c\}

となる領域R_cを作っておく。

(2)
P\{(X_1,X_2,...,X_n) \in R_c | \theta = \theta_0 \} = P(第1種の誤りが起こる)

 = \int \ldots \int_{R_c} \prod_{i=1}^n f(x_i;\theta_0)dx_1\ldots dx_n = \alpha

となるように定数cを定める。この時求まったR_cが最強力棄却域R^*となる。


以上の(1)(2)従って検定方式を求めていく。例として正規母集団に関する検定方式を求めていく。

検定方式を求める(正規母集団,平均\mu未知,分散\sigma^2既知)

正規母集団N(\mu,\sigma^2)の母平均\muについて下記の仮説の時

帰無仮説  H_0 : \mu = \mu_0
対立仮説  H_1 : \mu = \mu_1 (> \mu_0)

次の検定法が最強力検定法であることを示す。

\bar{x} < \mu_0 + u(\alpha) \frac{\sigma}{\sqrt{n}} の時H_0を棄却

\bar{x} > \mu_0 + u(\alpha) \frac{\sigma}{\sqrt{n}} の時H_0を採択

(\alpha有意水準,u(\alpha)は標準正規分布の上側確率)

ここでは正規母集団N(\mu,\sigma^2)を考えているので母集団の分布は

{ f(x;\mu) = \frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2} \}}

で与えられ、これを(1)の式に代入する。

(a)
 Rc = \{(x_1,\ldots,x_n); \frac{\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu_1)^2}{2\sigma^2} \}}{\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu_0)^2}{2\sigma^2} \}} \ge c \}

=\{(x_1,\ldots,x_n); \exp(-\frac{1}{2\sigma^2}\sum_{i=1}^n\{(x_i-\mu_1)^2-(x_i-\mu_0)^2 \}) \ge c \}

=\{(x_1,\ldots,x_n); \exp(\frac{1}{2\sigma^2}\sum_{i=1}^n\{(2x_i-\mu_0-\mu_1)(\mu_1-\mu_0)\} \ge c \}

=\{(x_1,\ldots,x_n); \frac{\mu_1-\mu_0}{2\sigma^2}(2n\bar{x}-n(\mu_1+\mu_0)) \ge \log c \}

=\{(x_1,\ldots,x_n); \bar{x} \ge \frac{2\sigma^2\log c + n(\mu_1^2-\mu_0^2)}{2n(\mu_1-\mu_0)} = C \}

計算すると最終的に上記のような形になる。
次に手順(2)を行う。
(b)
上記のカッコ内の不等式に注目して考える。カッコ内の式を見やすくすると

 R_c = \{(x_1,\ldots,x_n);\bar{x} \ge C \}

という形をとなっていることが分かる。

P\{(X_1,\ldots,X_n) \in R_c | \mu = \mu_0\} = \alpha

となるcを求めるといことはつまり、

\alpha = P\{X_1,\ldots,X_n \in R_c | \mu = \mu_0 \}

 = P\{\frac{\prod_{i=1}^n f(x_i;\mu_1)}{\prod_{i=1}^n f(x_i;\mu_0)} \ge c | \mu = \mu_0 \}

 = P\{\bar{X} \ge C | \mu = \mu_0 \}

となるCを求めることと同じ。
ここで、H_0のもとで\bar{X}の分布はN(\mu,\frac{n}{\sigma^2})であるから

 P\{\bar{X} \ge C | \mu = \mu_0 \}

 = \int_C^{\infty} \frac{1}{\sqrt{2\pi}\frac{\sigma}{\sqrt{n}}} \exp(-\frac{(t-\mu_0)^2}{2\frac{\sigma^2}{n}}) dt

(※\frac{t-\mu_0}{\sigma/\sqrt{n}}=u とおく)

 = \int_{c_0}^{\infty} \frac{1}{2\pi}\exp(-\frac{u^2}{2}) du

 = 1-\Phi(c_0), c_0 = \frac{C-\mu_0}{\sigma/\sqrt{n}}

ここで、 \Phi(\bullet)N(0,1)の分布関数を表している。標準正規分布表から1-\Phi(c_0) = \alphaとなるc_0 = u(\alpha)を読み取ると、

 C^* = \mu_0 + \frac{\sigma}{\sqrt{n}}c_0 = \mu_0 + \frac{\sigma}{\sqrt{n}} u(\alpha)

となる。

つまり、

 \bar{x} > \mu_0 + \frac{\sigma}{\sqrt{n}} u(\alpha)

の時、H_0 : \mu = \mu_0は棄却され、

 \bar{x} < \mu_0 + \frac{\sigma}{\sqrt{n}} u(\alpha)

の時、H_0 : \mu = \mu_0は採択される。

以上のようにして検定方式を定めることができる。

参考文献

鈴木武・山田作太郎(2006)『数理統計学-基礎から学ぶデータ解析-』内田老鶴圃.
国沢清典(2012)『確率統計演習2-統計』培風館.