統計・確率のお勉強

統計学を中心に色々勉強するブログ

統計学、参考書おすすめ

統計学を学ぶにあたっておすすめの参考書、及び読んでおきたい本を紹介したいと思います。

統計学

統計学入門 (基礎統計学)


難しさ★★☆☆☆(2)

言わずとしれた良書。統計学をわかりやすくかつレベルを落とさずに解説しようと東大の先生方が書いたもの。統計学の歴史や実際にどのように使われているのかがわかる具体例が多く、文系理系問わずに読むことができる。ただ、わかりやすさを主眼に置き、数学的な証明の大部分は載っていないため、数理統計学としての統計学を考えている人には足りない。証明などを除けばかなり詳しく具体例を交えて書かれているので、統計学という学問を知るために一度読んでおくのが良い。またアクチュアリー指定教科書でもあるので、受験を考える人は持っておいたほうがいい一冊。
また、これは全部で三冊ある基礎統計学シリーズの最初の本で、もう2つに「人文・社会科学の統計学 (基礎統計学)」「自然科学の統計学 (基礎統計学)
」がある。

統計学が最強の学問である


難しさ:☆☆☆☆☆(0)

統計学を学ぶ動機づけに最適な本。統計学とはどういうものなのか、世間で言われているビッグデータについてや、ただデータを見やすくグラフにする社員をコケにしてみたりと読むに飽きず、サラッと読めて、統計学を知った気になれる本。本質的なことはわからなくても、統計学がどんなものであるのかわかる。世間が誤解してる統計についての少し知ったかぶりができるようになる。ちょっと統計がきになる人だけでなく本格的に勉強しようと考えてる人も一度読んでみると結構面白いはず。

マンガでわかる統計学


難しさ★☆☆☆☆(1)

私自身はさらっと目をとおしただけだが、統計学の研究室に所属している助教「まずうちの研究室に来たらこれを読むんだ」と紹介していた。曰く、必携の一冊とのこと。

定義関数,単純可測関数

定義関数

定義

A \subset \Omega に対して

$$
\begin{eqnarray}
1_A(\omega) \equiv \left\{
\begin{array}{ll}
1 & (\omega \in A) \\
0 & (\omega \in A)
\end{array}
\right.
\end{eqnarray}
$$

と定めると、この関数 1_A定義関数という。

単純可測関数

f:\Omega \to \mathbb{R} に対して、a_1,a_2,\ldots,a_k \in \mathbb{R} 及び \Omega の有限分割 \{A_1,A_2,\ldots,A_n\} が存在して

$$
f(\omega)=\sum_{i=1}^n a_i 1_{A_i}(\omega)
$$

と表せるとき、 f単純可測関数であるという。

定理

任意の可測関数 f:\Omega \to [0,+\infty] に対して、単純可測関数の単調増加列 \{f_n\} が存在して, f=\lim_{n \to \infty} f_n である。

証明は少し面倒なので省略。気になる方はルベーグ積分を扱っている参考書を買ったり借りたりして調べて見てください。以後、積分の性質に関するところの証明の可測関数の場合でよく出てきます。

短いですが今回はここまで。

参考文献

梅垣壽春,大矢雅則,塚田真(2015)『測度・積分・確率』共立出版株式会社

可測関数

可測関数

空間 \Omega\sigma-加法族 \mathcal{F} の組、つまりは可測空間 (\Omega,\mathcal{F}) を考える。\bar{\mathbb{R}}=\{\mathbb{R},\pm\infty\} とする。

定義

f:\Omega \to \bar{\mathbb{R}} が次の条件を満たす時、f\mathcal{F} -可測関数でるという。

$$
\{\omega\in\Omega;f(\omega)\le a\} \in \mathcal{F} \;\;\;\;\;(\forall a\in \mathbb{R})
$$

ここで、少し表記を省略して、例えば上記の式を \{f \le a\} \in \mathcal{F} と書く事にする。 上の定義から以下が全て同値であることが導ける。

$$
\begin{eqnarray}
(1)&f:\mathcal{F}-可測関数 &&;\\
(2)&\{f \ge a\} \in \mathcal{F} & (\forall a \in \mathbb{R}) & ; \\
(3)&\{f < a\} \in \mathcal{F} & (\forall a \in \mathbb{R}) & ; \\
(4)&\{f > a\} \in \mathcal{F} & (\forall a \in \mathbb{R}) & ; \\
(5)&f^{-1}(B)\in \mathcal{F} &(\forall B \in \mathfrak{B}) & かつ \{f=+\infty\},\{f=-\infty\} \in \mathcal{F}
\end{eqnarray}
$$

証明
(1)\Rightarrow(4) : \{f > a\} = \{f \le a\}^c \in \mathcal{F} \;\; (\forall a \in \mathbb{R}) ;
(4)\Rightarrow(2) : \{f\ge a\} = \cap_{n=1}^{\infty}\{f>a-\frac{1}{n}\}\in \mathcal{F}\;\; (\forall a \in \mathbb{R}) ;
(2)\Rightarrow(3) : \{f < a\}=\{f \ge a\}^c \in \mathcal{F} \;\; (\forall a \in \mathbb{R}) ;
(3)\Rightarrow(1) : \{f\le a\}=\cap_{n=1}^{\infty}\{f < a + \frac{1}{n}\} \in \mathcal{F} \;\; (\forall a \in \mathbb{R})

以上により (1)\Leftrightarrow(2)\Leftrightarrow(3)\Leftrightarrow(4)が示された。

$$
\begin{eqnarray}
(5)\Rightarrow(1)&:& \{f \le a\}=f^{-1}((-\infty,a])\cup\{f=-\infty\} \in \mathcal{F} \;\; (\forall a \in \mathbb{R}) \\
(1)かつ(4)\Rightarrow (5) &:& f^{-1}((a,b])=\{f>a\}\cap\{f\le b\} \in \mathcal{F} \;\; (\forall a \in \mathbb{R})
\end{eqnarray}
$$

より示された。

各種演算

次に f,g,f_n(n=1,2,3.\ldots) をいづれも \mathcal{F} -可測関数として、\alpha \in \mathbb{R} とする。次の関数が定義されるならば、いずれも \mathcal{F}-可測関数である。

(1)\alpha f
任意の a\in \mathbb{R} に対して

$$
\begin{eqnarray}
\alpha=0 &\Rightarrow& \{\alpha f \le a\}=
\left\{
\begin{array}{l}
\phi \in \mathcal{F} \;\; (a<0)\\
\Omega \in \mathcal{F} \;\; (a\ge 0)
\end{array}
\right. \\
\alpha > 0 &\Rightarrow& \{\alpha f \le a\} = \{f\le \frac{a}{\alpha}\} \in \mathcal{F} \\
\alpha < 0&\Rightarrow& \{\alpha f \le a\} = \{f \ge \frac{a}{\alpha}\} \in \mathcal{F}
\end{eqnarray}
$$

a の値は任意であることを思い出すと良い。つまり任意であるから a=\frac{a}{\alpha} でも良い。

(2) f+g

\mathcal{Q}=\{r_1,r_2,\ldots\} とする。

$$
\begin{eqnarray}
\{f + g < a\} &=& \{f < a - g\} \\
&=& \cup_{n=1}^{\infty}\{f < r_n < a - g\} \\
&=& \cup_{n=1}^{\infty}(\{f < r_n\}\cap\{g < a - r_n\}) \in \mathcal{F}
\end{eqnarray}
$$

(3) fg
\forall a \in \mathbb{R} に対して

$$
\{f^2\le a\} =
\begin{eqnarray}
\left\{
\begin{array}{ll}
\{-\sqrt{a} \le f \le \sqrt{a}\} \in \mathcal{F} & (a \ge 0) \\
\phi \in \mathcal{F} & (a < 0)
\end{array}
\right.
\end{eqnarray}
$$

であるから、 f^2\mathcal{F} -可測関数である。

$$
\therefore \;\; fg=\frac{(f+g)^2-(f-g)^2}{4}
$$

\mathcal{F} -可測関数である。

(4) \frac{1}{f}
\forall a \in \mathcal{F} に対して

$$
\{\frac{1}{f} \le a\}=(\{f>0\}\cap\{af\ge1\})\cup(\{f<0\}\cap\{af\le 1\})\in \mathcal{F}
$$

(5) |f|

$$
\{|f|\le a\}=
\begin{eqnarray}
\left\{
\begin{array}{cl}
-f\le a \le f \in \mathcal{F} & (a \ge 0) \\
\phi \in \mathcal{F} & (a < 0)
\end{array}
\right.
\end{eqnarray}
$$

(6) \sup_{n\ge 1} f_n
\forall a \in \mathbb{R}に対して

$$
\{\sup_{n\ge 1} f_n \le a\} = \cap_{n=1}^{\infty}\{f_n \le a\} \in \mathcal{F}
$$

(7) \inf_{n\ge 1} f_n

\inf_{n\ge 1}f_n = -(\sup_{n\ge 1} (-f_n))

より示される。

(8) \limsup_{n\to\infty}f_n

定義

\limsup_{n\to\infty}f_n=\inf_{n\in\mathbb{N}}(\sup_{k\ge n} f_k)

から、これも \mathcal{F} -可測関数

(9) \liminf_{n\to\infty}f_n

同様に定義

\liminf_{n\to\infty}f_n=\sup_{n\in\mathbb{N}}(\inf_{k\ge n}f_k)

からわかる。

(10) \lim_{n\to\infty}f_n 極限の定義から、数列が極限を持つのは、上極限と下極限が一致した時であるから、明らか。

$$
\lim_{n\to\infty}f_n=\liminf_{n\to\infty}f_n=\limsup_{n\to\infty}f_n
$$

(11) f\lor g = \max\{f,g\}
\forall a \in \mathbb{R} に対して

$$
\begin{eqnarray}
\{f\lor g \le a\}&=&\{\max\{f,g\}\le a\} \\
&=& \{f\le a\}\cap\{g\le a\} \in \mathcal{F}
\end{eqnarray}
$$

(12) f \land g = \min\{f,g\}

\forall a\in \mathbb{R} に対して

$$
\begin{eqnarray}
\{f\land g \le a\}&=& \{\min\{f,g\}\le a\} \\
&=& \{f\le a\}\cup\{g\le a\} \in \mathcal{F}
\end{eqnarray}
$$

(13)\sqrt{f}

\forall a\in \mathbb{R}に対して

$$
\{\sqrt{f}\le a\}=
\begin{eqnarray}
\left\{
\begin{array}{cl}
\{0\le f \le a^2\} \in \mathcal{F} & (a\ge 0) \\
\phi \in \mathcal{F} & (a < 0)
\end{array}
\right.
\end{eqnarray}
$$

より \sqrt{f} は可測関数。

参考文献

梅垣壽春,大矢雅則,塚田真(2015)『測度・積分・確率』共立出版株式会社
志賀浩二(2008)『ルベーグ積分30講』朝倉書店
伊藤清三(2008)『数学選書4. ルベーグ積分入門』裳華房

状態の分類

状態の分類

マルコフ連鎖 \{X_n\} は離散形状態空間 S と推移行列 \{p_{i,j} \} を持つとする。

定義

  1. i,j \in S に対して、ある n > 0があって、 p_{i,j}^{(n)} > 0であるとき、i から j到達可能であるといい、 i \to j 表す。
  2. i \to j かつ j \to iであるとき、i \leftrightarrow j と表し、互いに到達可能 であるという。
  3. 全ての i,j \in C \subset S に対して、i \leftrightarrow j ならばC既訳であるという。
  4. 状態 i \in S から、他のどんな状態へも到達できないとき、i吸収状態と呼ぶ。

i \leftrightarrow j ならば j \leftrightarrow i でありi \leftrightarrow jかつ j \leftrightarrow k ならば i \leftrightarrow k であるので、\leftrightarrow は対称的かつ推移的である。この関係により状態を排反な集合に分類することができる。

閉集合・・・分類された集合の中で、集合の外への推移がないもの.

S の部分集合 C閉集合である \Leftrightarrow[(j\in C \land j\rightarrow k) \Rightarrow k \in C]

となる。

状態空間 S は既約かつ排反な閉集合の集まりと、既約な閉集合を含まない集合に分類できる。

\because) \forall i \in S に対して

C(i) = iを含む既約な閉集合

と定義する。この時 \forall i,j \in S に対して
$$
C(i) \cap C(j) \neq \phi
$$
ならば
$$
C(i)=C(j)
$$
である。
$$
T=S-\cup_{i\in S}C(i)
$$
とおく。この時 SC(i),i \in STに分割される。

(例)
f:id:doratai:20160127121447p:plain

例えば上の図において状態1と2,3と4は互いに到達可能である。
{1,2},{3,4}は既約、状態5は閉集合である。

周期

定義

j \in S に対して
$$
\begin{equation}
d= \gcd\{n \ge 1; p_{j,j}^{(n)}>0\} (= \{n \ge 1; p_{i,j}^{(n)}>0\}の最大公約数)
\end{equation}
$$
とする時 dj周期という。特に d=1 の時、j非周期的であるという。

周期に関して、Wikipediaの周期性の項目がわかりやすかったので引用したものを下記に記す。
マルコフ連鎖

状態i への回帰がk の倍数回のみに見られ、しかもk がこの性質を持つ最大の数ならば、「状態i の周期はk である」という。例えば、i への回帰が偶数回目にのみ起こるならば、i の周期は2である。

上式におけるdに当たるのが引用部分のkになる。

定理 i,j \in S に対して、 i \leftrightarrow j ならば、ij は同じ周期を持つ。

証明

i,j の周期を d(i),d(j) と表すことにする。d(i)d(j) で割切れることを証明する。

i \rightarrow j より、ある n に対してp_{i,j}^{(n)} > 0 であり、ある m に対して p_{i,j}^{(m)} > 0 であるから、チャップマン・コルモゴロフの公式から

$$
\begin{equation}
p_{i,i}^{(n+m)} \ge p_{i,j}^{(n)}p_{j,i}^{(m)} > 0
\end{equation}
$$

が成り立つ。よって、 n+md(i) の倍数である。
kp_{j,j}^{(k)} > $ を満たす任意の正整数とする。

$$
\begin{equation}
p_{i,i}^{(n+k+m)} \ge p_{i,j}^{(n)}p_{j,j}^{(k)}p_{j,i}^{(m)} > 0
\end{equation}
$$

より、n+m+kd(i) の倍数である。よって kd(i) の倍数である。
従って d(j)d(i) で割り切れる。
ここで、i,j は互いに到達可能であるので
$$
\begin{equation}
d(i) = d(j)
\end{equation}
$$
が言える。

この定理により、既約なマルコフ連鎖の状態は全て同じ周期を持つ。

先に示した例の図において、状態1と2は既約であり、状態1において何度となく状態1を繰り返す可能性がある。すると
$$
\begin{equation}
d(1) = \gcd\{1,2,3,4,5,\ldots\} = 1 \\
d(2) = \gcd\{2,3,4,5,6,\ldots\} = 1
\end{equation}
$$
となる。既約である二つの状態の周期は一致している。$d=1$であるので、状態1と2は非周期的である。状態3と4も既約である。状態3を考えると一旦状態4に移ってまた戻ってくるという推移をしなければならないから
$$
\begin{equation}
d(3) = \gcd\{2,4,6,8,\ldots\} = 2
\end{equation}
$$
になる。また状態3と4は既約なので当然 $d(4)=2$ になる。よって$d \neq 1$であるので、状態3,4は周期的である。
また状態5は永遠と状態5を繰り返すので
$$
\begin{equation}
d(5) = \gcd\{1,2,3,4,5,6,\ldots\} = 1
\end{equation}
$$
であり非周期的である。

参考書籍

宮沢政清(2013)『確率と確率過程』(現代数学ゼミナール17)近代科学社

n次の推移行列

関連・・・マルコフ連鎖

準備

確率過程の主要な問題の1つとして、現在の状態の分布から未来の状態を計算する、というものがある。マルコフ連鎖を用いることで、この確率を求めることが可能である。

\{X_n\}マルコフ連鎖i_0,i_1,\ldots,i_n \in Sの時
マルコフ連鎖の定義、推移行列 p_{i,j} の定義より

(1)
{
\begin{eqnarray}
&   & P(X_0=i_0,X_1=i_1,\ldots,X_n=i_n) \\
& = & P(X_0=i_0,\ldots,X_{n-1}=i_{n-1})\cdot \frac{P(X_0=i_0,X_1=i_1,\ldots,X_n=i_n)}{P(X_0=i_0,X_1=i_1,\ldots,X_{n-1}=i_{n-1})} \\
& = & P(X_0=i_0,\ldots,X_{n-1}=i_{n-1})\cdot P(X_n=i_n\;|X_0=i_0,\ldots,X_{n-1}=i_{n-1}) \\
& = & P(X_0=i_0,\ldots,X_{n-1}=i_{n-1})\cdot p_{i_{n-1},i_n} \\
& = & \ldots \\
& = & P(X_0=i_0)\cdot p_{i_0,i_1}\cdot p_{i_1,i_2}\cdot \ldots \cdot p_{i_{n-1},i_n}
\end{eqnarray}
}
が成り立つ。(1)式より、マルコフ連鎖は $X_0$ 分布(初期分布)と推移行列 \{p_{i,j}\} により定まることが分かる。

マルコフ連鎖(上)推移行列(下)[確認]
{
{\small \begin{equation}
P(X_{n+1} = j \; | X_0=j_0,X_1=j_1,\ldots,X_{n-1}=j_{n-1},X_n=i)=P(X_{n+1}=j\;|X_n=i) \\
p_{i,j} = P(X_{n+1}=j|X_n=i) \;\;\; (i,j \in S)
\end{equation}}
}

定義

p_{i,j^{(n)}}=P(X_n=j|X_0=i)n 次の推移確率 p_{i,j^{(n)}} を要素とする行列、

{
\begin{equation}
P^{(n)}=\{p_{i,j}^{(n)}\}_{i,j \in S}
\end{equation}
}

n次の推移行列という。

マルコフ連鎖の式は n,m > 0 に対して
{
\begin{equation}
P(X_0=i_0,X_1=i_1,\ldots,X_{n+m}=i_{n+m}) = P(X_0=i_0)\cdot p_{i_0,i_1}\cdot p_{i_1,i_2}\cdot \ldots \cdot p_{i_{n-1},i_n}
\end{equation}
}
である。この両辺を i_0,i_n,i_{n+m} を除いた全ての i_j について和を取ると

{
\begin{eqnarray}
&   & P(X_0=i_0,X_n=i_n,X_{n+m}=i_{n+m}) \\
& = & \sum_{i_i,\ldots,i_{n-1}} P(X_0=i_0)p_{i_0,i_1}\ldots p_{i_{n-1},i_n} \sum_{i_{n+1},\ldots,i_{n+m-1}} p_{i_n,i_{n+1}}\ldots p_{i_{n+m-1},i_{n+m}} \\
& = & P(X_0=i_0,X_{n}=i_n)P(X_{n+m}=i_{n+m} | X_n=i_n)
\end{eqnarray}
}

である。ここで両辺を P(X_0=i_0,X_n=i_n) で割ると

{
\begin{equation}
P(X_{n+m}=i_{n+m} | X_0=i_0,X_n=i_n) = P(X_{n+m}=i_{n+m} | X_n=i_n)
\end{equation}
}

を得る。これはマルコフ連鎖の式の別表現である。

補題 (チャップマン・コルモゴロフの公式)

任意の整数 m,n \ge 0i,j \in S に対して
{
\begin{equation}
p_{i,j}^{(n+m)}=\sum_{k \in S} p_{i,k}^{(n)} p_{k,j}^{(m)} \;\;\;\;\; (※)
\end{equation}
}
が成り立つ。

証明

\cup_{k\in S} \{X_n=k\}=\Omega であるから
{
\begin{eqnarray}
p_{i,j}^{(n+m)} & = & P(X_{n+m}=j|X_0=i) \\
& = & \sum_{k\in S} P(X_{n+m}=j,X_n=i_k|X_0=i) \\
& = & \sum_{k\in S} P(X_{n+m}=j|X_n=k,X_0=i)P(X_n=k|X_0=i) \\
& = & \sum_{k\in S} P(X_{x+m}=j|X_n=k)P(X_n=k|X_0=i) \\
& = & \sum_{k\in S} p_{k,j}^{(m)}p_{i,k}^{(n)} \\
& = & \sum_{k\in S} p_{i,k}^{(n)}p_{k,j}^{(m)} \;\;\;\; \Box
\end{eqnarray}
}

同じ状態空間 S より定義された2つの推移行列 P=\{p_{i,j}\},Q=\{q_{i,j}\}の積 PQ を通常の行列の積と同様に

{
\begin{equation}
PQの(i,j)要素=\sum_{k\in S} p_{i,k}q_{k,j}
\end{equation}
}

により定義する。そうすると(※)を

{
\begin{equation}
P^{(n+m)}=P^{(n)}P^{(m)}
\end{equation}
}

と表すことができ、更に

{
\begin{equation}
P^{(n)}=P^{(n-1)}P=\ldots=P^n
\end{equation}
}

よりn次の推移行列は推移行列のn回の積であることが分かる。

参考書籍

宮沢政清(2013)『確率と確率過程』(現代数学ゼミナール17)近代科学社

離散時間型マルコフ連鎖

マルコフ連鎖

Pを確率測度とし、\{X_n\}_{n=1}^{\infty} を有限または可算の集合 S を状態空間に持つ離散形確率過程とする。

※確率過程(Wikipedia参照)

確率論において、確率過程(かくりつかてい、英語: stochastic process)は、時間とともに変化する確率変数のことであり、株価や為替の変動、ブラウン運動などの粒子のランダムな運動を数学的に記述するモデルとして利用される。不規則過程(英語: random process)とも言う

確率過程(Wikipedia)


※状態空間・・・確率過程が各時刻で取る値の集合

定義

\{X_n\}_{n=0}^{+\infty}が任意のn と任意のj_0,j_1,\ldots,j_{n-1},i,j \in Sに対して、

 {
\begin{equation}
(1) \;\; P(X_{n+1} = j \; | X_0=j_0,X_1=j_1,\ldots,X_{n-1}=j_{n-1},X_n=i)=P(X_{n+1}=j\;|X_n=i)
\end{equation}
}

を満たすとき、\{X_n\}離散時間型マルコフ連鎖または単にマルコフ連鎖と呼ぶ。更に上式の右辺がnに依存しないならば、定常な推移を持つという。また(1)式は次のように表すこともできる。

{
\begin{equation}
(1)' \;\; P(X_{n+1} = j \; | X_0,X_1,\ldots,X_n) = P(X_{n+1} = j | X_n)
\end{equation}
}

これらの式は次の時刻における状態は、現在の状態によってのみ決まり、過去によらないことを示している。このことをマルコフ性と呼ぶ。マルコフ連鎖が定常な推移を持つならば、状態の変化は出発点の時刻に依存しない。

定常な推移について言い換え

マルコフ連鎖が定常な推移を持つとは i,j \in Sに対して
 {
\begin{equation}
p_{i,j}=P(X_{n+1} = j \; | X_n = i )
\end{equation}
}
を満たすp_{i,j} が存在するとき。 \{X_n\}
は定常な推移を持つという。

マルコフ連鎖の例

状態空間 S = \{A,B,C\}
を用意します。1秒ごとにAからBへ1/3の確率で、AからCへ1/3の確率で、
AからAに1/3,BからBに1/3,BからAに2/3,CからBに1/3,CからCに2/3の
確率で状態がうつるとする。この時推移図は以下のようになっている。

f:id:doratai:20160123202419p:plain

この時、推移行列は次で与えられる。
 {
P = \left(
  \begin{array}{ccc}
    1/3 & 1/3 & 1/3 \\
    2/3 & 1/3 & 0 \\
    0   & 1/3 & 2/3
  \end{array}
\right)
}
大学受験で確率をやった人は上のような図を書いたことがある人もいると思います。
この確率過程は n の値によっていないことがわかります。
例えば時間 nの時に状態Bであった時、次の時間 n+1 の時に状態A
である確率は次のようにかけます。
{
\begin{equation}
P(X_{n+1} = A\;| X_n = B ) = \frac{2}{3}\cdot P(X_n=B)
\end{equation}
}
次の状態は現在の状態にのみ依存していることがわかりますね。
故にこの確率過程はマルコフ性を持っています。また、
BからAに推移する確率はnの値に関わらず 2/3 です。他の場合も同様であり
これは「定常な推移を持つ」と言えます。


※推移行列の見方はAを状態1,Bを状態2,Cを状態3としたとき、 状態1から状態2に推移する確率が1行2列目の p_{1,2}成分に書かれている。

推移行列に関する補足

先に例示した推移行列Pの各行を見てもらいたい。各行の成分を横に足してくと和が1になっているのが分かる。
n次の正方行列Q=\{q_{i,j}\}マルコフ連鎖の推移行列になるための必要十分条件として

{
\begin{equation}
q_{i,j} \ge 0, \;\;\;\; \sum_{j\in S} q_{i,j} = 1
\end{equation}
}

があることを覚えておきたい。

参考書籍

宮沢政清(2013)『確率と確率過程』(現代数学ゼミナール17)近代科学社

平均μ、分散σ^2共に未知の場合の尤度比検定(正規分布)

この検定方法の導出がなかなかに骨が折れるものでした...
定着のためにも載せておこうと思います。

尤度比検定

ここで用いる尤度比検定の基本的な内容については以下を参照してください
doratai.hatenablog.com尤度比検定 - 統計,確率のお勉強

問題

正規母集団の平均に関する検定において、母分散\sigma^2を未知としたとき、以下の検定問題

\begin{eqnarray}
\left\{
\begin{array}{l}
H_0 : \mu = \mu_0 \\
H_1 : \mu \neq \mu_0
\end{array}
\right.
\end{eqnarray}
の検定方法を導く。

導出

ともに未知の平均と分散\mu,\sigma^2の正規母集団からの互いに独立した標本をX_1,X_2,\ldots,X_nとし、有意水準\alphaとする。
正規母集団N(\mu,\sigma^2)にしたがっているので、母集団の分布は

f(x;\mu, \sigma^2) = \frac{1}{\sqrt{2 \pi}\sigma} \exp(-\frac{(x - \mu)^2}{2\sigma^2})

で与えられる。尤度比を\lambdaとすると、
 {
\begin{eqnarray}
\lambda & = & \frac{\max_{\sigma^2} \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x_i-\mu_0)^2}{2\sigma^2})}{\max_{\mu,\sigma^2} \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{(x_i-\mu)^2}{2\sigma^2}) } \\
 & = & \frac{\{ (\frac{1}{2\pi \hat{\sigma}_0^2})^{\frac{n}{2}} \exp(-\frac{1}{2\hat{\sigma}_0^2} \sum_{i=1}^n (x_i - \mu_0)^2) \}_{\hat{\sigma}_0^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \mu_0)^2}}{\{ (\frac{1}{2\pi \hat{\sigma}_1^2})^{\frac{n}{2}} \exp(-\frac{1}{2\hat{\sigma}_1^2} \sum_{i=1}^n (x_i - \bar{x})^2) \}_{\hat{\sigma}_1^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2}} \\
 & = & ( \frac{\hat{\sigma}_1^2}{\hat{\sigma}_0^2})^{\frac{n}{2}} \\
 & = & ( \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{\sum_{i=1}^n (x_i-\mu_0)^2} )^{\frac{n}{2}} \\
 & = & (\frac{\sum_{i=1}^n (x_i - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x} + \bar{x} - \mu_0)^2})^{\frac{n}{2}} \\
 & = & (\frac{\sum (x_i - \bar{x})^2}{\sum (x_i-\bar{x})^2 + n(\bar{x}-\mu_0)^2})^{\frac{n}{2}} \\
 & = & (\frac{1}{1+ \frac{(\bar{x}-\mu_0)^2}{\frac{1}{n}\sum (x_i - \bar{x})^2}})^{\frac{n}{2}} \\
\end{eqnarray}
}

ここで、 t^2 = (\frac{\bar{x}-\mu_0}{s/\sqrt{n-1}})^2, s^2 = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2として

 {
\begin{eqnarray}
\lambda & = & (\frac{1}{1+(\frac{\bar{x}-\mu_0}{s/\sqrt{n-1}}\cdot \frac{1}{\sqrt{n-1}})^2})^{\frac{n}{2}} \\
 & = & (\frac{1}{1+\frac{t^2}{n-1}})^{\frac{n}{2}}
\end{eqnarray}
}

となる。よって棄却域W^*

 {
\begin{eqnarray}
W^* & = & \{ (X_1,\ldots,X_n) ; \lambda < k \} \\
 & = & \{ (X_1,\ldots,X_n); (\frac{1}{1+\frac{t^2}{n-1}})^{\frac{n}{2}} < k \} \\
 & = & \{ (X_1,\ldots,X_n); 1+\frac{t^2}{n-1} > k^{-\frac{2}{n}}\} \\
 & = & \{ (X_1,\ldots,X_n); |t| > \sqrt{(k^{-\frac{2}{n}}-1)(n-1)} = c \}
\end{eqnarray}
}

で与えられる。ここでc

 P((X_1,\ldots,X_n) \in W^* | \mu = \mu_0) = \alpha

 P(|T| > c | \mu = \mu_0) = \alpha

によって定められH_0のもとでT=\frac{\bar{X}-\mu_0}{S/\sqrt{n-1}}は自由度n-1t分布に従う。
よって

 P(|T| = \frac{|\bar{X}-\mu_0|}{S/\sqrt{n-1}} > t_{n-1} (\alpha/2) ) = \alpha

よりc = t_{n-1} (\alpha/2) とすれば良いことが分かる。
以上より棄却域

W^* = \{(X_1,\ldots,X_n); \frac{|\bar{X}-\mu_0|}{S/\sqrt{n-1}} > t_{n-1} (\alpha/2) \}

で与えられる。

参考文献

鈴木武・山田作太郎(2006)『数理統計学-基礎から学ぶデータ解析-』内田老鶴圃.
国沢清典(2012)『確率統計演習2-統計』培風館.

一様最強力検定(UMP検定)

定義

互いに独立な標本X_1,X_2,\ldots,X_nに対して
検定問題
\begin{eqnarray}
\left\{
\begin{array}{l}
H_0 : \theta \in \Theta_0 \\
H_1 : \theta \in \Theta_1
\end{array}
\right.
\end{eqnarray}
を考えたとき、最良な棄却域W^*の選び方として
\begin{equation}
\forall \theta_0 \in \Theta_0,\beta_{W^*} (\theta_0) = P((X_1,\ldots,X_n) \in W^* | \theta_0 \in \Theta_0) = \alpha
\end{equation}
かつ
\begin{equation}
\forall W, \forall \theta_1 \in \Theta_1,\beta_{W^*} (\theta_1) \ge \beta_W (\theta_1)
\end{equation}
を満たす一様最強力棄却域W^*によって定まる検定を一様最強力検定という。

内容

覚えておきたいこと
検定を決める = 棄却域を決める

何を言っているのかというと、どのような棄却域よりも、検出力が大きい。
つまり、検出力が最大となるような棄却域(一様最強力棄却域)を用いて行われる検定が
他の棄却域を用いる検定に比べ最も良いということが言いたいのである。
最初のやつは有意水準に関する言及であり、メインは後者の方である。後者の式を言い直すと、

「任意のどのような棄却域をとってきたとしても、その検出力は、最強力棄却域による検出力以下である」

ということである。

また、後者の式を変形すると

\begin{eqnarray}
\beta_{W^*} (\theta_1) & \ge & \beta_W (\theta_1) \\
P((X_1,\ldots,X_n) \in W^* | \theta_1 \in \Theta_1) & \ge & P((X_1,\ldots,X_n) \in W | \theta_1 \in \Theta_1) \\
1-P((X_1,\ldots,X_n) \notin W^* | \theta_1 \in \Theta_1) & \ge & 1-P((X_1,\ldots,X_n) \notin W | \theta_1 \in \Theta_1) \\
P((X_1,\ldots,X_n) \notin W^* | \theta_1 \in \Theta_1) & \le & P((X_1,\ldots,X_n) \notin W | \theta_1 \in \Theta_1)
\end{eqnarray}

これはつまり、一様最強力棄却域が、第2種の誤り確率を最小にする棄却域であることを示している。

参考文献

鈴木武・山田作太郎(2006)『数理統計学-基礎から学ぶデータ解析-』内田老鶴圃.
国沢清典(2012)『確率統計演習2-統計』培風館.
稲垣宣生(2013)『数理統計学』(数学シリーズ)裳華房.

検出力関数

第1種の誤りと第2種の誤り

検定で必ず出てくる第1種の誤り第2種の誤りについて確認する。

第1種の誤り・・・帰無仮説H_0が正しいにも関わらず、H_0を棄却してしまう誤り

第2種の誤り・・・対立仮説H_1が正しいにも関わらず、H_0を採択してしまう誤り
となる。
通常、第1種の誤りよりも第2種の誤りの方が重大である。

検出力関数の定義

統計の参考書を読んでいると、数理統計学を扱う参考書ですら、
検出力という単語はでるものの、検出力関数という単語があまり出てこない。
(これを書いている時、私もそれで困っている。)
私が持っている参考書によると

検定関数を\varphi(\boldsymbol{X})として

\begin{eqnarray}
\left\{
\begin{array}{l}
H_0 : \theta \in \Theta_0 \\
H_1 : \theta \in \Theta_1
\end{array}
\right.
\end{eqnarray}
の検定問題を考えた時、対立仮説が正しい時に
\begin{equation}
\beta (\theta; \varphi) := E_{\theta} (\varphi (\boldsymbol{X})) \;\; (\theta \in \Theta_1)
\end{equation}
H_1を受容する確率を表している。
つまりは検定\varphi (\boldsymbol{X})の良さを表しており、
これを\varphi(\boldsymbol{X})検出力という。
\beta (\theta; \varphi)\thetaの関数と見たとき、\beta\varphi(\boldsymbol{X})検出力関数と呼ぶ。

授業を受けたのでそれによると

検出力関数(power function)・・・棄却域Wを与えて、帰無仮説H_0を棄却(reject)する確率
で与えられ、

\begin{equation}
\beta_W(\theta) = P((X_1,\ldots,X_n) \in W | \theta \in \Theta)
\end{equation}

で定義される。

1.特に\theta_1 \in \Theta_1の時、\beta_W(\theta_1)を検出力(power)という

\begin{equation}
\beta_W(\theta_1) = P((X_1,\ldots,X_n) \in W | \theta_1 \in \Theta_1) \;\; \gets (大きいほうがよい) \\
= 1 - P((X_1,\ldots,X_n) \notin W | \theta_1 \in \Theta_1)\; \gets (第2種の誤り)
\end{equation}

2.特に\theta \in \Thetaの時

\begin{equation}
\beta_W(\theta_0) = P((X_1,\ldots,X_n) \in W | \theta_0 \in \Theta_0) \;\; \gets (第1種の誤り)
\end{equation}


参考文献

鈴木武・山田作太郎(2006)『数理統計学-基礎から学ぶデータ解析-』内田老鶴圃.
国沢清典(2012)『確率統計演習2-統計』培風館.
稲垣宣生(2013)『数理統計学』(数学シリーズ)裳華房.

尤度比検定

尤度関数(likelihood function)

尤度とは尤もらしさ(もっともらしさ)の度合いのことを指している。

とりあえずこれだけ

母集団の分布をf(x;\theta)とするとき、母数\thetaに関する尤度関数L(\theta)
\begin{equation}
L(\theta) = \prod_{i=1}^n f(x_i;\theta)
\end{equation}
と書ける

もう少し説明を...

X_1,X_2,\ldots,X_nの同時確率(密度)関数をf(x_1,x_2,\ldots,x_n; \theta)とする。
実現値X_1=x_1,X_2=x_2,\ldots,X_n=x_nに対して、f(x_1,x_2,\ldots,x_n; \theta)
X_1=x_1,X_2=x_2,\ldots,X_n=x_nが観測される確率または確率密度であって、未知パラメータ\thetaに依存する。

※実現値、つまり、観測された値を代入することで変数は\thetaのみとなる。

先の関数f(x_1,x_2,\ldots,x_n)において、x_1,x_2,\ldots,x_nを固定すると、
変数\thetaの関数と考えることができる。この関数のことを尤度関数といい、
パラメータ\thetaが持っている、観測値(x_1,x_2,\ldots,x_n)を実現させる尤もらしさを表している。

尤度関数は
\begin{equation}
L(\theta ; x_1,x_2,\ldots,x_n) = L(\theta) = \prod_{i=1}^n f(x_i;\theta)
\end{equation}
と表す。また、通常は尤度関数の対数を取った対数尤度関数(最後の等号はX_1,X_2,\ldots,X_nが独立かつ同一分布に従うとき)
\begin{equation}
l(\theta) = \log L(\theta) = \log \prod_{i=1}^n f(x_i;\theta) = \sum_{i=1}^n \log f(x_i;\theta)
\end{equation}
を用いて、対数尤度関数を最大にする \hat{\theta}(x_1,x_2,\ldots,x_n)を求める。

尤度比検定法

尤度についての確認が取れたところで、本題の尤度比検定にうつる。

確率ベクトル\boldsymbol{X} = (X_1,X_2,\ldots,X_n)の確率(密度)関数をf(x_1,x_2,\ldots,x_n), \theta \in \Theta
とする。\Theta_0 (\neq \phi) \in \Theta, \Theta_1 = \Theta - \Theta_0 (\neq \phi)に対し、仮説検定問題
\begin{eqnarray}
\left\{
\begin{array}{l}
H_0 : \theta \in \Theta_0 \\
H_1 : \theta \in \Theta_1
\end{array}
\right.
\end{eqnarray}
について考える。固定された各標本\boldsymbol{x} = (x_1,x_2,\ldots,x_n)対し
\begin{equation}
\lambda(\boldsymbol{x}) := \frac{\sup_{\theta \in \Theta_0} f(x_1,\ldots,x_n;\theta)}{\sup_{\theta \in \Theta} f(x_1,\ldots,x_n;\theta)}
\end{equation}
を求め、適当に定められた定数cに対し、
\begin{equation}
\lambda(\boldsymbol{x}) < c
\end{equation}
となるときH_0を棄却し、そうでないときは採択するという検定方式を考える。
この時定数cは以下の式で与えられる。(\alpha有意水準)
\begin{equation}
\sup_{\theta \in \Theta_0} P(\lambda(\boldsymbol{x}) < c | \theta \in \Theta_0) = \alpha
\end{equation}
以上のような検定方式を水準\alpha尤度比検定と呼び、統計量\lambda(\boldsymbol{x})を尤度比と呼ぶ。

実際に使う時の流れ

(1)尤度比\lambdaを求め、棄却域R_c
\begin{equation}
R_c = \{(x_1,\ldots,x_n);\lambda = \frac{\prod_{i=1}^n f(x_i;\theta_0)}{\max_{\theta \neq \theta_0} \prod_{i=1}^n f(x_i;\theta)} \le c\}
\end{equation}
によって定める。

(2)次にc_0を適当に定め、R_{c_0}として
\begin{equation}
P((X_1,\ldots,X_n) \in R_{c_0} | \theta = \theta_0) = \int \ldots \int_{R_{c_0}} \prod_{i=1}^n f(x_i;\theta_0)dx_1 \ldots dx_n = \alpha
\end{equation}
が成立するようにすれば、このR_{c_0}が棄却域(有意水準\alpha)となる。

以上(1)(2)を行えば尤度比検定法を導くことができる。ここで、は上限\supではなく最大値\maxが使われているが、上限が使われているのは
理論の厳密にするためであり、実用上は最大値を用いればよいからである。

尤度比検定法を用いる具体的な例は少し長くなるし、疲れたのでまた今度にする。

参考文献

鈴木武・山田作太郎(2006)『数理統計学-基礎から学ぶデータ解析-』内田老鶴圃.
国沢清典(2012)『確率統計演習2-統計』培風館.
稲垣宣生(2013)『数理統計学』(数学シリーズ)裳華房.

Neyman-Pearson(ネイマン・ピアソン)の基本定理

一般

確率ベクトル(標本確率変数) \boldsymbol{X} = (X_1,X_2,\ldots,X_n)は分布P_{\theta}, \theta  \in \Thetaに従うとし、
分布P_\thetaの確率(密度)関数をf(\boldsymbol{x};\theta) (= \prod_{i=1}^n f(x_i;\theta))とする。
この時、検定問題

\begin{eqnarray}
\left\{
\begin{array}{l}
H_0 : \theta = \theta_0 (単純仮説) \\
H_1 : \theta = \theta_1 (単純仮説)
\end{array}
\right.
\end{eqnarray}

に対する有意水準\alpha(0\le \alpha \le 1)の最強力検定 \varphi_0(\boldsymbol{x})は次式で与えられる。
(※\varphi(\boldsymbol{x})のことを検定関数という)

\begin{eqnarray}
\varphi_0(\boldsymbol{x}) =
\left\{
\begin{array}{ll}
1 & if \;\; f(\boldsymbol{x};\theta_1) > kf(\boldsymbol{x};\theta_0) \\
\gamma & if \;\; f(\boldsymbol{x};\theta_1) = kf(\boldsymbol{x};\theta_0) \\
0 & if \;\; f(\boldsymbol{x};\theta_1) < kf(\boldsymbol{x};\theta_0)
\end{array}
\right.
\end{eqnarray}

ここで、定数 \gamma(0 \le \gamma \le 1), k (\ge 0)は次式から定まるものである。
\begin{equation}
E_{\theta_0} ( \varphi(\boldsymbol{X}) ) = \alpha
\end{equation}


以上がNeyman-Pearsonの基本定理である。これだけではなんのことかわからないので、もう少しわかりやすく書いていくことにする。

つまりは...

大きさnの無作為に抽出された独立な標本X_1,X_2,\ldots,X_nについて、帰無仮説、対立仮説共に単純仮説である検定問題

\begin{eqnarray}
\left\{
\begin{array}{l}
H_0 : \theta = \theta_0 (単純仮説) \\
H_1 : \theta = \theta_1 (単純仮説)
\end{array}
\right.
\end{eqnarray}

に対して、最強力棄却域R^*はが以下で与えられる。

\begin{equation}
R^* = \{ (X_1,X_2,\ldots,X_n) ; \frac{\prod_{i=1}^n f(x_i;\theta_1)}{\prod_{i=1}^n f(x_i;\theta_0)} > c \} , c>0
\end{equation}

ただしこの時、cは以下により決まる(\alpha有意水準)

\begin{eqnarray}
P((X_1,X_2,\ldots,X_n) \in R^* | \theta = \theta_0) & = & P(第1種の誤りがおこる) \\
& = & \int \ldots \int_{R^*} \prod_{i=1}^n f(x_i;\theta_0)dx_1 \ldots dx_n \\
& = & \alpha
\end{eqnarray}

上記二つを行うことで最強力棄却域が求まることを、Neyman-Pearsonの基本定理は言っているのである。
この最強力棄却域の基づく検定のことを最強力検定と呼び、Neyman-Pearsonの基本定理を用いることで、
帰無仮説、対立仮説がともに単純仮説の際、最強力検定を求めることができるのである。

以下のことを覚えておきたい。
検定関数\varphi(\boldsymbol{x})を決める\Leftrightarrow棄却域Rを決める

対立仮説が複合の場合でも活躍するNeyman-Pearonの定理

Neyman-Pearsonの定理は基本単純仮説同士の検定に用いられるが、対立仮説が以下のような場合にも応用することができる。
帰無仮説H_0 : \mu = \mu_0
対立仮説H_1 : \mu > \mu_0 または \mu < \mu_0
このような対立仮説の検定問題の場合、\mu > \mu_0(または \mu < \mu_0)を満たすような任意の\mu_1を用いて
単純仮説に帰着することで、Neyman-Pearsonの基本定理を応用することができる。

参考文献

鈴木武・山田作太郎(2006)『数理統計学-基礎から学ぶデータ解析-』内田老鶴圃.
国沢清典(2012)『確率統計演習2-統計』培風館.
稲垣宣生(2013)『数理統計学』(数学シリーズ)裳華房.

検定方式の定め方[正規分布の例]

統計を各分野で応用する場合、既に知られている検定方式をただ使うことがほとんどであり、その検定方式がどのようにして定まるのか触れられることは少なく、また、それを知る必要性も低い。しかし、統計学をきちんと学ぼうとする際に各手法がどのような理論のもとで成り立っているのかを知ることは、各手法がどのような考え方のもとできてきているのか、統計がどのような考え方を持って各手法を導き出しているのかを知る助けとなる。ここでは、Neyman-Pearsonの定理から、検定方式を定め方に関して、式を追っていくことにする。

※環境によっては分数やルートの横棒が表示されないことがあります。

Neyman-Pearson(ネイマン・ピアソン)の定理

帰無仮説 H_0 : \theta = \theta_0 (単純仮説)
対立仮説 H_1 : \theta = \theta_1 (単純仮説)

に対して検定する。標本数はnである。

棄却域が決まれば検定方式が決まる。最強力検定法をを作るにはNeyman-Pearsonの定理から以下の手順に従えば良いことがわかっている。

(1)領域を作る。

Rc = \{(x_1,x_2,...,x_n); \frac{\prod_{i=1}^n f(x_i; \theta_1)}{\prod_{i=1}^n f(x_i; \theta_0)} \ge c\}

となる領域R_cを作っておく。

(2)
P\{(X_1,X_2,...,X_n) \in R_c | \theta = \theta_0 \} = P(第1種の誤りが起こる)

 = \int \ldots \int_{R_c} \prod_{i=1}^n f(x_i;\theta_0)dx_1\ldots dx_n = \alpha

となるように定数cを定める。この時求まったR_cが最強力棄却域R^*となる。


以上の(1)(2)従って検定方式を求めていく。例として正規母集団に関する検定方式を求めていく。

検定方式を求める(正規母集団,平均\mu未知,分散\sigma^2既知)

正規母集団N(\mu,\sigma^2)の母平均\muについて下記の仮説の時

帰無仮説  H_0 : \mu = \mu_0
対立仮説  H_1 : \mu = \mu_1 (> \mu_0)

次の検定法が最強力検定法であることを示す。

\bar{x} < \mu_0 + u(\alpha) \frac{\sigma}{\sqrt{n}} の時H_0を棄却

\bar{x} > \mu_0 + u(\alpha) \frac{\sigma}{\sqrt{n}} の時H_0を採択

(\alpha有意水準,u(\alpha)は標準正規分布の上側確率)

ここでは正規母集団N(\mu,\sigma^2)を考えているので母集団の分布は

{ f(x;\mu) = \frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2} \}}

で与えられ、これを(1)の式に代入する。

(a)
 Rc = \{(x_1,\ldots,x_n); \frac{\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu_1)^2}{2\sigma^2} \}}{\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu_0)^2}{2\sigma^2} \}} \ge c \}

=\{(x_1,\ldots,x_n); \exp(-\frac{1}{2\sigma^2}\sum_{i=1}^n\{(x_i-\mu_1)^2-(x_i-\mu_0)^2 \}) \ge c \}

=\{(x_1,\ldots,x_n); \exp(\frac{1}{2\sigma^2}\sum_{i=1}^n\{(2x_i-\mu_0-\mu_1)(\mu_1-\mu_0)\} \ge c \}

=\{(x_1,\ldots,x_n); \frac{\mu_1-\mu_0}{2\sigma^2}(2n\bar{x}-n(\mu_1+\mu_0)) \ge \log c \}

=\{(x_1,\ldots,x_n); \bar{x} \ge \frac{2\sigma^2\log c + n(\mu_1^2-\mu_0^2)}{2n(\mu_1-\mu_0)} = C \}

計算すると最終的に上記のような形になる。
次に手順(2)を行う。
(b)
上記のカッコ内の不等式に注目して考える。カッコ内の式を見やすくすると

 R_c = \{(x_1,\ldots,x_n);\bar{x} \ge C \}

という形をとなっていることが分かる。

P\{(X_1,\ldots,X_n) \in R_c | \mu = \mu_0\} = \alpha

となるcを求めるといことはつまり、

\alpha = P\{X_1,\ldots,X_n \in R_c | \mu = \mu_0 \}

 = P\{\frac{\prod_{i=1}^n f(x_i;\mu_1)}{\prod_{i=1}^n f(x_i;\mu_0)} \ge c | \mu = \mu_0 \}

 = P\{\bar{X} \ge C | \mu = \mu_0 \}

となるCを求めることと同じ。
ここで、H_0のもとで\bar{X}の分布はN(\mu,\frac{n}{\sigma^2})であるから

 P\{\bar{X} \ge C | \mu = \mu_0 \}

 = \int_C^{\infty} \frac{1}{\sqrt{2\pi}\frac{\sigma}{\sqrt{n}}} \exp(-\frac{(t-\mu_0)^2}{2\frac{\sigma^2}{n}}) dt

(※\frac{t-\mu_0}{\sigma/\sqrt{n}}=u とおく)

 = \int_{c_0}^{\infty} \frac{1}{2\pi}\exp(-\frac{u^2}{2}) du

 = 1-\Phi(c_0), c_0 = \frac{C-\mu_0}{\sigma/\sqrt{n}}

ここで、 \Phi(\bullet)N(0,1)の分布関数を表している。標準正規分布表から1-\Phi(c_0) = \alphaとなるc_0 = u(\alpha)を読み取ると、

 C^* = \mu_0 + \frac{\sigma}{\sqrt{n}}c_0 = \mu_0 + \frac{\sigma}{\sqrt{n}} u(\alpha)

となる。

つまり、

 \bar{x} > \mu_0 + \frac{\sigma}{\sqrt{n}} u(\alpha)

の時、H_0 : \mu = \mu_0は棄却され、

 \bar{x} < \mu_0 + \frac{\sigma}{\sqrt{n}} u(\alpha)

の時、H_0 : \mu = \mu_0は採択される。

以上のようにして検定方式を定めることができる。

参考文献

鈴木武・山田作太郎(2006)『数理統計学-基礎から学ぶデータ解析-』内田老鶴圃.
国沢清典(2012)『確率統計演習2-統計』培風館.