統計・確率のお勉強

統計学を中心に色々勉強するブログ

多変量解析1 多変量分布他

多変量分布

今回は多変量解析です。線形代数の知識が必要になってきて私は少し苦手
です...。
しかし今の時代、1変量でデータ解析なんて殆ど無いでしょうからちゃんとべんきょうしなきゃですなあ。

2変量の場合について

まずは2変量の場合について見ていきましょう。まず、確率変数(random variables = r.v.) X,Y を考えます。\forall x,y \in \mathbb{R} に対して、積分布関数(cumlative distribution function = c.d.f.)は次で定義されます。

$$
F(x,y) = Pr\{X\le x, Y\le y \}
$$

積分布関数が絶対連続(absolutely continuous)であるとき、偏微分がほとんどいたるところで存在し

絶対連続 - Wikipedia


$$
\frac{\partial^2F(x,y)}{\partial x \partial y} = f(x,y)
$$

及び

$$
F(x,y) = \int_{-\infty}^y \int_{-\infty}^x f(u,v)dudv
$$

が成り立つ。


f(x,y) \ge 0
\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(u,v)dudv = 1

p変量

次にp変量の場合を考える。 X_1,X_2,\cdots,X_p をr.v.とする。c.d.f.は

$$
F(x_1,x_2,\cdots,x_p) = Pr(X_1 \le x_1,X_2 \le x_2,\cdots,X_p \le x_p)
$$

F(x_1,x_2,\cdots,x_p) が絶対連続の時、密度関数(density function)は

$$
\frac{\partial^p F(x_1,x_2,\cdots,x_p)}{\partial x_1\partial x_2 \cdots\partial x_p} = f(x_1,x_2,\cdots,x_p)
$$

また、

$$
F(x_1,\cdots,x_p) = \int_{-\infty}^{x_p}\cdots\int_{-\infty}^{x_1}f(u_1,\cdots,u_2)du_1\cdots du_p
$$

周辺分布(Marginal Distribution)

再び2変量で見ていきます。確率変数 X,Y の累積分布関数(c.d.f.)が与えられた時 X周辺分布関数

\begin{eqnarray}
Pr\{X\le x\} &=& Pr\{X\le x,Y \le \infty\} \\
&=& F(x,\infty)
\end{eqnarray}

で与えられ、これを F(x) と表記する。また

\begin{eqnarray}
F(x) &=& \int_{-\infty}^{x}\int_{-\infty}^{\infty}f(u,v)dvdu \\
&=& \int_{-\infty}^{x}f(u)du
\end{eqnarray}

となる。 Y に対しても同様に求めることができる。

さて再びp変量について考えていきます。r.v. X_1,\cdots,X_p のc.d.f.として F(x_1,\cdots,x_p) が与えられたとする。この時、周辺分布は

\begin{eqnarray}
Pr\{X_1\le x_1,\cdots,X_r\le x_r\} &=& Pr\{X_1\le x_1,\cdots,X_r\le x_r,X_{r+1} \le \infty,\cdots,X_p\le \infty\} \\
&=& F(x_1,\cdots,x_r,\infty,\cdots,\infty)
\end{eqnarray}

ここで X_1,\cdots,X_r の周辺密度は

$$
\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}f(u_1,\cdots,u_p)du_{r+1}\cdots du_{p}
$$

で与えられる。

今日はここまで

まだ定義とか書いただけだけどここまでだな...勉強始めたばかりでまだ良く見えてこない...

参考文献

Anderson T.W.(1958)『An Introduction to Multivariate Statistical Analysis』 John Wiley & Sons