多変量分布
今回は多変量解析です。線形代数の知識が必要になってきて私は少し苦手
です...。
しかし今の時代、1変量でデータ解析なんて殆ど無いでしょうからちゃんとべんきょうしなきゃですなあ。
2変量の場合について
まずは2変量の場合について見ていきましょう。まず、確率変数(random variables = r.v.) を考えます。 に対して、累積分布関数(cumlative distribution function = c.d.f.)は次で定義されます。
$$
F(x,y) = Pr\{X\le x, Y\le y \}
$$
累積分布関数が絶対連続(absolutely continuous)であるとき、偏微分がほとんどいたるところで存在し
$$
\frac{\partial^2F(x,y)}{\partial x \partial y} = f(x,y)
$$
及び
$$
F(x,y) = \int_{-\infty}^y \int_{-\infty}^x f(u,v)dudv
$$
が成り立つ。
※
p変量
次にp変量の場合を考える。 をr.v.とする。c.d.f.は
$$
F(x_1,x_2,\cdots,x_p) = Pr(X_1 \le x_1,X_2 \le x_2,\cdots,X_p \le x_p)
$$
が絶対連続の時、密度関数(density function)は
$$
\frac{\partial^p F(x_1,x_2,\cdots,x_p)}{\partial x_1\partial x_2 \cdots\partial x_p} = f(x_1,x_2,\cdots,x_p)
$$
また、
$$
F(x_1,\cdots,x_p) = \int_{-\infty}^{x_p}\cdots\int_{-\infty}^{x_1}f(u_1,\cdots,u_2)du_1\cdots du_p
$$
周辺分布(Marginal Distribution)
再び2変量で見ていきます。確率変数 の累積分布関数(c.d.f.)が与えられた時 の周辺分布関数は
\begin{eqnarray}
Pr\{X\le x\} &=& Pr\{X\le x,Y \le \infty\} \\
&=& F(x,\infty)
\end{eqnarray}
で与えられ、これを と表記する。また
\begin{eqnarray}
F(x) &=& \int_{-\infty}^{x}\int_{-\infty}^{\infty}f(u,v)dvdu \\
&=& \int_{-\infty}^{x}f(u)du
\end{eqnarray}
となる。 に対しても同様に求めることができる。
さて再びp変量について考えていきます。r.v. のc.d.f.として が与えられたとする。この時、周辺分布は
\begin{eqnarray}
Pr\{X_1\le x_1,\cdots,X_r\le x_r\} &=& Pr\{X_1\le x_1,\cdots,X_r\le x_r,X_{r+1} \le \infty,\cdots,X_p\le \infty\} \\
&=& F(x_1,\cdots,x_r,\infty,\cdots,\infty)
\end{eqnarray}
ここで の周辺密度は
$$
\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}f(u_1,\cdots,u_p)du_{r+1}\cdots du_{p}
$$
で与えられる。
今日はここまで
まだ定義とか書いただけだけどここまでだな...勉強始めたばかりでまだ良く見えてこない...
参考文献
Anderson T.W.(1958)『An Introduction to Multivariate Statistical Analysis』 John Wiley & Sons