2016-11-29

多変量解析~同時分布(Joint Distribution)~

多変量解析測度論

久々にこのブログを書きます...前回書いたのはいつだったか...。最近はTexにまとめてるんでこっちのことを完全に忘れてました...

研究室に配属されて、多変量解析の勉強が本格的に始まってきました。まだ、ほとんどやっていないに等しいですが、気が向いた時に学んだことを覚え書きしていこうと思います。

自分が勉強に使っているのは研究室指定の
T.W.Anderson『An Introduction to Multivariate Statistical Analysis』

です。これの流れに沿って勉強をすすめていこうと思います。

累積分布関数(1変量の場合)

多変量に入る前に1変量について見ていきます。1変量の累積分布関数(cumulative distribution function)は次のように定義される

${\displaystyle F(x) = P(X \le x) = P(\{ \omega \in \Omega : X(\omega) \le x \}) }$

分布関数 $F(\cdot)$ は次の性質を持つ。

1. 任意の $x \in \mathbb{R}^1$ に対して $0 \le F(x) < 1$ でありかつ
${\displaystyle F(-\infty) \equiv \lim_{x \to -\infty} F(x) = 0, \;\;\; F(+\infty) \equiv \lim_{x \to +\infty} F(x) = 1 }$
2. $F(x)$ は単調非減少である. $\;\; : \;\; x < y \Leftrightarrow F(x) \le F(y)$

3. $F(x)$ は右側連続である. $\;\; : \;\; \lim_{y \to x+0} F(y) = F(x)$

指数分布について密度関数と分布関数を見てみる。
指数分布の密度関数は
${\displaystyle f(x) = \lambda e^{-\lambda x} }$
f:id:doratai:20161129220259j:plain:w300
であり、分布関数は
${\displaystyle F(x) = 1-e^{-\lambda x} }$
で与えられる。
f:id:doratai:20161129220355j:plain:w300
密度関数は分布関数の微分で定義され、次の関係が成り立つ。
$$
f(x) = \frac{d}{dx}F(x) \Leftrightarrow F(x) = \int_{-\infty}^x f(u)du
$$

また、この他に密度関数は次の性質を満たす。

$f(x) \ge 0$
$\int_{-\infty}^{+\infty}f(x) dx = 1$

2変量の場合

次は2変量の場合について考える。2つの確率変数 $X,Y$ を考える。c.d.f.がすべての実数の組 $x,y$ について次で定義される。
$$
F(x,y) = Pr\{ X \le x, Y \le y\}
$$
ここで考えている $F(x,y)$ は絶対連続の場合。つまり、ほとんど至る所(almost everywhere)で偏導関数が存在する場合を考える。つまり、ほとんど至る所で次が成り立つ。
\begin{eqnarray}
\frac{\partial^2 F(x,y)}{\partial x \partial y} &=& f(x,y) \\
F(x,y) &=& \int_{-\infty}^y \int_{-\infty}^x f(u,v)dudv
\end{eqnarray}
が成り立つものとして考える。ここで非負関数 $f(x,y) \ge 0$ は $X$ と $Y$ の密度関数と呼ばれる。この関数は以下の性質を持つ。

$f(x,y) \ge 0$
$\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x,y) dxdy = 1$

ほとんど至る所(almost everywhere)

ここで直接は関係無いが、少し気になるalmost everywhere について考えてみる。

定義

ほとんど至る所 $P(\omega)$ を命題関数とする. $\{\omega \in \Omega : P(\omega) = 偽\}$ が $\mu$ -零集合である時、 $P(\omega)$ は"ほとんど至る所"で成立する.

ここで $\mu$ -零集合とは、 $\mu(N) = 0 \;\;(\muは測度)$ なる $N \in \mathcal{F} (\sigma -集合体)$ を $\mu$ -零可測集合といい、これが存在して、 $A \subset N$ なる集合を $\mu$ -零集合という。
ここで、 $\boldsymbol{\omega} \in \mathbb{R} \times \mathbb{R}$ とし、 $F(\cdot)$ をc.d.f.とする。命題関数を

$$
P(\boldsymbol{\omega}) = \left\{
\begin{array}{cc}
TRUE & if \;\; F(\boldsymbol{\omega})\;has\;a\;partial\;derivative\;at\;the\;point\;\boldsymbol{\omega} \\
FALSE & elsewhere
\end{array}
\right.
$$
で与える。先程述べた、偏導関数がほとんど至る所でん存在するとは、集合
$$
\{ \boldsymbol{\omega} \in \mathbb{R} \times \mathbb{R} :P(\boldsymbol{\omega}) = FALSE\}
$$
が $\mu$ -零集合であることを意味する。つまり
$$
\mu(\{ \boldsymbol{\omega} \in \mathbb{R} \times \mathbb{R} : P(\boldsymbol{\omega}) = FALSE\}) = 0
$$
これは、 $\mathbb{R} \times \mathbb{R}$ 上の点 $\boldsymbol{\omega} = (x,y)$ について、偏導関数が存在しない点の集合の測度が0であることを意味する。

p変量の場合

今、 $p$ 個の確率変数 $X_1,\cdots,X_p$ を考える。そのc.d.f.は
\begin{equation}
F(x_1,\ldots,x_p) = Pr\{X_1 \le x_1,\ldots,X_p \le x_p\}
\end{equation}
がすべての実数 $x_1,\ldots,x_p$ の集合によって定義される。密度関数は $F(x_1,\ldots,x_p)$ が絶対連続であるならば
\begin{equation}
\frac{\partial^p F(x_1,\ldots,x_p)}{\partial x_1 \ldots \partial x_p} = f(x_1,\ldots,x_p)
\end{equation}
で与えられ、また
\begin{equation}
F(x_1,\ldots,x_p) = \int_{-\infty}^{x_p} \cdots \int_{-\infty}^{x_1} f(u_1,\ldots,u_p) du_1 \ldots du_p
\end{equation}
が成り立つ。 $p$ 次元ユークリッド空間の任意の可測集合を $R$ とする時、確率変数 $(X_1,\ldots,X_p)$ が $R$ に属する確率は
\begin{equation}
Pr\{(X_1,\ldots,X_p) \in R\} = \underset{R}{\idotsint} f(x_1,\ldots,x_p) dx_1\ldots dx_p
\end{equation}
確率要素 $f(x_1,\cdots,x_p)\Delta x_1 \cdots \Delta x_p$ はほぼ確率 $P(x_1 \le X_1 \le x_1 + \Delta x_1,\cdots, x_p \le X_p \le x_p + \Delta x_p)$
に等しい。
もし $f(x_1,\cdots,x_p)$ が連続であるならば、同時積率は次で定義される。
\begin{equation}
E(X_1^{h_1}\cdots X_p^{h_p}) = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} x_1^{h_1} \cdots x_p^{h_p} f(x_1,\cdots,x_p) dx_1\cdots dx_p
\end{equation}

参考図書

T.W. Anderson(2003):『An introduction to Multivariate Statistical Analysis』, John Wiley & Sons
梅垣寿春,塚田真,大矢雅則(2015) : 『測度・積分・確率』,共立出版

書いてから気づいたんですが、似たような記事を前回も書いてあるみたいです...今回のが少し内容が重くなってるんでまあいいかなと...

2016-08-07

数理統計学の勝利~ニューヨークタイムズのネイト・シルバーの数理モデル予測が全50州で的中~(外部記事)

その他

統計学がアメリカで政治学者相手に大勝したようですね。
政治学者はどのような思考回路で政治予測や分析をしてるかはわかりませんが、計算機によって膨大なデータを処理することになったこの時代、1人の人間が持つ経験や思考では、もはや上回ることはできないでしょう。

ネイト・シルバー - Wikipedia

以下引用

New York Timesの選挙予測専門家、ネイト・シルバーは昨夜、大統領選の勝敗を全50州で的中させた。その一方で、いわゆる政治専門家たちの予想はほとんどが外れた。中には笑うしかないような外れ方をした者もいる。
ネイト・シルバーについてはテレビのゲストに呼ばれる政治専門家が口を揃えて「リベラルに偏った見解」と非難してきた。しかしシルバーは今回も彼の作った数理的予測モデルが古臭い専門家の勘や生半可な統計に基づく推測より圧倒的に優れていたことを証明した。
残る疑問は、数理モデルのこれほどの有効性を見た後でもテレビのプロデューサーたちは時代遅れの政治専門家なるものを番組に使い続けるつもりなのかどうかという点だけだ。
シルバーの数理モデルの特長は、どんな政治専門家もとうてい考慮しきれないほど膨大な量の数値を入力として用いるところにある。シルバー・モデルでは各種の世論調査の結果を、規模、質、時期などによって重み付けし、過去の同種の選挙結果と照合される（もちろんそれ以外にもさまざまな高度な統計処理が用いられている）。
今回、予測を100票も外した〔大統領選挙人の総数は538人〕専門家はこんなことを言っていた。曰く、オバマ大統領にはもはや伝えるべきメッセージがない、問題意識がない、過去4年間の業績に対する説明責任を果たしていない、それを有権者は見ぬいている…。そう書いたのはクリントン大統領の元補佐官、ディック・モリスだが、彼の予測と現実はグランドキャニオンくらいかけ離れていた（ロムニーが325票獲得するというモリスの予測は100票以上外れていた）。
シルバーのアプローチの成功はテレビ局にジレンマを与えている。第一に、この種の議論を理解するためには視聴者に数学の素養が必要だ。仮に古臭い政治評論家を数理統計学者で置き換えたとしても、今度は番組同士で自分たちの予測の優位性を説明するためには面倒な統計学の議論が必要になる。視聴者はそんな議論にはすぐに飽きてしまうだろう。
第2に、ショッキングな選挙予測を報じて視聴率を取りに行けなくなる。視聴率を稼げる意外な結果は、ほとんどの場合不正確な予測だ。ところがシルバー・モデルは多数の世論調査を詳しく分析して平均を出しているので概ね常識的で安定した（番組としては退屈な）結果が出る。
しかしシルバー・モデルが与えるもっとも大きく、破壊的な影響は、伝統的な選挙キャンペーンや政治評論はもはや選挙結果に決定的な影響を与えることはないという事実が明らかになってしまうことだ。シルバー・モデルは選挙の数ヶ月前からオバマの勝利がほぼ確実であると予測していた。選挙は現職有利というのがセオリーであり、ロムニーにはそれを覆すだけのカリスマが欠けており、共和党内でさえそれは意識されていた。また他の重要な要素、景気や失業率に選挙運動は何の影響も与えることができない。選挙を前に景気が上向けば保守系の挑戦者は苦戦を免れない。
つまり、「アメリカ人はもはやオバマのリベラルな社会政策を見放した」云々という「専門家」たちの御託宣はまったく現実とは関係がなかったわけだ。テレビに毎日現れる政治評論家、選挙専門家の発言は大部分がたわごとだった。しかしテレビのプロデューサーたちは派手な党派的な議論、不正確だが一般受けしやすい選挙予測などによって視聴率を稼ごうとする強い動機を持っている。シルバーは今回、ひとつの戦闘には勝ったものの、戦争に勝つのはまだ先のことになりそうだ。
〔日本版〕ネイト・シルバーはアメリカでもっとも注目されている選挙専門家。シカゴ大学経済学部を卒業した後、2002年に、KPMG会計事務所に勤務中にメジャー・リーグ野球選手の統計的評価システムPECOTAをを開発した。これは映画「マネー・ボール」で日本でも知られるようになったセイバーメトリクスをオンライン化したもので、2007年にはPECOTAをBaseballProspectus社に売却して、選挙予測の分野に進出。2008年のブッシュ対ゴアオバマ対マケインの大統領選で50州中49州の勝敗を的中させ、いちやく注目されるようになった。現在、FiveThirtyEightブログはニューヨークタイムズの一部となっている。著書にThe Signal and the Noiseなどがある。）

元記事↓
大統領選でニューヨークタイムズのネイト・シルバーの数理モデル予測が全50州で的中―政治専門家はもはや不要？ | TechCrunch Japan

統計学は理系だけでなく文系分野と考えられるところでも非常によく使われています。実務の面での汎用性は現状、"最強の学問"です

2016-07-12

多変量解析~多変量正規分布の標準化~

統計学多変量解析

1変量の時の標準化はそんなに苦では無いですよね?ここではp変量の多変量正規分布の標準化をやっていきたいと思います。

まずは多変量正規分布の確認

$\boldsymbol{X} \sim N(\boldsymbol{\mu},\Sigma)$ とする。 $\Sigma$ は正定値行列より $\Sigma = CC^{\mathrm{T}}$ なる正則行列 $C$ が存在する。

多変量正規分布

$f(\boldsymbol{x}) = \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}} \exp \{-\frac{1}{2}(\boldsymbol{x-\boldsymbol{\mu}})^{\mathrm{T}}\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu}) \}$

標準化

$\boldsymbol{Y} = C^{-1}(\boldsymbol{X}-\boldsymbol{\mu})$ とする。これの逆変換が $\boldsymbol{x} = C\boldsymbol{y} + \boldsymbol\mu$ で与えられる。

ヤコビアンを求めておきます。

$$
J(y_1,\cdots,y_p) = \mod \left|
\begin{array}{ccc}
\frac{\partial x_1}{\partial y_1} & \cdots & \frac{\partial x_1}{\partial y_p} \\
\vdots & \ddots & \vdots \\
\frac{\partial x_p}{\partial y_1} & \cdots & \frac{\partial x_p}{\partial y_p}
\end{array}
\right|
= \mod \left|
\begin{array}{ccc}
c_{11} & \cdots & c_{1p} \\
\vdots & \ddots & \vdots \\
c_{p1} & \cdots & c_{pp}
\end{array}
\right| = \mod |C|
$$

また、 $\Sigma = CC^{\mathrm{T}}$ より

$C^{-1}\Sigma(C^{\mathrm{T}})^{-1} = I$

この時、

$|C^{-1}| | \Sigma | | (C^{\mathrm{T}})^{-1} = |I|$
$\frac{1}{|C|} |\Sigma| \frac{1}{|C|} = 1$
$|\Sigma| = |C|^2$

である。これらから

$g(\boldsymbol{y})dy_1\cdots dy_p = f(\boldsymbol{x})dx_1 \cdots dx_p$
$= \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\exp \{-\frac{1}{2}(C\boldsymbol{y} + \boldsymbol{\mu} - \boldsymbol{\mu})^{\mathrm{T}} \Sigma^{-1} (C\boldsymbol{y} + \boldsymbol{\mu} - \boldsymbol{\mu}) \} J(y_1,\cdots,y_p) dy_1\cdots dy_p$
$= \frac{1}{(2\pi)^{\frac{p}{2}}|C|} \exp \{-\frac{1}{2} (C\boldsymbol{y})^{\mathrm{T}} \} (CC^{\mathrm{T}})^{-1} (C\boldsymbol{y}) \mod |C| dy_1\cdots dy_p$
$= \frac{1}{(2\pi)^{\frac{p}{2}}} \exp \{-\frac{1}{2}\boldsymbol{y}^{\mathrm{T}}C^{\mathrm{T}} (C^{\mathrm{T}})^{-1} C^{-1}C \boldsymbol{y} \}dy_1\cdots dy_p$
$= \frac{1}{(2\pi)^{\frac{p}{2}}} \exp \{-\frac{1}{2} \boldsymbol{y}^{\mathrm{T}} \boldsymbol{y} \} dy_1\cdots dy_p$
$\therefore g(\boldsymbol{y}) = \frac{1}{(2\pi)^{\frac{p}{2}}} \exp \{-\frac{1}{2} \boldsymbol{y}^{\mathrm{T}} \boldsymbol{y} \}$

以上から $Y$ はp変量標準正規分布正規分布 $N(\boldsymbol{0},I)$ に従うので変数変換 $Y = C^{-1}(\boldsymbol{X} - \boldsymbol{\mu})$ は標準化である。

参考文献

特に無し

2016-07-10

ベクトル微分

統計学解析

多変量解析を勉強するにあたって、必要になることがあるのがベクトルの微分である。

まずはまとめから

$$
\begin{eqnarray}
\frac{\partial(\boldsymbol{C}^{\mathrm{T}}\boldsymbol{\beta})}{\partial\boldsymbol{\beta}} &=& \boldsymbol{C} \tag{1} \\
\frac{\partial(\boldsymbol{\beta}^{\mathrm{T}}A\boldsymbol{\beta})}{\partial\boldsymbol{\beta}} &=& (A + A^{\mathrm{T}})\boldsymbol{\beta} \tag{2}
\end{eqnarray}
$$

これらを証明していく。ベクトルの微分を考えていくうえでは、面倒だが、成分を
考えていくことになる。

(1)の証明

$$
\boldsymbol{C}^{\mathrm{T}}\boldsymbol{\beta} = c_1\beta_1 + c_2\beta_2 + \cdots + c_p\beta_p
$$

より

$$
\frac{\partial(\boldsymbol{C}^{\mathrm{T}}\boldsymbol{\beta})}{\partial\beta_i} = c_i
$$

ただし $i = 1,2,\cdots,p$

よって

$$
\frac{\partial(\boldsymbol{C}^{\mathrm{T}}\boldsymbol{\beta})}{\partial\boldsymbol{\beta}} = \left(
\begin{array}{c}
\frac{\partial(\boldsymbol{C}^{\mathrm{T}}\boldsymbol{\beta})}{\partial\beta_1} \\
\frac{\partial(\boldsymbol{C}^{\mathrm{T}}\boldsymbol{\beta})}{\partial\beta_2} \\
\vdots \\
\frac{\partial(\boldsymbol{C}^{\mathrm{T}}\boldsymbol{\beta})}{\partial\beta_p}
\end{array}
\right)
= \left(
\begin{array}{c}
c_1 \\
c_2 \\
\vdots \\
c_p
\end{array}
\right)
=\boldsymbol{C}
$$

(2)の証明

$$
\boldsymbol{\beta}^{\mathrm{T}}A\boldsymbol{\beta} = \sum_{i=1}^p\sum_{j=1}^p a_{ij}\beta_i\beta_j
$$

より

$$
\begin{eqnarray}
\frac{\partial(\boldsymbol{\beta}^{\mathrm{T}}A\boldsymbol{\beta})}{\partial\beta_k} &=& \sum_{j=1}^p a_{kj}\beta_j + \sum_{i=1}^p a_{ik}\beta_i \\
&=& (a_{k1},\cdots,a_{kp})\boldsymbol{\beta} + (a_{1k},\cdots,a_{pk})\boldsymbol{\beta} \\
&=& \{(a_{k1},\cdots,a_{kp}) + (a_{1k},\cdots,a_{pk})\}\boldsymbol{\beta} \\
&=& (\boldsymbol{a}_k + \boldsymbol{a}_k^{\mathrm{T}})\boldsymbol{\beta}
\end{eqnarray}
$$

ここで

$$
A = \left(
\begin{array}{cccc}
a_{11} & a_{12} & \ldots & a_{1p} \\
a_{21} & a_{22} & \ldots & a_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
a_{p1} & a_{p2} & \ldots & a_{pp}
\end{array}
\right)
\\
A^{\mathrm{T}} = \left(
\begin{array}{cccc}
a_{11} & a_{21} & \ldots & a_{p1} \\
a_{12} & a_{22} & \ldots & a_{p2} \\
\vdots & \vdots & \ddots & \vdots \\
a_{1p} & a_{2p} & \ldots & a_{pp}
\end{array}
\right)
$$

であるから、

$$
\frac{\partial\boldsymbol{\beta}^{\mathrm{T}}A\boldsymbol{\beta}}{\partial\boldsymbol{\beta}}
= \left(
\begin{array}{c}
\frac{\partial(\boldsymbol{\beta}^{\mathrm{T}}A\boldsymbol{\beta})}{\partial\beta_1} \\
\frac{\partial(\boldsymbol{\beta}^{\mathrm{T}}A\boldsymbol{\beta})}{\partial\beta_2} \\
\vdots \\
\frac{\partial(\boldsymbol{\beta}^{\mathrm{T}}A\boldsymbol{\beta})}{\partial\beta_p}
\end{array}
\right)
= (A + A^{\mathrm{T}})\boldsymbol{\beta}
$$

となる。

参考文献

特に無し

2016-07-01

多変量解析1 多変量分布他

統計学多変量解析確率論

多変量分布

今回は多変量解析です。線形代数の知識が必要になってきて私は少し苦手
です...。
しかし今の時代、1変量でデータ解析なんて殆ど無いでしょうからちゃんとべんきょうしなきゃですなあ。

2変量の場合について

まずは2変量の場合について見ていきましょう。まず、確率変数(random variables = r.v.) $X,Y$ を考えます。 $\forall x,y \in \mathbb{R}$ に対して、累積分布関数(cumlative distribution function = c.d.f.)は次で定義されます。

$$
F(x,y) = Pr\{X\le x, Y\le y \}
$$

累積分布関数が絶対連続(absolutely continuous)であるとき、偏微分がほとんどいたるところで存在し

絶対連続 - Wikipedia

$$
\frac{\partial^2F(x,y)}{\partial x \partial y} = f(x,y)
$$

及び

$$
F(x,y) = \int_{-\infty}^y \int_{-\infty}^x f(u,v)dudv
$$

が成り立つ。

※
$f(x,y) \ge 0$
$\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(u,v)dudv = 1$

p変量

次にp変量の場合を考える。 $X_1,X_2,\cdots,X_p$ をr.v.とする。c.d.f.は

$$
F(x_1,x_2,\cdots,x_p) = Pr(X_1 \le x_1,X_2 \le x_2,\cdots,X_p \le x_p)
$$

$F(x_1,x_2,\cdots,x_p)$ が絶対連続の時、密度関数(density function)は

$$
\frac{\partial^p F(x_1,x_2,\cdots,x_p)}{\partial x_1\partial x_2 \cdots\partial x_p} = f(x_1,x_2,\cdots,x_p)
$$

また、

$$
F(x_1,\cdots,x_p) = \int_{-\infty}^{x_p}\cdots\int_{-\infty}^{x_1}f(u_1,\cdots,u_2)du_1\cdots du_p
$$

周辺分布(Marginal Distribution)

再び2変量で見ていきます。確率変数 $X,Y$ の累積分布関数(c.d.f.)が与えられた時 $X$ の周辺分布関数は

\begin{eqnarray}
Pr\{X\le x\} &=& Pr\{X\le x,Y \le \infty\} \\
&=& F(x,\infty)
\end{eqnarray}

で与えられ、これを $F(x)$ と表記する。また

\begin{eqnarray}
F(x) &=& \int_{-\infty}^{x}\int_{-\infty}^{\infty}f(u,v)dvdu \\
&=& \int_{-\infty}^{x}f(u)du
\end{eqnarray}

となる。 $Y$ に対しても同様に求めることができる。

さて再びp変量について考えていきます。r.v. $X_1,\cdots,X_p$ のc.d.f.として $F(x_1,\cdots,x_p)$ が与えられたとする。この時、周辺分布は

\begin{eqnarray}
Pr\{X_1\le x_1,\cdots,X_r\le x_r\} &=& Pr\{X_1\le x_1,\cdots,X_r\le x_r,X_{r+1} \le \infty,\cdots,X_p\le \infty\} \\
&=& F(x_1,\cdots,x_r,\infty,\cdots,\infty)
\end{eqnarray}

ここで $X_1,\cdots,X_r$ の周辺密度は

$$
\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}f(u_1,\cdots,u_p)du_{r+1}\cdots du_{p}
$$

で与えられる。

今日はここまで

まだ定義とか書いただけだけどここまでだな...勉強始めたばかりでまだ良く見えてこない...

参考文献

Anderson T.W.(1958)『An Introduction to Multivariate Statistical Analysis』 John Wiley & Sons

2016-06-08

最小二乗法(単回帰)

回帰分析統計学

理系の大学に入って、最初の年。物理学などの実験をかせられるところも多いだろう。その時、実験値に対して最小二乗法をしてグラフを書け！みたいなことを言われると思う。
私自身が物理学の実験を行っていた時も最小二乗法を使っていたが、何をしている課さっぱりわからなかった。実験前の授業で前準備として前で物理科の教授が高速で最小二乗法の導出を行っていたが当時はとりあえず実験データを与えられた式に当てはめて、その値をただ使っていただけだった。

ここでは、最小二乗法とは何がしたいのか。そしてその導出を行う。

記号の確認

最小二乗法に入る前に、各記号の定義?を確認しておく。

\begin{eqnarray}
\bar{x} &=& \frac{1}{n}\sum_{i=i}^n x_i \\
\bar{y} & =& \frac{1}{n}\sum_{i=1}^n y_i \\
s_x^2 &=& \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 \\
s_y^2 &=& \frac{1}{n}\sum_{i=1}^n (y_i - \bar{y})^2 \\
r_{xy} &=& \frac{s_{xy}}{s_x s_y} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n(y_i - \bar{y})^2}}
\end{eqnarray}

上から、 $x,y$ の平均、分散、 $x$ と $y$ の相関係数である。

※相関係数は直線的関係を図る尺度である。

単回帰,重回帰,説明変数,従属変数

相関係数 $r_{xy}$ が $\pm 1$ に近く正(負)の相関が認められる時、一方の変数を他方の変数の1次関数として表すことができると考えられる。つまり、 $y$ を $x$ の関数として考えた時、

$$
y = a + bx
$$

というモデルを考えることができる。このモデルを線形回帰モデル、このモデルを用いた分析を回帰分析という。

この時 $x$ を説明変数(独立変数) $y$ を 従属変数(被説明変数)という。

説明変数が1個・・・・・単回帰

説明変数が2個以上・・・重回帰

となる。

最小二乗法(単回帰)

ここでは説明変数が一つの単回帰の最小二乗法について説明する。
$n$ 個の観測値 $(x_i,y_i) \;\; (i = 1,2,\dots,n)$ を考える。この時、 $n$ 個の観測値に対して、

\begin{eqnarray}
y_i &=& a + bx_i
\end{eqnarray}

という回帰モデルを考える。観測値が一つの直線上に乗ることはありえないので、
回帰式の誤差を小さくする $a,b$ を推定値とすることになる。

回帰式の誤差

\begin{eqnarray}
y_i -(a + bx_i)
\end{eqnarray}

しかし、このまま足してしまうと、値に正負が存在するため、誤差の大きさを図ることができないそのため最小二乗法では上記の式を二乗したものをすべて足し合わせたものを用いる。つまり

\begin{equation}
\mathcal{Q} = \sum_{i=1}^n\{y_i - (a + bx_i)\}^2
\end{equation}

これは非負値の二次式であり、これを $a,b$ について偏微分した式を $0$ とするような $a,b$ が $\mathcal{Q}$ を最小化する $a,b$ である。よって以下の連立方程式の解が求める推定値 $\hat{a}, \hat{b}$ である。

\begin{eqnarray}
\left\{
\begin{array}{l}
\frac{\partial \mathcal{Q}}{\partial a} = -2\sum_{i=1}^n\{y_i - (a+bx_i)\} = 0 \\
\frac{\partial \mathcal{Q}}{\partial b} = -2\sum_{i=1}^n x_i\{y_i - (a+bx_i)\} = 0 \\
\end{array}
\right.
\end{eqnarray}

\begin{eqnarray}
\Leftrightarrow \left\{
\begin{array}{l}
\sum_{i=1}^n\{y_i - (\hat{a}+\hat{b}x_i)\} = 0 \\
\sum_{i=1}^n x_i\{y_i - (\hat{a}+\hat{b}x_i)\} = 0 \\
\end{array}
\right.
\end{eqnarray}

\begin{eqnarray}
\Leftrightarrow \left\{
\begin{array}{l}
\sum_{i=1}^n y_i = \hat{a}n + \hat{b}\sum_{i=1}^n x_i \\
\sum_{i=1}^n x_i y_i = \hat{a}\sum_{i=1}^n x_i + \hat{b}\sum_{i=1}^n x_i^2
\end{array}
\right.
\end{eqnarray}

\begin{eqnarray}
\Leftrightarrow \left\{
\begin{array}{l}
\bar{y}= \hat{a} + \hat{b}\bar{x} \\
\frac{1}{n}\sum_{i=1}^n x_i y_i = \hat{a}\bar{x} + \hat{b}\frac{1}{n}\sum_{i=1}^n x_i^2
\end{array}
\right.
\end{eqnarray}

\begin{eqnarray}
\Leftrightarrow \left\{
\begin{array}{l}
\hat{a} = \bar{y} - \hat{b}\bar{x} \\
\frac{1}{n}\sum_{i=1}^n x_i y_i - \bar{x}\bar{y} = \hat{b}(\frac{1}{n}\sum_{i=1}^n x_i^2 - \bar{x}^2)
\end{array}
\right.
\end{eqnarray}

\begin{eqnarray}
\Leftrightarrow \left\{
\begin{array}{l}
\hat{a} = \bar{y} - \hat{b}\bar{x} \\
\hat{b} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n(x_i - \bar{x})^2} = \frac{s_{xy}}{s_{x^2}} = \frac{r_{xy}s_y}{s_x}
\end{array}
\right.
\end{eqnarray}

したがって推定された回帰直線は

\begin{equation}
\hat{y} = \hat{a} + \hat{b}x = \bar{y} + \hat{b}(x-\bar{x}) = \bar{y} + (\frac{s_{xy}}{s_{x^2}})(x-\bar{x})
\end{equation}

これを推定回帰直線または標本回帰直線という。これを式変形すると

\begin{eqnarray}
(\frac{\hat{y} - \bar{y}}{s_y}) &=& r_{xy}(\frac{x-\bar{x}}{s_x})
\end{eqnarray}

とかける。この形は覚えやすいので、覚えておくといいだろう。

まとめ

最小二乗法の考え方の基本は誤差を小さくすることにある。この点だけ気をつけていれば、後の操作は極めて当然のものだと思えるだろう。最後にもう一度推定値を示しておく。

\begin{eqnarray}
\left\{
\begin{array}{l}
\hat{a} = \bar{y} - \hat{b}\bar{x} \\
\hat{b} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n(x_i - \bar{x})^2} = \frac{s_{xy}}{s_{x^2}} = \frac{r_{xy}s_y}{s_x}
\end{array}
\right.
\end{eqnarray}

参考文献

高澤俊幸・勝野健太郎・服部真・山内恒人(2005)『モデリング』社団法人日本アクチュアリー会.
稲垣宣生(2013)『数理統計学』(数学シリーズ)裳華房.

2016-05-06

【デレステ】ありすPが33万円分1000連越えの爆死をしたそうですが、検定してみたいと思う。

統計学その他

デレステのガシャ確率は本当に正しいのか？消費者には見えないガシャ確率を統計的に考える

twitterを眺めていたら、最近よく見るソシャゲ爆死記事を見つけました。今回目にしたのは1000連越えのデレステガシャをして目的のキャラ(橘ありす)のSSレアが出なかったということ。

多分これが目的のヤツです。

いましたいました。

提供割合を見てみると...

SSレアは1.5%、SSレアの種類は26種類。

ほうほう....

となると、目的のありすが当たる確率は単純計算で

$\frac{15}{1000}×\frac{1}{26} = \frac{15}{26000}(\simeq 0.0005769)$

と考えられます。

ここでは、何連して全くでなければ、この示されてる確率が怪しくなってくるか...

つまりは、何連して目的のキャラが出なかったら運営に文句言えるのか、を、検定していきます。

先の計算から、運営が示している(？)「はじめての表情」橘ありすが1回のガシャで当たる確率は

$$
p_0=\frac{15}{26000}
$$

になります。私たちは本当にこの確率なの？もっと低いんじゃないの？と疑ってるわけですので以下のように検定問題を考えます。

\begin{eqnarray}
\left\{
\begin{array}{l}
H_0 : p = p_0 = \frac{15}{26000} \\
H_1 : p < p_0
\end{array}
\right.
\end{eqnarray}

$H_0$ は帰無仮説、 $H_1$ は対立仮説になります。これを有意水準5%で検定していきます。

統計量は

$$
T = \frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}
$$

になります。

ここで、棄却域を考える。
標本数は大きいと考えるのでこの統計量は標準正規分布に近似的に従う。
この検定は片側検定なので、有意水準5%で棄却域は

$$
T<-z(0.05)
$$

となる。つまり、統計量Tが標準正規分布左側５％の値よりも小さいなら帰無仮説は棄却され、運営側が提示している確率より、実際の確率は低いと言える。

これを用いて、何回引いて出ないならば運営に文句が言えるのかを考える。

n回ガシャして、1回もありすは出ないので標本比率は $\hat{p}=0$ となる。

これを用いて実現値 $T^*$ は

$$
T^*= \frac{0-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}
$$

これに、他の値も代入して先の不等式をnについて解くと

\begin{eqnarray}
\frac{0-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} &<& -z(0.05) \\
n &>& z(0.05)^2\frac{1-p_0}{p_0} \\
\therefore n &>& 4659.3
\end{eqnarray}

となり、標本数が4660以上の時、帰無仮説は棄却されます。

以上から、SSレア各キャラの提供割合が等しいと仮定して計算した場合、上記の回数、4660回ガシャをして目的のカードが出なかったらまず、運営の表示している提供割合は正しいと考えることは統計的にはできません。

つまり、今回のありすPさんは1000連越えのガシャを回して出ていませんが、この試行回数ではまだ運が悪かったと言わざるを得ません。

f:id:doratai:20160506225904p:plain

ありすのガシャ出現確率は上がっているそうですが...それでもほんのすこしでしょう...。4000ガシャは覚悟したほうがいいのかもしれません。

現状、デレステ運営に文句をいうことはできないということになります。

さてところで、デレステ運営に文句を言える4660回ガシャをするにはどれくらいお金がかかるのでしょうか....

すべて有償ジュエルで賄うとして考えます。

上の画像を見てみると8400個9800円がおそらくいちばん単価が小さいのだと思われます。（PS4の最新ゲーム１つ買える...）
一回のガシャに必要なスタージュエルは250個。4660回ガシャしたいので

$$
250 \times 4660 = 1,165,000
$$

1,165,000個のスタージュエルが必要になります。これを満たす数8400個9800円のスタージュエルのセット数は

$$
1165000/8400 \simeq 138.7
$$

より139セット買う必要がある。

つまり、運営に文句を言える4660回ガシャを引くためには

$$
9800 \times 139 = 1,362,200
$$

より約136万2200円の課金が必要になってきます。(うわあ....)

100万以下の課金はぬるいと...そういうことですかね...
目的のキャラを当てようと思って課金するのは完全に泥沼ルートです...

ソシャゲの闇は深い。

2016-05-05

ガンマ(Gamma)関数とガンマ分布

統計学確率論

f:id:doratai:20160505215746p:plain
普段勉強していてガンマ関数の取り扱いに難があるのでここにまとめいておこうと思います。

ガンマ関数

定義

$$
\Gamma(s) = \int_{0}^{\infty}x^{s-1}\mathrm{e}^{-x}dx \;\;\;\;\;(s > 0)
$$

ガンマ関数は上記の式で表されます。 $s>0$ は収束条件です。

特徴

ガンマ関数の主な特徴を列挙していきます。

$$
\Gamma(s+1) = s\Gamma(s)
$$

$n \in \mathbb{N}$ の時、

$$
\Gamma(n) = (n-1)!
$$

になる。ただし、

$$
\Gamma(1) = \int_{0}^{\infty}\mathrm{e}^{-x}dx = [-\mathrm{e}^{-x}]_{0}^{\infty} = 1
$$

証明
$$
\begin{eqnarray}
\Gamma (s+1) & = & \int_{0}^{\infty}x^s\mathbb{e}^{-x}dx \\
& = & [x^s(-\mathbb{e}^{-x})]_{0}^{\infty} + s\int_0^{\infty}x^{s-1}\mathbb{e}^{-x}dx \\
& = & s\Gamma (s) \;\;\;\;\; (\because s>0)
\end{eqnarray}
$$

置換

$x = u^2$ による置換
$dx = 2udu$ より、
$$
\Gamma (t) = \int_0^{\infty} u^{2(t-1)} \mathbb{e}^{-u^2} 2udu = 2\int_0^{\infty} u^{2t-1} \mathbb{e}^{-u^2}du
$$

となる。これを用いて

$$
\begin{eqnarray}
\Gamma (\frac{1}{2}) &=& 2\int_0^{\infty} x^{2\frac{1}{2}-1} \mathbb{e}^{-x^2}dx \\
&=& 2\int_0^{\infty}\mathbb{e}^{-x^2}dx \\
&=& 2\frac{\sqrt{\pi}}{2} \\
&=& \sqrt{\pi}
\end{eqnarray}
$$

これはよく使われるので覚えておいたほうがいいと思います。

注)

$I = \int_0^{\infty} e^{-x^2}dx$ と置く。

$$
\begin{eqnarray}
I^2 &=& \int_0^{\infty}\mathbb{e}^{-x^2}dx \int_0^{\infty}\mathbb{e}^{-y^2}dy \\
&=&\int_0^{\infty}\int_0^{\infty} \mathbb{e}^{-(x^2+y^2)}dxdy \\
\end{eqnarray}
$$

ここで、 $x = r\cos \theta, y = r\sin \theta$ と置くと。

$$
\begin{eqnarray}
I^2 &=& \int_0^{\frac{\pi}{2}}\int_0^{\infty}\mathbb{e}^{-r^2} r drd\theta \\
&=& \frac{\pi}{2}\cdot [-\frac{1}{2}\mathbb{e}^{-r^2}]_0^{\infty} \\
&=& \frac{\pi}{4} \\
\therefore I &=& \frac{\sqrt{\pi}}{2} \;\;\;\; (\because I > 0)
\end{eqnarray}
$$

ガンマ分布

確率密度関数

定義にガンマ関数が用いるためガンマ分布という。 $\Gamma(a,\lambda)$ で表記する。
$P(0 < X < \infty) = 1$ で正の定数 $a, \lambda$ (パラメータ)をとり、確率変数 $X$ の確率密度関数は

$$
f_X(x) = \frac{\lambda^a}{\Gamma(a)}x^{a-1}\mathbb{e}^{-\lambda x}
$$

で与えられる。

再生性

ガンマ分布は再生性を持ち、 $X～\Gamma(a,\lambda), Y～\Gamma(b, \lambda)$ で独立のとき

$$
X + Y ～ \Gamma(a+b,\lambda)
$$

となる。積率母関数を用いて求める。

期待値

ガンマ分布の期待値を求めていく。
$X～\Gamma(a,\lambda)$ とする。

$$
\begin{eqnarray}
E(X) &=& \int_0^{\infty}x\frac{\lambda^a}{\Gamma(a)}x^{a-1}\mathbb{e}^{-\lambda x}dx \\
&=& \frac{\lambda^a}{\Gamma(a)} \int_0^{\infty}x^a \mathbb{e}^{-\lambda x}dx \\
&=& \frac{\lambda^a}{\Gamma(a)}\int_0^{\infty}(\frac{u}{\lambda})^a \mathbb{e}^{-u} \frac{1}{\lambda}du \\
&=& \frac{\lambda^a}{\Gamma(a)}\frac{1}{\lambda^{a+1}}\int_0^{\infty}u^a \mathbb{e}^{-u}du \\
&=& \frac{1}{\lambda} \frac{\Gamma{(a+1)}}{\Gamma(a)} \\
&=& \frac{a}{\lambda}
\end{eqnarray}
$$

となる。

分散

次に分散を求めていく。

$$
\begin{eqnarray}
E(X^2) &=& \int_0^{\infty}x^2\frac{\lambda^a}{\Gamma(a)}x^{a-1}\mathbb{e}^{-\lambda x} \\
&=& \frac{\lambda^a}{\Gamma(a)}\int_0^{\infty}x^{a+1}\mathbb{e}^{-\lambda x}dx \\
&=& \frac{\lambda^a}{\Gamma(a)}\frac{\Gamma(a+2)}{\lambda^{a+2}} \\
&=& \frac{a(a+1)}{\lambda^2} \\
\therefore \;\;\; V(X) &=& E(X^2) -(E(X))^2 \\
&=& \frac{a(a+1)}{\lambda^2} - \frac{a^2}{\lambda^2} \\
&=& \frac{a}{\lambda^2}
\end{eqnarray}
$$

積率母関数

積率母関数は

$$
m_X(t) = (\frac{\lambda}{\lambda - t})^a
$$

で与えられる。

導出
$$
\begin{eqnarray}
m_X(t) &=& E(\mathbb{e}^{tX}) \\
&=& \int_0^{\infty} \mathbb{e}^{tx}\frac{\lambda^a}{\Gamma(a)}x^{a-1}\mathbb{e}^{-\lambda x}dx \\
&=& \frac{\lambda^a}{\Gamma(a)}\int_0^{\infty}x^{a-1}\mathbb{e}^{-(\lambda-t)x}dx \\
&=&\frac{\lambda^a}{\Gamma(a)}\int_0^{\infty}(\frac{u}{\lambda-t})^{a-1}\mathbb{e}^{-u}\frac{du}{\lambda-t} \\
&=& \frac{\lambda^a}{\Gamma(a)}\frac{\Gamma(a)}{(\lambda-t)^a} \\
&=& (\frac{\lambda}{\lambda-t})^a
\end{eqnarray}
$$

まとめ

確率密度関数	積率母関数	期待値	分散
$\frac{\lambda^a}{\Gamma(a)}x^{a-1}\mathbb{e}^{-\lambda x}$	$(\frac{\lambda}{\lambda - t})^a$	$\frac{a}{\lambda}$	$\frac{a}{\lambda^2}$

参考文献

藤田岳彦(2014)『弱点克服　大学生の確率・統計』東京図書
江川博康(2014)『弱点克服　大学生の微積分』東京図書

2016-04-24

損保数理の問題集

推薦図書統計学

f:id:doratai:20160424215651j:plain
久々の更新です。

最近は問題集での勉強をメインでやっているので、余り書くことがなくて...

問題集をやっていて思うのが大学1,2年で以下に勉強していなかったかというね...

確率統計の勉強をしてるわけですが、実際に問題を解いてて思うのが、微積が結構できないということ。変数変換とか、マクローリン展開が身にしみてないから、積分やΣ計算をしていると結構引っかかります。あと、ガンマ関数とベータ関数。アレ使えないのがこんなところで響くとは...。

1年の頃は単位さえ取れればいいと思ってたので、終わったら綺麗さっぱり忘れていました（笑）

今は希望している研究室に入れるかどうかヒヤヒヤしてます。周りが結構成績よくて、今更焦り始めるという。

そのへんはさておいて...

アクチュアリー試験に向けての勉強を最近始めたのですが、数学以外はなかなか取っ掛かりにくく先延ばしていました。

特に保険数理の教科書は、普段問題を解きながら学んで、躓いたところを教科書でやってきた自分のやり方だと問題集と呼べるものがなく、なかなか手をつけられずにいました。

しかし、昨日、損害保険数理の問題集で、良さそうなのをジュンク堂で見つけ、購入してやってみたのですが、いい感じです。

「例題で学ぶ損害保険数理」

Amazonでチェック→例題で学ぶ損害保険数理第2版

という本なのですが、これがなかなか私の需要を満たしておりまして

長々とした説明がない。

例題が多数。

詳しい解答解説が載っている

と、初学者に大変やさしい構成になっていました。教科書を読んでると眠くなるのび太くん体質の私には、ぴったしの問題集です。

私はいつも購入前にAmazonレビューを見るのですが、好評のようでしたし、また私が昨年度末から入会したアク研の書籍紹介でも、教科書の次に買うべき必携の一冊とのこと。

もし損保の勉強をこれからはじめようとしている方はぜひ買うことをおすすめします!!

値段は約4500円と少し高いですが、参考書の値段って大体そんなもんですよね？

少なくともこれを買うことによる消費者余剰はかなり高めだと思います(覚えた言葉を早速使いはじめるおバカ顔)。

今回は数学の証明とかではなく、買った本の紹介でした!

また気が向いたら更新します!!

(今回は最初に画像を載せてみたりしてみた!ちょっとおしゃれになったかな?)

2016-02-29

正規分布

統計学

連続型モデルで、統計確率の中でも最も有名で重要な分布である正規分布について。

正規分布は $N(\mu,\sigma^2)$ で表される。

確率密度関数

${ f(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} }$

確率密度関数は上記で表される。平均は $\mu$ 分散が $\sigma^2$

また、 $N(0,1)$ の時、標準正規分布と呼ばれ、

${ f(x) = \frac{1}{\sqrt{2\pi}}\exp\{-\frac{x^2}{2}\} }$

で確率密度関数は表される。

標準化

標準化を行うことで標準正規分布に直すことが可能。

${ X \sim N(\mu,\sigma^2) \Rightarrow Y=\frac{X-\mu}{\sigma} \sim N(0,1) }$

最尤推定量

最尤推定量は以下で与えられる。

${ \hat{\mu} = \bar{X},\;\;\; \hat{\sigma^2} = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 }$

証明
$\mu,\sigma^2$ ともに未知の場合について考える。

尤度関数 $l(\mu, \sigma^2)$ は

${ \begin{eqnarray} l(\mu, \sigma^2) & = & \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{(x_i-\mu)^2}{2\sigma^2}\} \\ & = & (\frac{1}{2\pi\sigma^2})^{\frac{n}{2}}\exp\{-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2\} \end{eqnarray} }$

またこれより対数尤度関数は

${ \log l(\mu,\sigma^2) = -\frac{n}{2}\log(2\pi)-\frac{n}{2}\log(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - \mu)^2 }$

であるので、 $\mu,\sigma^2$ 最大たらしめるに連立方程式

${ \begin{eqnarray} \left\{ \begin{array}{l} \frac{\partial \log l(\mu,\sigma^2)}{\partial \mu} = -\frac{1}{\sigma^2}\sum_{i=1}^{n}(x_i-\mu) = 0 \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;(1)\\ \frac{\partial \log l(\mu,\sigma^2)}{\partial \sigma^2} = -\frac{n}{2\sigma^2}+\frac{1}{2(\sigma^2)^2}\sum_{i=1}^n(x_i-\mu)^2 = 0 \;\;\;(2) \end{array} \right. \end{eqnarray} }$

を解く。(1)式から

${ \mu=\frac{1}{n}\sum_{i=1}^n x_i = \bar{x} }$

これと及び、(2)式から

${ \sigma^2 = \frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2 }$

を得る。

よって最尤推定量は

${ \hat{\mu} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X} \\ \hat{\sigma^2} = \frac{1}{n} \sum_{i=1}^n (X_i-\bar{X})^2 = S^2 }$

積率母関数

正規分布 $N(\mu,\sigma^2)$ の積率母関数は

${ M_{X}(t) = E(e^{tX}) = e^{\mu t + \frac{1}{2}\sigma^2 t^2} }$

で与えられる。

証明
$M_X(t) = E(e^{tX})$
$= \int_{-\infty}^{\infty} e^{tx} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}dx]$
$= \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp[-\frac{1}{2\sigma^2}\{(x-\mu)^2-2t\sigma^2x\}]dx$
$=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp[-\frac{1}{2\sigma^2}\{x^2-2\mu x + \mu^2-2t\sigma^2 x\}]dx$
$=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp[-\frac{1}{2\sigma^2}\{x^2-2(\mu+t\sigma^2)x+\mu^2\}]dx$
$=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp[-\frac{1}{2\sigma^2}\{(x-(\mu+t\sigma^2))^2+\mu^2-(\mu+t\sigma^2)^2\}]dx$
$=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}\exp[-\frac{1}{2\sigma^2}\{x-(\mu+t\sigma^2)\}+\mu t + \frac{t^2\sigma^2}{2}]dx$
$= e^{\mu t + \frac{t^2\sigma^2}{2}}\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{\{x-(\mu+t\sigma^2)\}^2}{2\sigma^2}}dx$
$=e^{\mu t + \frac{t^2\sigma^2}{2}} \cdot 1$
$=e^{\mu t + \frac{1}{2}\sigma^2t^2}$

標準正規分布の場合は

${ M_X(t) = e^{\frac{t^2}{2}} }$

である。

再生性

${ X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2) かつX,Yが独立 \Rightarrow X+Y \sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2) }$

証明

$X_i\;\;(i=1,2,\ldots,n)$ をそれぞれ $N(\mu_i,\sigma_i^2)$ に従う独立な確率変数とする。
正規分布の積率母関数は先に示したとおり。

${ M_{c_1X_1}(t) = e^{c_1\mu_1t+\frac{1}{2}c_1^2\sigma_1^2t^2} }$

より $c_1X_1$ は $N(c_1\mu_1,c_1^2\sigma_1^2)$ に従う。また

${ \begin{eqnarray} M_{X_1+X_2}(t) &=& E(e^{t(X_1+X_2)}) \\ &=& E(e^{tX_1})E(e^{tX_2}) \\ &=& e^{\mu_1t+\frac{1}{2}\sigma_1^2t^2}\cdot e^{\mu_2t+\frac{1}{2}\sigma_2^2t^2} \\ &=& e^{(\mu_1+\mu_2)t+\frac{1}{2}(\sigma_1^2+\sigma_2^2)t^2} \end{eqnarray} }$

より、 $X_1+X_2$ は $N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$ に従う。
これらを一般化して、一次結合 $S=\sum_{i=1}^n c_iX_i$ は $N(\sum_{i=1}^nc_i\mu_i,\sum_{i=1}^n c_i^2\sigma_i^2)$ に従うことがわかる。

グラフ

グラフの外観は以下のようになっている。(EXCELで作成)

f:id:doratai:20160229232231p:plain

参考文献

鈴木武・山田作太郎(2006)『数理統計学-基礎から学ぶデータ解析-』内田老鶴圃.
国沢清典(2012)『確率統計演習2-統計』培風館.
稲垣宣生(2013)『数理統計学』(数学シリーズ)裳華房.

2016-02-13

1次元データの取り扱い

統計学

データの種類

データには2種類ある。量的データと質的データである。

量的データ

データが定量的な値で与えられるもの。量的データには、長さ、重さ、体積、面積、金額、温度、時間など数値でその値を測定できるものが含まれる。

質的データ

数値として観測することができず、あるカテゴリーに属していることや、ある状態にあることだけがわかるデータ。性別、天気、学歴、居住地域等がある。

データの表示法

大別すると2つある。

図的表示法

データを図的表現によって処理し、母集団の分布の形を推定する方法

量的表示法

データを計数的に処理して、母集団の分布の特性値を推定する方法

度数分布とヒストグラム

観測や実験により観測値が得られたら度数分布表をまず作る。
度数分布表は観測値のとりうるいくつかの階級(class)に分け、それぞれの階級で観測値がいくつあるか度数(frequency)を数えて表にしたものである。

以下は簡単ではあるが度数分布表の例を書いてみた。

階級	階級値	度数	相対度数	累積度数	累積相対度数
0~10	5	3	0.03	3	0.03
10~20	15	2	0.02	5	0.05
20~30	25	5	0.05	10	0.10
30~40	35	12	0.12	22	0.22
40~50	45	17	0.17	39	0.39
50~60	55	25	0.25	64	0.64
60~70	65	13	0.13	77	0.77
70~80	75	9	0.09	86	0.86
80~90	85	8	0.08	94	0.94
90~100	95	6	0.06	100	1.00
合計		100	1.00

これらからヒストグラムを作成することができるが、そこに関してはあまり興味が無いので言及しない。

量的取り扱い

グラフの書き方とかはもし私が勉強していく中で学ぶことがあれば書くことにしよう。数理統計学的な面で統計学を扱っていくにあたり、量的な取り扱いの基礎を学ぶ。

平均値

この言葉を知らないことはまず無いだろう。観測値 $x_1,x_2,\ldots,x_n$ に対して平均値 $\bar{x}$ は以下で求められる。

$$
\bar{x} = \frac{x_1+x_2+\ldots+x_n}{n} = \frac{1}{n}\sum_{i=1}^n x_i
$$

コンピュータが発達し、Excelのような表計算ソフトがある今の時代にあまり需要は無いと思われるが、昔はそのような便利なものはなく、計算はとても骨が折れるものであった。そのため少しでも計算を簡易にしようと次のような計算方法がある(のだと私は少なくとも思っている。)

各測定値 $x_i (i=1,2,\ldots,n)$ を

$$
u_i = (x_i-x_0)/h
$$

と変換し

$$
\bar{u} = \frac{u_1+u_2+\ldots+u_n}{n}
$$

を求め、これを元に戻して

$$
\bar{x}=\bar{u}\cdot h+x_0
$$

とすることで求める。ここで $x_0$ は仮平均といい、 $u_i$ が簡単になるように適当に定める。 $h$ も同様に適当に定めてやる。

中央値(メジアン)

名前の通り、真ん中の数である。イメージは5人組の戦隊物のレッドの位置。

標本を大きさの順に並べて

$$
x_{(1)} \le x_{(2)} \le \ldots \le x_{(n-1)} \le x_{(n)}
$$

としてやった時に、中央値は

$$
\tilde{x}=
\begin{eqnarray}
\left\{
\begin{array}{ll}
x_{(\frac{n+1}{2})} & n:奇数 \\
\frac{x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}}{2} & n:偶数
\end{array}
\right.
\end{eqnarray}
$$

で与えられる。
例えば標本が $1,2,3,4,5$ だったら中央値は $3$ 一方、標本が $1,2,3,4,5,6$ ならば中央値は $3.5$ である。

分散

分散は散らばりの尺度である。

$$
s^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2 = \frac{1}{n}\sum_{i=1}^n x_i^2 - \bar{x}^2
$$

で分散は与えられる。また、

$$
s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2}
$$

は標準偏差と呼ばれる。

積率(モーメント)

原点まわりの $v$ 次モーメント

$$
m_v' = \frac{1}{n}\sum_{i=1}^n x_i^v
$$

平均値まわりの $v$ 次モーメント

$$
m_v = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^v
$$

であり、一般に

$$
m_v = m_v'- \left(
\begin{array}{c}
v \\
1 \\
\end{array}
\right)
\bar{x}m_{v-1}'+
\left(
\begin{array}{c}
v \\
2 \\
\end{array}
\right)
\bar{x}^2m_{v-2}' - \ldots + (-1)^v
\left(
\begin{array}{c}
v \\
v \\
\end{array}
\right) \bar{x}^v
$$

なる関係が成立する。

ひづみ(歪度)、とがり(尖度)

ひづみ

非対称性の指標。

$$
a = m_3/s^3
$$

$a > 0$ ならば右の裾が長く、 $a < 0$ ならば左の裾が長い

とがり

尖りの程度を表す指標。正規分布のと比較することが多い。そのため

$$
b=m_4/s^4 -3 \;\; (もしくは\;\; m_4/s^4)
$$

として扱うことが多く、 $b > 0$ ならば正規分布よりも尖っており、 $b < 0$ ならば、正規分布より丸く鈍い形をしている。

モード(最頻値)

ヒストグラムの山の一番高い柱の代表値。文字通り、もっとも出現頻度が高い値のこと。

参考文献

松原望,縄田和満,中井検裕(2014)『統計学入門』(基礎統計学Ⅰ)東京大学出版会
国沢清典(2012)『確率統計演習2 統計』培風館

このあたりの内容ってやっててだるいからモチベ下がるんだよなあ...

2016-02-03

経済学の十大原理

経済学

個人的興味から経済学も少しかじっていくつもりなので、ここに書いていく.
個人的なメモ及びアウトプットがメインな上、私自身が専門にしようと考えている分野ではないのであまり詳しい説明は書かないし、書けない。

人々はどのように意思決定するか

人々はトレードオフ(相反する関係)に直面している.
あるものの費用は、それを得るための費用に放棄したものの価値である.
合理的な人々は限界費用に基づいて考える.
人々は様々なインセンティブ(誘引)に反応する.

人々はどのように影響し合うのか

交易(取引)は全ての人々をより豊かにする.
通常、市場は経済活動を組織する良作である.
政府が市場にもたらす成果を改善できることもある.

経済全体としてどのように動いているか

一国の生活水準は、財・サービスの生産能力に依存している.
政府が紙幣を印刷しすぎると、物価が上昇する.
社会は、インフレと失業の短期的トレードオフに直面している.

参考文献

N・グレゴリー・マンキュー(2015)『マンキュー経済学Ⅰ ミクロ編 (第3版)』足立英之/石川城太/小川英治/地主敏樹/中馬宏之/柳川隆訳東洋経済新報社