統計,確率のお勉強

統計学を主に勉強しています。勉強したことをアウトプットしていきます。 (※数式はMathJaxにより描画されています。ロードに少し時間がかかることがあります。)

Study Probability & Statistics

確率統計の理論と実践

ベータ関数,ベータ分布

ベータ関数

定義

p,qが正の定数のとき、下記右辺の定積分を、p,qの関数と考え、ベータ関数と呼ぶ。

$$
B(p, q) = \int_0^1 x^{p-1} (1-x)^{q-1} dx \;\;\; (p,q > 0)
$$

ベータ関数とガンマ関数の関係

ベータ関数と、ガンマ関数の間には次の関係がある。
$$
B(p,q) = \frac{\Gamma (p) \Gamma (q)}{\Gamma (p + q)}
$$

ベータ分布

ベータ分布区間(0,1)上の確率分布であり、以下の確率密度関数によって定義される。

$$
f(x) = \left\{
\begin{array}{cc}
\frac{1}{B(p, q)} x^{p-1} (1-x)^{q-1} & (0 < x < 1) \\
0 & その他
\end{array}
\right.
$$
ベータ分布はBe(p, q)で表す。

以下X \sim Be(p,q)とする。

ベータ分布の平均,分散

\begin{eqnarray}
E[X] &=& \frac{p}{p + q} \\
V[X] &=& \frac{pq}{(p+q)^2 (p+q+1)}
\end{eqnarray}

導出

まずは平均について
\begin{eqnarray}
E[X] &=& \int_0^1 x \frac{1}{B(p,q)} x^{p-1} (1-x)^{q-1} dx \\
&=& \frac{\Gamma(p+q)}{\Gamma(p)\Gamma(q)} \int_0^1 x^p (1-x)^{q-1} dx \\
&=& \frac{\Gamma(p+q)}{\Gamma(p)\Gamma(q)} \frac{\Gamma(p+1)\Gamma(q)}{\Gamma(p+q+1)} \\
&=& \frac{\Gamma(p+q)}{\Gamma(p+q+1)} \frac{\Gamma(p+1)}{\Gamma(p)} \\
&=& \frac{p}{p+q}
\end{eqnarray}
分散を求めるに当たって、次のモーメントを求める。
\begin{eqnarray}
E[X(X-1)] &=& \int_0^1 x(x-1)\frac{1}{B(p,q)} x^{p-1} (1-x)^{q-1} dx \\
&=& -\frac{\Gamma(p+q)}{\Gamma(p)\Gamma(q)} \int_0^1 x^p (1-x)^q dx \\
&=& -\frac{\Gamma(p+q)}{\Gamma(p)\Gamma(q)} \frac{\Gamma(p+1)\Gamma(q+1)}{\Gamma(p+q+2)} \\
&=& -\frac{pq}{(p+q+1)(p+q)}
\end{eqnarray}
これより、V(X) = E(X(X-1)) + E(X) - E(X^2)から、分散は
\begin{eqnarray}
V[X] &=& E[X(X-1)] + E[X] - E[X]^2 \\
&=& -\frac{pq}{(p+q+1)(p+q)} + \frac{p}{p+q} - (\frac{p}{p+q})^2 \\
&=& \frac{pq}{(p+q)^2(p+q+1)}
\end{eqnarray}

モーメント

ベータ関数のk次モーメントを求める。
\begin{eqnarray}
E[X^k] &=& \int_0^1 x^k \frac{1}{B(p,q)}x^{p-1}(1-x)^{q-1} dx \\
&=& \frac{1}{B(p,q)} \int_0^1 x^{p+q-1}(1-x)^{q-1} dx \\
&=& \frac{B(p+k, q)}{B(p,q)} \\
&=& \frac{\Gamma(p+q)}{\Gamma(p)\Gamma(q)} \frac{\Gamma(p+k)\Gamma(q)}{\Gamma(p+q+k)} \\
&=& \frac{\Gamma(p+q)\Gamma(p+k)}{\Gamma(p)\Gamma(p+q+k)}
\end{eqnarray}

p,qが正の整数のときは

 \displaystyle
E [X^k] = \frac{(p+q-1)! (p+k-1)!}{(p-1)!(p+q+k-1)!}
と書くことができる。

ベータ分布の密度関数のグラフ

ベータ分布のグラフは、パラメータごとに以下のようになる。
f:id:doratai:20170528192802p:plain
pythonで描画。以下のサイトをおおいに参考にした。
【Python】scipyとmatplotlibでベータ関数を描画 - 歩いたら休め
ソースコードは以下。

import numpy as np
import scipy.stats
from matplotlib import pyplot as plt

x = np.linspace(0, 1, 1000)
plt.xlim(0,1)
plt.ylim(0,5)
plt.xlabel(r"$x$", fontsize=20, fontname='serif')
plt.ylabel(r"$f(x; p,q)$", fontsize=20,fontname='serif')
plt.title("PDF of Beta Distribution")
params = [[3,9],[6,6],[9,3],[1,1],[1,5],[5,1],[16,16]]
for param in params:
    rv = scipy.stats.beta(param[0], param[1])
    y = rv.pdf(x)
    plt.plot(x,y,'-',lw=2,label=param)
    plt.legend(bbox_to_anchor=(1.05,1), loc='best', borderaxespad=0) #凡例を枠外表示
plt.show()
ベータ関数の特徴

ベータ関数の特徴として、上記のグラフを見ればわかると思うが、パラメータp,qの値によっていろいろな形を取る、ということがある。例えば(p,q) = (1,1)のときは一様分布になっていることがグラフからもわかる。

ベータ分布とベイズ

ベータ分布がよく出てくるのは、ベイズ統計の分野である。ベイズ統計では、事前分布と、事後分布というものを考えるが、その時の事前分布としてベータ分布はよく使われる。グラフでも示した通り、ベータ分布のグラフはパラメータによって非常に柔軟に形を変えることができる。また、グラフとパラメータの対応関係をよく見て欲しい。(p,q) = (3,9)の時、グラフは左に偏り、(p,q) = (9,3)の時、グラフは右に偏っている。つまり、p,qの比がそのままグラフに表現されるのである。このことは、確率的主観を表現する際に都合が良い。予想が6-4であるとして、期待値を0.6とするならば、「私の確信」をp:q = 6:4のベータ分布で表現できるのである。ベイズ主義は確率を「ある事象をどれくらいできるか」の指標と解釈しているため、主観的な確率というものが非常に重要になってくる。その主観的確率を表現する際にベータ分布は非常に都合の良い分布なのだ。

参考文献

松原望,縄田和満,中井検裕(1991):『統計学入門(基礎統計学I)』,東京大学出版会
日本統計学会(2013):『日本統計学会公式認定 統計検定1級対応 統計学』,東京図書

一般逆行列の定義と存在

大学教養レベルで扱う線形代数では、逆行列は「正則行列(非特異行列)」である必要があり、\mathrm{rank}がフルランクであることが逆行列を持つ必要十分条件であった。しかし、行列が特異(逆行列を持たない、フルランクでない)である場合でも、逆行列を持つように、逆行列を拡張した、一般逆行列というものが存在する。統計学の中でも多変量解析などの分野では行列を多用するため、行列の話題というのは非常関心の高いものになる。そのような分野における、一般逆行列の利用は今や日常茶飯事らしいので、定義くらいは知っておきたい。

定義

m \times n行列\boldsymbol{A}の一般逆行列(generalized inverse)とは
$$
\boldsymbol{AGA} = \boldsymbol{A}
$$
を満たす、任意のn \times m行列\boldsymbol{G}のことである。
※一般逆行列の他に擬似逆行列、条件付き逆行列という用語で呼ばれることも多い
実際、\boldsymbol{A}が非特異である場合は\boldsymbol{G} = \boldsymbol{A}^{-1}であるので、\boldsymbol{AGA} = \boldsymbol{AA}^{-1}\boldsymbol{A} = \boldsymbol{A}となっている。

一般逆行列の存在

次に気になるのが、この「一般逆行列」が存在するのかどうかである。結論としては

あらゆる行列は少なくとも1つの一般逆行列を持つ。

これは次の定理で証明される。

定理

\boldsymbol{B}を最大列階数のm \times r行列。\boldsymbol{T}を最大行階数のr \times n行列とする。この時、\boldsymbol{B}は左逆行列\boldsymbol{L}を持ち、\boldsymbol{T}は右逆行列\boldsymbol{R}を持つ。そして、\boldsymbol{RL}\boldsymbol{BT}の一般逆行列である。

証明

\boldsymbol{B}が左逆行列\boldsymbol{L}を持ち、\boldsymbol{T}が右逆行列\boldsymbol{R}を持つことは既知としよう。この時、一般逆行列の定義から
$$
\boldsymbol{BT}(\boldsymbol{RL})\boldsymbol{BT} = \boldsymbol{B}(\boldsymbol{TR})(\boldsymbol{LB})\boldsymbol{T} = \boldsymbol{BT}
$$
である。すなわち、\boldsymbol{RL}\boldsymbol{BT}の一般逆行列である。
今、任意のm \times n行列\boldsymbol{A}を考える。\boldsymbol{A} = \boldsymbol{0}であるならば、明らかに任意のn \times m行列は\boldsymbol{A}の一般逆行列である。\boldsymbol{A} \neq \boldsymbol{0}であるならば、\boldsymbol{A} = \boldsymbol{BT}を満たす最大列階数の行列\boldsymbol{B}と最大列階数の行列\boldsymbol{T}が存在する。したがって、「あらゆる行列は少なくとも1つの一般逆行列を持つ」という結論を得る。


この証明で既知として用いている部分に関しては参考文献を参照ください。

参考文献

David A. Harville,(監訳)伊里正夫(2012) : 『統計のための行列代数(上)』,丸善出版

無限のパラドクス〜数学から見た無限論の系譜〜を読んで

理工系の新書として有名なレーベルの「BLUE BACKS」の本で、足立恒雄先生の著書、「無限のパラドクス」を読みました。

 

この本は、現代の無限論にたどり着くまでの歴史的経緯について非常に簡潔に分かりやすく書かれており、高校レベルの数学の知識があれば難なく読むことが出来ると思います。

 

無限論とは別に読んでいて感動したこと(ライプニッツの夢)

この本の中盤で、ライプニッツ(1646〜1716)の話が出てきます。この本によると、論理学の分野で「AならばB」のように、一般命題に文字をわりあてるのはライプニッツが始めたことだそうです。ライプニッツが夢見たのは「全ての論証を記号化し、算術問題に還元すること」。これを実現すると、裁判などで、データを投入するだけで後は計算機が計算して公平な判決を下してくれる。このような事を夢見ていたそうです。

少し前ならば、なんて夢物語なのだろうと私も思いました。しかし、人工知能、バックデータ解析といった用語がトレンドな現代、ライプニッツの夢見たことは現実味を帯びてきています。将来的にコンピュータに仕事を奪われると予想される職業に「弁護士」が入っているのですから。

 

人工知能が判決を下す。なんか、少し前のノイタミナのアニメで「PSYCHOPATH」という作品が人気を博しましたが、それを思い出します。警官の持つ拳銃型の「ドミネーター」という武器が、対象者の犯罪係数を算出し、その数値を元にその場で刑が執行されます。この犯罪係数が高いとその場で死刑執行も行われます。この世界はコンピュータ(最後にその中身も明かされる)に支配された人間の物語とも言えます。興味がありましたら見てみてください。映画化もされていた...かと思います(多分)。

 

科学が発達し、SF作品なども豊富な現代でこそ、想像のつくような世界を400年前の偉人が夢見ていたというのは想像もつきません。現代に生きる人々の中にも、私たちが理解出来ない様な未来をイメージして研究に取り組む天才もいるのかもしれないと思うと、私たちが夢物語だと思っていることも、500年も経てば現実化してるんでしょうか。最も最近の技術革新は10年前には映画の中の事だったことが当たり前のように行われるような進歩の仕方をしているので、それ以上となるとやはり想像できません(笑)。

 

なんだか、最終的に書評でもなんでもない所に帰着しましたが、興味深い本でしたので是非オススメしたいと思います。

 

また、著者の無限に関する本として別に「無限の果てになにがあるか」というものもありますのでそちらも読んでみてください。共に興味深い内容となっています。

日記的なの「統計の誤用を防ぐ書籍」

本日新宿の紀伊国屋に立ち寄りました。現在紀伊国屋では

 

「ダメな統計学を防ぐための書籍」

 

フェア?をやってるのか、理工書の階に行くと、中央のわかりやすい所にコーナーが設置されています。そこで見つけたフリーペーパーで「ダメな統計学を防ぐための書籍11冊」が紹介されていました(まあ、そのコーナーに置いてある本なんですが)どれも欲しい本ばかりなのですが、なにぶん学生故にお金が無いため買うことが出来ません...

 

あぁ、早く就職してお金が欲しい今日このごろです。

ちなみに、そのフリーペーパーの内容はブログに掲載されてる内容なので、次のリンクをクリックしてくれれば飛びますので(∩´。•ω•)⊃ドゾー

http://id.fnshr.info/2017/01/27/no-sdw/:ダメな統計学 11冊

「ダメな統計学~悲惨なほど完全なる手引書~」レビュー

先月あたりに本屋によった際に見つけ、ずっと気になっていた「ダメな統計学~悲惨なほど完全なる手引書」をついに購入してしまいました。

 

2017年2月時点でAmazon確率・統計カテゴリ1位を獲得したベストセラーです。

 ※上記画像はAmazonにリンクしています

 

内容としては、科学者が陥ってしまいがちな統計の誤用だったり、その原因、なぜ間違いなのかについて書かれています。

 

この本の原著というか、元となっているものは英語版、日本語版共にオンラインで見ることが出来るみたい。

 

英語の場合は「Statistics Done Wrong」

日本語の場合は「ダメな統計学

 

で検索すれば出てくるので検索してください。ってか、下にリンクつけときますのでクリックすれば飛ぶようになってます。

日本語↓

id.fnshr.info

英語↓

Welcome — Statistics Done Wrong

 評価 ★★★★★

アマゾンレビューするなら私は★5つです。

 

実践向けの統計学書があふれかえる世の中で、統計の誤用という視点から、誤用に文句をいうだけでなく、原因を解説し、防ぐ方法まで説明してくれる良書です。

 

統計学という分野は非常に応用範囲の広い分野であるのですが、曖昧さをおおいに含んだ分野でもあります。その為、使い方次第で誤解を生むことも多いです。最近はデータ分析がトレンドなためか、Excelで統計みたいな、実際に使う系の本が沢山出ています。また、科学の世界でも統計は必ず使われますが、統計をキチンと学んで使われていることは少ないと思われます。統計を使う場合、既に確立された手法を用いれば良く、また、Excelのようなソフトには統計の機能がついているため、ツールとしての側面が強い気がします。そのためか統計の曖昧な部分について知らずに使い、勘違いを生む原因になっている気がします。

 

この本では、科学の世界で日常的に使われている統計における、間違いやその原因について分かりやすく解説されています。

 

この本の目次は以下のようになっています。

  1. 統計的有意性入門
  2. 検定力と検定力の足りない統計
  3. 疑似反復:データを賢く選べ
  4. p値と基準率の誤り
  5. 有意性に関する間違った判断
  6. データの二度づけ
  7. 連続性の誤り
  8. モデルの乱用
  9. 研究者の自由:好ましい雰囲気?
  10. 誰もが間違える
  11. データを隠すこと
  12. 何ができるだろうか

ここで解説される原因は、手法的な面だけにとどまりません。研究者が統計を誤ってしまう環境的背景のような面についても解説されています。また、各章の最後には「ヒント」という項目が設けられており、そこではその章で解説されたダメな統計学を回避する方法を教えてくれています。

 

また、ページ下部の注釈が結構面白く、本文よりもそっちが気になってしまったりもします。

 

解説に出てくる論文などは、参考文献のページに網羅されていますのでもっと深く知りたいという人にも親切ですね。参考文献の数は数えてみたら191個ありました(笑)。

対象読者:統計学の経験がある人

数式がガリガリ出てくる本ではなく、ほぼほぼ文章ですので、読みにくいということは全く無いと思います。読み物としての本です。ただ、統計に全く触れたことのない人が読むには、統計用語が頻繁に出てくるため厳しいと思います。

統計学を普段使いしてる人や、統計学を学んでいる学生におすすめだと思います。

 

感想

私は大学で統計学を専門にすべく勉強しています。その中でいつも考えているのは「統計学が専門」というのはどういうことかということです。統計学はどの分野でも使われています。心理や経済学の学生なんかは統計を頻繁に使うと聞きます。物理なんかもそうですね。実際、日本では統計に関する専門書は、経済学者や、心理学者、物理学者が書いているということも多いです。みんな多かれ少なかれ統計を知っているのです。そしたら、統計を専門にするとはどういうことなのか?他の分野で統計をバリバリ使っている人との差は何所に生まれるのかというのをずっと思っていました。この本はその疑問に対する一つの答えを教えてくれた気がします。統計的手法の成り立ち、理論に精通し、それぞれの手法の留意点を知り、誤りを正せるレベルが求められているんだと私は思いました。一言に統計学と言っても幅広いので全てに精通することは難しいのかもしれませんが、自分が専門とする領域を見つけ、その部分だけでもまずは上記のレベルに達することができればと思います。

 

「統計でウソをつく法」は「ダメな統計学」ででてくる関連書籍の一つです。