統計・確率のお勉強

統計学を中心に色々勉強するブログ

1次元データの取り扱い

データの種類

データには2種類ある。量的データ質的データである。

  • 量的データ

  • データが定量的な値で与えられるもの。量的データには、長さ、重さ、体積、面積、金額、温度、時間など数値でその値を測定できるものが含まれる。

  • 質的データ

  • 数値として観測することができず、あるカテゴリーに属していることや、ある状態にあることだけがわかるデータ。性別、天気、学歴、居住地域等がある。

    データの表示法

    大別すると2つある。

  • 図的表示法

  • データを図的表現によって処理し、母集団の分布の形を推定する方法
  • 量的表示法

  • データを計数的に処理して、母集団の分布の特性値を推定する方法

    度数分布とヒストグラム

    観測や実験により観測値が得られたら度数分布表をまず作る。
    度数分布表は観測値のとりうるいくつかの階級(class)に分け、それぞれの階級で観測値がいくつあるか度数(frequency)を数えて表にしたものである。

    以下は簡単ではあるが度数分布表の例を書いてみた。

    階級 階級値 度数 相対度数 累積度数 累積相対度数
    0~10 5 3 0.03 3 0.03
    10~20 15 2 0.02 5 0.05
    20~30 25 5 0.05 10 0.10
    30~40 35 12 0.12 22 0.22
    40~50 45 17 0.17 39 0.39
    50~60 55 25 0.25 64 0.64
    60~70 65 13 0.13 77 0.77
    70~80 75 9 0.09 86 0.86
    80~90 85 8 0.08 94 0.94
    90~100 95 6 0.06 100 1.00
    合計 100 1.00


    これらからヒストグラムを作成することができるが、そこに関してはあまり興味が無いので言及しない。

    量的取り扱い

    グラフの書き方とかはもし私が勉強していく中で学ぶことがあれば書くことにしよう。数理統計学的な面で統計学を扱っていくにあたり、量的な取り扱いの基礎を学ぶ。

    平均値

    この言葉を知らないことはまず無いだろう。観測値 x_1,x_2,\ldots,x_n に対して平均値 \bar{x} は以下で求められる。

    $$
    \bar{x} = \frac{x_1+x_2+\ldots+x_n}{n} = \frac{1}{n}\sum_{i=1}^n x_i
    $$

    コンピュータが発達し、Excelのような表計算ソフトがある今の時代にあまり需要は無いと思われるが、昔はそのような便利なものはなく、計算はとても骨が折れるものであった。そのため少しでも計算を簡易にしようと次のような計算方法がある(のだと私は少なくとも思っている。)

    各測定値 x_i (i=1,2,\ldots,n)

    $$
    u_i = (x_i-x_0)/h
    $$

    と変換し

    $$
    \bar{u} = \frac{u_1+u_2+\ldots+u_n}{n}
    $$

    を求め、これを元に戻して

    $$
    \bar{x}=\bar{u}\cdot h+x_0
    $$

    とすることで求める。ここで x_0仮平均といい、 u_i が簡単になるように適当に定める。 h も同様に適当に定めてやる。

    中央値(メジアン)

    名前の通り、真ん中の数である。イメージは5人組の戦隊物のレッドの位置。

    標本を大きさの順に並べて

    $$
    x_{(1)} \le x_{(2)} \le \ldots \le x_{(n-1)} \le x_{(n)}
    $$

    としてやった時に、中央値は

    $$
    \tilde{x}=
    \begin{eqnarray}
    \left\{
    \begin{array}{ll}
    x_{(\frac{n+1}{2})} & n:奇数 \\
    \frac{x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}}{2} & n:偶数
    \end{array}
    \right.
    \end{eqnarray}
    $$

    で与えられる。
    例えば標本が $1,2,3,4,5$ だったら中央値は $3$ 一方、標本が $1,2,3,4,5,6$ ならば中央値は $3.5$ である。

    分散

    分散は散らばりの尺度である。

    $$
    s^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2 = \frac{1}{n}\sum_{i=1}^n x_i^2 - \bar{x}^2
    $$

    で分散は与えられる。また、

    $$
    s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2}
    $$

    標準偏差と呼ばれる。

    積率(モーメント)

    原点まわりの v 次モーメント

    $$
    m_v' = \frac{1}{n}\sum_{i=1}^n x_i^v
    $$

    平均値まわりの v 次モーメント

    $$
    m_v = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^v
    $$

    であり、一般に

    $$
    m_v = m_v'- \left(
    \begin{array}{c}
    v \\
    1 \\
    \end{array}
    \right)
    \bar{x}m_{v-1}'+
    \left(
    \begin{array}{c}
    v \\
    2 \\
    \end{array}
    \right)
    \bar{x}^2m_{v-2}' - \ldots + (-1)^v
    \left(
    \begin{array}{c}
    v \\
    v \\
    \end{array}
    \right) \bar{x}^v
    $$

    なる関係が成立する。

    ひづみ(歪度)、とがり(尖度)

  • ひづみ

  • 対称性の指標。

    $$
    a = m_3/s^3
    $$

    a > 0 ならば右の裾が長くa < 0 ならば左の裾が長い

  • とがり

  • 尖りの程度を表す指標。正規分布のと比較することが多い。そのため

    $$
    b=m_4/s^4 -3 \;\; (もしくは\;\; m_4/s^4)
    $$

    として扱うことが多く、 b > 0 ならば正規分布よりも尖っており、 b < 0 ならば、正規分布より丸く鈍い形をしている。

    モード(最頻値)

    ヒストグラムの山の一番高い柱の代表値。文字通り、もっとも出現頻度が高い値のこと。

    参考文献

    松原望,縄田和満,中井検裕(2014)『統計学入門』(基礎統計学Ⅰ)東京大学出版会
    国沢清典(2012)『確率統計演習2 統計』培風館



    このあたりの内容ってやっててだるいからモチベ下がるんだよなあ...