データの種類
データには2種類ある。量的データと質的データである。
データが定量的な値で与えられるもの。量的データには、長さ、重さ、体積、面積、金額、温度、時間など数値でその値を測定できるものが含まれる。
数値として観測することができず、あるカテゴリーに属していることや、ある状態にあることだけがわかるデータ。性別、天気、学歴、居住地域等がある。
データの表示法
大別すると2つある。
データを図的表現によって処理し、母集団の分布の形を推定する方法
データを計数的に処理して、母集団の分布の特性値を推定する方法
度数分布とヒストグラム
観測や実験により観測値が得られたら度数分布表をまず作る。
度数分布表は観測値のとりうるいくつかの階級(class)に分け、それぞれの階級で観測値がいくつあるか度数(frequency)を数えて表にしたものである。
以下は簡単ではあるが度数分布表の例を書いてみた。
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
0~10 | 5 | 3 | 0.03 | 3 | 0.03 |
10~20 | 15 | 2 | 0.02 | 5 | 0.05 |
20~30 | 25 | 5 | 0.05 | 10 | 0.10 |
30~40 | 35 | 12 | 0.12 | 22 | 0.22 |
40~50 | 45 | 17 | 0.17 | 39 | 0.39 |
50~60 | 55 | 25 | 0.25 | 64 | 0.64 |
60~70 | 65 | 13 | 0.13 | 77 | 0.77 |
70~80 | 75 | 9 | 0.09 | 86 | 0.86 |
80~90 | 85 | 8 | 0.08 | 94 | 0.94 |
90~100 | 95 | 6 | 0.06 | 100 | 1.00 |
合計 | 100 | 1.00 |
これらからヒストグラムを作成することができるが、そこに関してはあまり興味が無いので言及しない。
量的取り扱い
グラフの書き方とかはもし私が勉強していく中で学ぶことがあれば書くことにしよう。数理統計学的な面で統計学を扱っていくにあたり、量的な取り扱いの基礎を学ぶ。
平均値
この言葉を知らないことはまず無いだろう。観測値 に対して平均値 は以下で求められる。
$$
\bar{x} = \frac{x_1+x_2+\ldots+x_n}{n} = \frac{1}{n}\sum_{i=1}^n x_i
$$
コンピュータが発達し、Excelのような表計算ソフトがある今の時代にあまり需要は無いと思われるが、昔はそのような便利なものはなく、計算はとても骨が折れるものであった。そのため少しでも計算を簡易にしようと次のような計算方法がある(のだと私は少なくとも思っている。)
各測定値 を
$$
u_i = (x_i-x_0)/h
$$
と変換し
$$
\bar{u} = \frac{u_1+u_2+\ldots+u_n}{n}
$$
を求め、これを元に戻して
$$
\bar{x}=\bar{u}\cdot h+x_0
$$
とすることで求める。ここで は仮平均といい、 が簡単になるように適当に定める。 も同様に適当に定めてやる。
中央値(メジアン)
名前の通り、真ん中の数である。イメージは5人組の戦隊物のレッドの位置。
標本を大きさの順に並べて
$$
x_{(1)} \le x_{(2)} \le \ldots \le x_{(n-1)} \le x_{(n)}
$$
としてやった時に、中央値は
$$
\tilde{x}=
\begin{eqnarray}
\left\{
\begin{array}{ll}
x_{(\frac{n+1}{2})} & n:奇数 \\
\frac{x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}}{2} & n:偶数
\end{array}
\right.
\end{eqnarray}
$$
で与えられる。
例えば標本が $1,2,3,4,5$ だったら中央値は $3$ 一方、標本が $1,2,3,4,5,6$ ならば中央値は $3.5$ である。
分散
分散は散らばりの尺度である。
$$
s^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2 = \frac{1}{n}\sum_{i=1}^n x_i^2 - \bar{x}^2
$$
で分散は与えられる。また、
$$
s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2}
$$
は標準偏差と呼ばれる。
積率(モーメント)
原点まわりの 次モーメント
$$
m_v' = \frac{1}{n}\sum_{i=1}^n x_i^v
$$
平均値まわりの 次モーメント
$$
m_v = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^v
$$
であり、一般に
$$
m_v = m_v'- \left(
\begin{array}{c}
v \\
1 \\
\end{array}
\right)
\bar{x}m_{v-1}'+
\left(
\begin{array}{c}
v \\
2 \\
\end{array}
\right)
\bar{x}^2m_{v-2}' - \ldots + (-1)^v
\left(
\begin{array}{c}
v \\
v \\
\end{array}
\right) \bar{x}^v
$$
なる関係が成立する。
ひづみ(歪度)、とがり(尖度)
非対称性の指標。
$$
a = m_3/s^3
$$
ならば右の裾が長く、 ならば左の裾が長い
尖りの程度を表す指標。正規分布のと比較することが多い。そのため
$$
b=m_4/s^4 -3 \;\; (もしくは\;\; m_4/s^4)
$$
モード(最頻値)
ヒストグラムの山の一番高い柱の代表値。文字通り、もっとも出現頻度が高い値のこと。