Table of Contents
統計学の基礎
母集団と標本
統計量
母集団の統計量
標本の統計量
定理・法則・性質
大数の法則
中心極限定理
正規分布の再生性
推定
点推定
統計量の性質一覧
区間推定
母平均の区間推定
検定
統計学の基礎
統計学は記述統計学と推計統計学に分類できる
記述統計学は,データの要約・記述を目的とする
推計統計学は,標本から母集団の性質を推測することを目的とする
母集団と標本
母集団: 調査対象から観測可能なすべての潜在的な観測値の集合
標本/サンプル: 調査対象から実際に観測された観測値の有限集合
サンプルサイズ: 1つの標本の要素数
サンプル数: 標本(=集合)の数
統計量
統計量: 何らかのアルゴリズムを適用し得た後の,データの特徴を表す値
要約/基本/記述統計量: データを要約する統計量
順序統計量: データをソートすることで得られる統計量
検定統計量: 統計検定に使われる統計量
実現値: 統計量の実際の値
母集団の統計量
母平均: $\mu=\frac{1}{n}\sum_{i=0}^{n-1} x_i$
母分散: $\sigma^2=\frac{1}{n}\sum_{i=0}^{n-1} \left(x_i-\mu\right)^2$
母標準偏差: $\sigma=\sqrt{\sigma^2}$
標本の統計量
標本平均: $\bar{X}=\frac{1}{n}\sum_{i=0}^{n-1} x_i$
標本分散: $S^2=\frac{1}{n}\sum_{i=0}^{n-1} \left(x_i-\bar{X}\right)^2$
不偏分散: $U^2=\frac{1}{n-1}\sum_{i=0}^{n-1} \left(x_i-\bar{X}\right)^2$
標本標準偏差: $S=\sqrt{S^2}$
標本不偏標準偏差: $U=\sqrt{U^2}$
定理・法則・性質
大数の法則
任意の分布の母集団と,大きさ$n$の標本について,次が成り立つ
$E\left[\bar{X}\right]=\mu$
$V\left[\bar{X}\right]=\frac{\sigma^2}{n}$
中心極限定理
確率変数$X_1, X_2, \cdots, X_n$が全て独立かつ同一の分布(平均$\mu$,分散$\sigma^2$)に従うとき,$n$が十分に大きいならば,$X_i$の平均$\bar{X}$は正規分布$N\left(\mu,\frac{\sigma^2}{n}\right)$に従う
母集団が正規分布でなくとも,標本平均$\bar{X}$は近似的に正規分布に従う
母集団が正規分布の場合,標本平均$\bar{X}$は正規分布に従う
正規分布の再生性
正規母集団$N\left(\mu,\sigma^2\right)$から抽出した大きさ$n$の標本について,その線形和$Y=a_1X_1+a_2X_2+\cdots+a_nX_n$は正規分布に従う
推定
推定: 母集団の統計量を推測すること
点推定
点推定: 統計量の実現値を母集団の統計量とする推定方法
推定量: 以下のうち1つ以上の条件を満たす統計量$X$の実現値$x$は,母集団の統計量$\theta$として推定できる
一致性: サンプルサイズを大きくすることで,$X$が$\theta$に近づく性質
不偏性: 期待値$E[X]$が母数$\theta$に等しい性質
最尤性: 複数のサンプルの標本統計量$X_i$について,それぞれの実現値が観測される確率が最も高い$X_i$の分布のパラメータを実現値とする性質
最小分散性: (要調査)
十分性: (要調査)
統計量の性質一覧
標本統計量$X$
母集団統計量$\theta$
一致性
不偏性
標本平均$\bar{X}$
母平均$\mu$
v
v
標本分散$S^2$
母分散$\sigma^2$
v
標本不偏分散$u^2$
母分散$\sigma^2$
v
v
区間推定
区間推定: 統計量の実現値より母数の信頼区間を求める推定方法
信頼区間: 事前に定めた信頼係数$p$と,母数がその区間内に存在する確率が,等しいような区間$a,b$
$P\left(a\leq X\leq b\right)=p$
母平均の区間推定
$z\sim N(0,1)$,信頼係数$p$において,$P(z\geq\alpha)=\frac{p}{2}$であるとき,正規母集団$N\left(\mu,\sigma^2\right)$の母平均$\mu$の信頼区間は,大きさ$n$の標本の標本平均$\bar{X}$の実現値$\bar{x}$より,次のように求められる
$P\left(\bar{x}-\alpha\sqrt{\frac{\sigma^2}{n}}\leq \mu\leq \bar{x}+\alpha\sqrt{\frac{\sigma^2}{n}}\right)=p$
中心極限定理より,母集団が正規分布でなくとも,標本が十分に大きいならば同様の方法で区間推定ができる
検定
統計検定
statistics