統計学の基礎
- 統計学は記述統計学と推計統計学に分類できる
- 記述統計学は,データの要約・記述を目的とする
- 推計統計学は,標本から母集団の性質を推測することを目的とする
母集団と標本
- 母集団: 調査対象から観測可能なすべての潜在的な観測値の集合
- 標本/サンプル: 調査対象から実際に観測された観測値の有限集合
- サンプルサイズ: 1つの標本の要素数
- サンプル数: 標本(=集合)の数
統計量
- 統計量: 何らかのアルゴリズムを適用し得た後の,データの特徴を表す値
- 要約/基本/記述統計量: データを要約する統計量
- 順序統計量: データをソートすることで得られる統計量
- 検定統計量: 統計検定に使われる統計量
- 実現値: 統計量の実際の値
母集団の統計量
- 母平均: $\mu=\frac{1}{n}\sum_{i=0}^{n-1} x_i$
- 母分散: $\sigma^2=\frac{1}{n}\sum_{i=0}^{n-1} \left(x_i-\mu\right)^2$
- 母標準偏差: $\sigma=\sqrt{\sigma^2}$
標本の統計量
- 標本平均: $\bar{X}=\frac{1}{n}\sum_{i=0}^{n-1} x_i$
- 標本分散: $S^2=\frac{1}{n}\sum_{i=0}^{n-1} \left(x_i-\bar{X}\right)^2$
- 不偏分散: $U^2=\frac{1}{n-1}\sum_{i=0}^{n-1} \left(x_i-\bar{X}\right)^2$
- 標本標準偏差: $S=\sqrt{S^2}$
- 標本不偏標準偏差: $U=\sqrt{U^2}$
定理・法則・性質
大数の法則
- 任意の分布の母集団と,大きさ$n$の標本について,次が成り立つ
- $E\left[\bar{X}\right]=\mu$
- $V\left[\bar{X}\right]=\frac{\sigma^2}{n}$
中心極限定理
- 確率変数$X_1, X_2, \cdots, X_n$が全て独立かつ同一の分布(平均$\mu$,分散$\sigma^2$)に従うとき,$n$が十分に大きいならば,$X_i$の平均$\bar{X}$は正規分布$N\left(\mu,\frac{\sigma^2}{n}\right)$に従う
- 母集団が正規分布でなくとも,標本平均$\bar{X}$は近似的に正規分布に従う
- 母集団が正規分布の場合,標本平均$\bar{X}$は正規分布に従う
正規分布の再生性
- 正規母集団$N\left(\mu,\sigma^2\right)$から抽出した大きさ$n$の標本について,その線形和$Y=a_1X_1+a_2X_2+\cdots+a_nX_n$は正規分布に従う
推定
- 推定: 母集団の統計量を推測すること
点推定
- 点推定: 統計量の実現値を母集団の統計量とする推定方法
- 推定量: 以下のうち1つ以上の条件を満たす統計量$X$の実現値$x$は,母集団の統計量$\theta$として推定できる
- 一致性: サンプルサイズを大きくすることで,$X$が$\theta$に近づく性質
- 不偏性: 期待値$E[X]$が母数$\theta$に等しい性質
- 最尤性: 複数のサンプルの標本統計量$X_i$について,それぞれの実現値が観測される確率が最も高い$X_i$の分布のパラメータを実現値とする性質
- 最小分散性: (要調査)
- 十分性: (要調査)
統計量の性質一覧
標本統計量$X$ | 母集団統計量$\theta$ | 一致性 | 不偏性 |
---|---|---|---|
標本平均$\bar{X}$ | 母平均$\mu$ | v | v |
標本分散$S^2$ | 母分散$\sigma^2$ | v | |
標本不偏分散$u^2$ | 母分散$\sigma^2$ | v | v |
区間推定
- 区間推定: 統計量の実現値より母数の信頼区間を求める推定方法
- 信頼区間: 事前に定めた信頼係数$p$と,母数がその区間内に存在する確率が,等しいような区間$a,b$
- $P\left(a\leq X\leq b\right)=p$
母平均の区間推定
- $z\sim N(0,1)$,信頼係数$p$において,$P(z\geq\alpha)=\frac{p}{2}$であるとき,正規母集団$N\left(\mu,\sigma^2\right)$の母平均$\mu$の信頼区間は,大きさ$n$の標本の標本平均$\bar{X}$の実現値$\bar{x}$より,次のように求められる
- $P\left(\bar{x}-\alpha\sqrt{\frac{\sigma^2}{n}}\leq \mu\leq \bar{x}+\alpha\sqrt{\frac{\sigma^2}{n}}\right)=p$
- 中心極限定理より,母集団が正規分布でなくとも,標本が十分に大きいならば同様の方法で区間推定ができる