2020/3/22

統計

十分統計量と分解定理


十分統計量と分解定理についてまとめます。

十分統計量とは

パラメトリックな統計モデルにおいてパラメータの推定する際に、観測値を全て記録しておかなくても、観測値を要約した統計量を用いれば十分なことがあります。 この統計量のことを十分統計量と呼びます。

定義

\(X_1,X_2,\cdots,X_N\) の組を \(X^N\) で表す。 \(X^N\) の同時確率分布 \(p(x^N;\theta)\) であるとする。 統計量 \(T(x^N)\) を与えたときの \(X^N\) の条件確率分布 \(p(x^N|t;\theta)\) が \(\theta\) によらないとき、 \(T\) を十分統計量という。

コインを \(N\) 回投げる事象を考える。コインは各回独立に確率 \(\theta\) で表が出るとして、 \(i\) 回目に表が出たとき確率変数 \(X_i\) を1、裏が出たとき0と定義する。すなわち、

\begin{align*} X_i= \begin{cases} 1 & {\rm with\hspace{3mm}probability\hspace{3mm}} \theta\\ 0 & {\rm with\hspace{3mm}probability\hspace{3mm}} 1-\theta \end{cases} \end{align*}

と定義すると、同時確率は

\begin{align*} p(x^N;\theta)=\prod_{i=1}^N \theta^{x_i} (1-\theta)^{1-x_i} \end{align*}

となる。ここで、統計量 \(T=\displaystyle\sum_{i=1}^N x_i\) を考えると、

\begin{align*} p(t;\theta)={}_NC_t\hspace{1mm}\theta^t (1-\theta)^{N-t} \end{align*}

であり、 \(X^N\) と \(T\) の同時確率は

\begin{align*} p(x^N,t;\theta)= \begin{cases} p(x^N;\theta) & {\rm if}\quad \sum x_i = t\\ 0 & {\rm otherwise} \end{cases} \end{align*}

なので、条件付き確率 \(p(x^N|t;\theta)\) は

\begin{align*} p(x^N|t;\theta)&=\dfrac{p(x^N,t;\theta)}{p(t;\theta)}\\ &= \begin{cases} \dfrac{1}{{}_NC_t}& {\rm if}\quad \sum x_i = t\\ 0 & {\rm otherwise} \end{cases} \end{align*}

となる。これはパラメータ \(\theta\) によらない。 すなわち \(T=\displaystyle\sum_{i=1}^N x_i\) はこの統計モデルにおける十分統計量である。

イメージ

\(p(x^N;\theta)\) というモデルを \(T\) を介して捉えると、 \(\theta\) が与えられてまず \(T\) が \(p(t;\theta)\) (パラメータ \(\theta\) によって定まる確率分布)に従って分布し、その後 \(X^N\) が \(p(x^N|t;\theta)\) に従って分布しているという解釈になります。 この \(p(x^N|t;\theta)\) が \(\theta\) に寄らないということは、 \(\theta\) が直接影響するのは \(T\) までであり、それより後に分布する \(X^N\) の情報は(\(T\) がわかっているのなら) \(\theta\) の推定には不要であることを意味しています。 これが十分統計量のイメージです。

分解定理

ある統計量 \(T\) が十分統計量かどうかを判断するために次の定理が存在します。

分解定理

\(X_1,X_2,\cdots,X_N\) の同時確率分布 \(p(x^N;\theta)\) が \[p(x^N;\theta)=g(x^N)h(t(x^N),\theta)\]の形に分解できることが、 \(T=t(X^N)\) が十分統計量であることの必要十分条件である。
ただし、\(g(x^N)\) は \(\theta\) に依存しない \(x^N\)の関数、\(h(t(x^N),\theta)\) は \(t,\theta\) の関数である。

分解定理を利用すると十分統計量かどうかが簡単に確認できます。

例2-1

正規分布 \(N(\mu,1)\) において、 \(\overline{X}=\dfrac{1}{N}\displaystyle\sum_{i=1}^N X_i\) が十分統計量であることを示す。

\begin{align*} p(x^N;\mu)&=\prod_{i=1}^N \dfrac{1}{\sqrt{2\pi}}\exp\left(-\dfrac{(x_i-\mu)^2}{2}\right)\\ &=\left(\dfrac{1}{\sqrt{2\pi}}\right)^N \exp\left(-\dfrac12 \sum_{i=1}^N (x_i-\bar{x}+\bar{x}-\mu)^2\right)\\ &=\left(\dfrac{1}{\sqrt{2\pi}}\right)^N \exp\left(-\dfrac12 \sum_{i=1}^N (x_i-\bar{x})^2\right) \exp\left(-\dfrac{N}{2}(\bar{x}-\mu)^2\right) \end{align*}

ここで

\begin{align*} g(x^N)&=\left(\dfrac{1}{\sqrt{2\pi}}\right)^N \exp\left(-\dfrac12 \sum_{i=1}^N (x_i-\bar{x})^2\right) \\ h(\bar{x},\mu)&=\exp\left(-\dfrac{N}{2}(\bar{x}-\mu)^2\right) \end{align*}

とおけば \(p(x^N;\mu)=g(x^N)h(\bar{x},\mu)\) となるので、分解定理より \(\overline{X}\) は十分統計量である。

例2-2

先ほどのコイン投げの例をもう一度考えてみる。

\begin{align*} p(x^N;\theta)&=\prod_{i=1}^N \theta^{x_i} (1-\theta)^{1-x_i}\\ &=\theta^{t} (1-\theta)^{N-t} \end{align*}

ここで

\begin{align*} g(x^N)&=1\\ h(t,\theta)&=\theta^{t} (1-\theta)^{N-t} \end{align*}

とおけば \(p(x^N;\theta)=g(x^N)h(t,\theta)\) となるので、分解定理より \(T\) は十分統計量である。 このように簡単に十分統計量かどうかがわかります。 なお、十分統計量 \(T\) やパラメータ \(\theta\) は多次元でも構いません。 正規分布 \(N(\mu,\sigma)\) における \((T_1,T_2)=\left(\overline{X},\dfrac1N\displaystyle\sum_{i=1}^N (X_i-\overline{X})^2\right)\) などがその例です。 (分解定理を利用する練習問題として示してみてください。)

今回のまとめ

  • 観測値を全て記録しておかなくても十分統計量がわかればパラメータの推定に十分である
  • ある統計量が十分統計量かどうかは分解定理を使うことで簡単に判別できる

参考

東京大学工学教程「確率・統計Ⅲ」, 駒木文保 清智也

back