十分統計量と分解定理

十分統計量と分解定理についてまとめます。

十分統計量とは

パラメトリックな統計モデルにおいてパラメータの推定する際に、観測値を全て記録しておかなくても、観測値を要約した統計量を用いれば十分なことがあります。

この統計量のことを十分統計量と呼びます。

定義

X1,X2,,XNX_1,X_2,\cdots,X_N の組を XNX^N で表す。 XNX^N の同時確率分布 p(xN;θ)p(x^N;\theta) であるとする。 統計量 T(xN)T(x^N) を与えたときの XNX^N の条件確率分布 p(xNt;θ)p(x^N|t;\theta)θ\theta によらないとき、 TT を十分統計量という。

コインを NN 回投げる事象を考える。コインは各回独立に確率 θ\theta で表が出るとして、 ii 回目に表が出たとき確率変数 XiX_i を1、裏が出たとき0と定義する。すなわち、

Xi={1withprobabilityθ0withprobability1θ\begin{align*} X_i= \begin{cases} 1 & {\rm with\hspace{3mm}probability\hspace{3mm}} \theta\\ 0 & {\rm with\hspace{3mm}probability\hspace{3mm}} 1-\theta \end{cases} \end{align*}

と定義すると、同時確率は

p(xN;θ)=i=1Nθxi(1θ)1xi\begin{align*} p(x^N;\theta)=\prod_{i=1}^N \theta^{x_i} (1-\theta)^{1-x_i} \end{align*}

となる。ここで、統計量 T=i=1NxiT=\displaystyle\sum_{i=1}^N x_i を考えると、

p(t;θ)=NCtθt(1θ)Nt\begin{align*} p(t;\theta)={}_NC_t\hspace{1mm}\theta^t (1-\theta)^{N-t} \end{align*}

であり、 XNX^NTT の同時確率は

p(xN,t;θ)={p(xN;θ)ifxi=t0otherwise\begin{align*} p(x^N,t;\theta)= \begin{cases} p(x^N;\theta) & {\rm if}\quad \sum x_i = t\\ 0 & {\rm otherwise} \end{cases} \end{align*}

なので、条件付き確率 p(xNt;θ)p(x^N|t;\theta)

p(xNt;θ)=p(xN,t;θ)p(t;θ)={1NCtifxi=t0otherwise\begin{align*} p(x^N|t;\theta)&=\dfrac{p(x^N,t;\theta)}{p(t;\theta)}\\ &= \begin{cases} \dfrac{1}{{}_NC_t}& {\rm if}\quad \sum x_i = t\\ 0 & {\rm otherwise} \end{cases} \end{align*}

となる。これはパラメータ θ\theta によらない。 すなわち T=i=1NxiT=\displaystyle\sum_{i=1}^N x_i はこの統計モデルにおける十分統計量である。

イメージ

p(xN;θ)p(x^N;\theta) というモデルを TT を介して捉えると、 θ\theta が与えられてまず TTp(t;θ)p(t;\theta) (パラメータ θ\theta によって定まる確率分布)に従って分布し、その後 XNX^Np(xNt;θ)p(x^N|t;\theta) に従って分布しているという解釈になります。
この p(xNt;θ)p(x^N|t;\theta)θ\theta に寄らないということは、 θ\theta が直接影響するのは TT までであり、それより後に分布する XNX^N の情報は(TT がわかっているのなら) θ\theta の推定には不要であることを意味しています。
これが十分統計量のイメージです。

分解定理

ある統計量 TT が十分統計量かどうかを判断するために次の定理が存在します。

分解定理
X1,X2,,XNX_1,X_2,\cdots,X_N の同時確率分布 p(xN;θ)p(x^N;\theta)p(xN;θ)=g(xN)h(t(xN),θ)p(x^N;\theta)=g(x^N)h(t(x^N),\theta)の形に分解できることが、 T=t(XN)T=t(X^N) が十分統計量であることの必要十分条件である。
ただし、g(xN)g(x^N)θ\theta に依存しない xNx^Nの関数、h(t(xN),θ)h(t(x^N),\theta)t,θt,\theta の関数である。

分解定理を利用すると十分統計量かどうかが簡単に確認できます。

例2-1

正規分布 N(μ,1)N(\mu,1) において、 X=1Ni=1NXi\overline{X}=\dfrac{1}{N}\displaystyle\sum_{i=1}^N X_i が十分統計量であることを示す。

p(xN;μ)=i=1N12πexp((xiμ)22)=(12π)Nexp(12i=1N(xixˉ+xˉμ)2)=(12π)Nexp(12i=1N(xixˉ)2)exp(N2(xˉμ)2)\begin{align*} p(x^N;\mu)&=\prod_{i=1}^N \dfrac{1}{\sqrt{2\pi}}\exp\left(-\dfrac{(x_i-\mu)^2}{2}\right)\\ &=\left(\dfrac{1}{\sqrt{2\pi}}\right)^N \exp\left(-\dfrac12 \sum_{i=1}^N (x_i-\bar{x}+\bar{x}-\mu)^2\right)\\ &=\left(\dfrac{1}{\sqrt{2\pi}}\right)^N \exp\left(-\dfrac12 \sum_{i=1}^N (x_i-\bar{x})^2\right) \exp\left(-\dfrac{N}{2}(\bar{x}-\mu)^2\right) \end{align*}

ここで

g(xN)=(12π)Nexp(12i=1N(xixˉ)2)h(xˉ,μ)=exp(N2(xˉμ)2)\begin{align*} g(x^N)&=\left(\dfrac{1}{\sqrt{2\pi}}\right)^N \exp\left(-\dfrac12 \sum_{i=1}^N (x_i-\bar{x})^2\right) \\ h(\bar{x},\mu)&=\exp\left(-\dfrac{N}{2}(\bar{x}-\mu)^2\right) \end{align*}

とおけば p(xN;μ)=g(xN)h(xˉ,μ)p(x^N;\mu)=g(x^N)h(\bar{x},\mu) となるので、分解定理より X\overline{X} は十分統計量である。

例2-2

先ほどのコイン投げの例をもう一度考えてみる。

p(xN;θ)=i=1Nθxi(1θ)1xi=θt(1θ)Nt\begin{align*} p(x^N;\theta)&=\prod_{i=1}^N \theta^{x_i} (1-\theta)^{1-x_i}\\ &=\theta^{t} (1-\theta)^{N-t} \end{align*}

ここで

g(xN)=1h(t,θ)=θt(1θ)Nt\begin{align*} g(x^N)&=1\\ h(t,\theta)&=\theta^{t} (1-\theta)^{N-t} \end{align*}

とおけば p(xN;θ)=g(xN)h(t,θ)p(x^N;\theta)=g(x^N)h(t,\theta) となるので、分解定理より TT は十分統計量である。

このように簡単に十分統計量かどうかがわかります。

なお、十分統計量 TT やパラメータ θ\theta は多次元でも構いません。
正規分布 N(μ,σ)N(\mu,\sigma) における (T1,T2)=(X,1Ni=1N(XiX)2)(T_1,T_2)=\left(\overline{X},\dfrac1N\displaystyle\sum_{i=1}^N (X_i-\overline{X})^2\right) などがその例です。 (分解定理を利用する練習問題として示してみてください。)

今回のまとめ

  • 観測値を全て記録しておかなくても十分統計量がわかればパラメータの推定に十分である
  • ある統計量が十分統計量かどうかは分解定理を使うことで簡単に判別できる

参考
東京大学工学教程「確率・統計Ⅲ」, 駒木文保 清智也

BACK