十分統計量 (Sufficient Statistics) って何なのさ?

「十分統計量」、よく聞くけどいまいちよくわからない用語ですよね。
Wikipedia によれば、次のような場合、その統計量は十分統計量らしいです。(定義ではなくざっくりとした意味です)

no other statistic that can be calculated from the same sample provides any additional information as to the value of the parameter

パラメトリックな分布において、得られたサンプルからパラメータの値を推定する際に最も役立つ統計量といったところでしょうか。
(「そんなの知ってるよ!」って人にとって以下は価値のない内容です)

十分統計量について調べたことのある人なら日本語版の Wikipedia の説明を読んだことがあると思いますが、僕の理解力だと学生の頃読んでも今読んでも意味不明でした。(このエントリーを書き終えてから読むと理解できました)
英語版 Wikipedia を読んでようやくわかった気になったので自分なりに解説してみようと思います。

十分統計量の定義

簡単のため、パラメータ θ やサンプルは 1 次元(スカラー)という前提で表記します。1
あるパラメトリックな分布から独立に得られたサンプル x = [x1, …, xn]T の確率密度関数を P(X; θ) とする時、次の式が成り立つ場合に T(X) は十分統計量です。

P(\mathbf{X} = \mathbf{x}\| T(\mathbf{X} = \mathbf{x}) = t;\ \theta) = P(\mathbf{X} = \mathbf{x} \| T(\mathbf{X}=\mathbf{x}) = t)

X はサンプル(標本、確率変数の集合)であることに注意してください。

十分統計量の直観的な説明

例えば、分散が 1 で平均が未知の正規分布を考えると θ は平均に相当します。

まず、統計量 T(X) として x の総和を考えてみます。
そうすると、P(x | T(x) = t; θ) は平均 θ、分散 1 の正規分布においてサンプルの総和が t になる場合に限定した条件付き確率になります。P(x; θ) ではなく T(x) = t という条件があるのがポイントです。
ここで、平均 θ という情報を取り払ってみます。
そうすると、平均 θ に限らず分散 1 の様々な正規分布から大量のサンプルが抽出されることになりますが、総和が t になるサンプルは平均が θ 前後の正規分布からのものに絞られるはずです。その結果、総和が t という条件付き生起確率 P(x | T(x) = t) と、正規分布の平均が θ の場合に限定した条件付き生起確率 P(x | T(x) = t; θ) は等しくなりそうな気がします。
つまり、T(x) = t という条件さえあれば平均 θ の情報なしでサンプルの生起確率を求めることができるということです。

次に、統計量 T(X) として x の最大値を考えてみます。
そうすると、P(x | T(x) = t; θ) は平均 θ、分散 1 の正規分布においてサンプルの最大値が t になる場合に限定した条件付き確率になります。
総和の場合と同様に、平均の情報を取り払って分散 1 の様々な正規分布から大量のサンプルを抽出してみると、最大値が t になるサンプルを生成する正規分布の平均にはかなりのバラつきが出てきそうです。そうすると、最大値が t という条件付き生起確率 P(x | T(x) = t) と、正規分布の平均が θ の場合に限定した条件付き生起確率 P(x | T(x) = t; θ) は等しくなさそうな気がします。

少なくとも、正規分布において、「得られたサンプルからパラメータの値を推定する際に役立つ統計量」という観点では最大値よりも総和の方が優れているのは間違いないですよね。

十分統計量の見分け方

直観的には「これが十分統計量になりそう!」というのはわかるかもしれませんが、本当に十分統計量なのかは不安が残りますよね。
というわけで、ある統計量が十分統計量かどうかを見分けるのにフィッシャーの因子分解定理 (Fisher–Neyman factorization theorem) という便利な定理があるみたいです。
この定理を満たせばその統計量は十分統計量だし、十分統計量であれば必ずこの定理を満たします。

フィッシャーの因子分解定理は次のような定理です。

定理

サンプル x に対する確率密度関数 P(x; θ) (≡ fθ(x)) が次のように分解できる場合、T(x) は十分統計量である。

f_\theta(\mathbf{x}) = h(\mathbf{x}) g_\theta(T(\mathbf{x}))

つまり、確率密度関数がサンプル x に依存してパラメータに依存しない関数 h と、統計量 T(x) とパラメータ θ に依存してサンプルそのものには依存しない関数 g に分解できる場合に T(x) は十分統計量です。

「T(x) は十分統計量 => fθ(x) = h(x)gθ(T(x))」の証明

x と T(x) の同時確率を fθ(x, t) とおきます。
T(x) は x にのみ依存しているので、x が決まれば t も一意に決まります。よって、t = T(x) 以外のケースの同時確率は 0 になり、 t = T(x) の条件下では次の式が成り立ちます。

f_\theta(\mathbf{x}) = f_\theta(\mathbf{x},\ t) ・・・(1)

また、ベイズの定理より次のように分解できます。

f_\theta(\mathbf{x},\ t) = f_\theta(\mathbf{x}\| t) f_\theta(t)

ここで、T(x) は十分統計量なので、次の式が成り立ちます。

f_\theta(\mathbf{x}\|t) = f(\mathbf{x}\|t)

よって、

h(\mathbf{x}) \equiv f(\mathbf{x}\|t),\hspace{10} g_\theta(T(\mathbf{x})) \equiv f_\theta(t)

と定義することで、fθ(x) = h(x)gθ(T(x)) が成り立ちます。

「fθ(x) = h(x)gθ(T(x)) => T(x) は十分統計量」の証明

fθ(x) = h(x)gθ(T(x)) が成り立つ場合、

f_\theta(t) = \displaystyle{\sum_{\mathbf{x}:T(\mathbf{x}) = t}} f_\theta(\mathbf{x},\ t) = \displaystyle{\sum_{\mathbf{x}:T(\mathbf{x}) = t}} f_\theta(\mathbf{x})\hspace{30}  (∵ (1))
\hspace{37}= \displaystyle{\sum_{\mathbf{x}:T(\mathbf{x}) = t}} h(\mathbf{x})g_\theta(t)
\hspace{37}= g_\theta(t) \displaystyle{\sum_{\mathbf{x}:T(\mathbf{x}) = t}} h(\mathbf{x})

よって、t = T(x) という条件下において、

f_\theta(\mathbf{x}\|t) = \displaystyle \frac{f_\theta(\mathbf{x},\ t)}{f_\theta(t)} = \displaystyle \frac{f_\theta(\mathbf{x})}{f_\theta(t)}  (∵ (1))
\hspace{57}= \frac{g_\theta(t) h(\mathbf{x})}{g_\theta(t) \sum_{\mathbf{x}:T(\mathbf{x}) = t} h(\mathbf{x})}
\hspace{57}= \frac{h(\mathbf{x})}{\sum_{\mathbf{x}:T(\mathbf{x}) = t} h(\mathbf{x})}

したがって、右辺がパラメータ θ に依存しておらず

f_\theta(\mathbf{x}\|t) = f(\mathbf{x}\|t)

が成り立つので、T(x) は十分統計量と言えます。

ベルヌーイ分布を例に挙げてみます。
ベルヌーイ分布は確率変数 X が 0 か 1 を取る分布で、次のような確率関数で表されます。

P(x;\ \theta) = \theta^x(1-\theta)^{1- x}

よって、サンプル x = [x1, …, xn]T の生起確率は

P(\mathbf{x};\ \theta) = \displaystyle \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1- x_i} = \theta^{\textstyle\sum_{i=1}^nx_i}(1-\theta)^{n- \textstyle\sum_{i=1}^nx_i}
\hspace{53}= \theta^{T(\mathbf{x})} (1 - \theta) ^{n - T(\mathbf{x})}\hspace{30}\left(T(\mathbf{x}) \equiv \displaystyle\sum_{i=1}^n x_i\right)
\hspace{53}= h(\mathbf{x})g_\theta(T(\mathbf{x}))\hspace{30}\left(h(\mathbf{x}) \equiv 1,\hspace{10} g_\theta(T(\mathbf{x})) \equiv \theta^{T(\mathbf{x})} (1 - \theta) ^{n - T(\mathbf{x})}\right)

となり、x の総和がベルヌーイ分布の十分統計量になっていることがわかります。

十分統計量は何が嬉しいの?

十分統計量の情報さえ保持しておけば、最尤推定の解を求める際にサンプルデータ全ての情報を保持しておく必要がないということが挙げられます。
これについては PRML の 2.4.1 項「最尤推定と十分統計量」で触れられています。
他に何が嬉しいかはちょっとわからないですね・・・。

まとめ

「十分統計量って何なのさ?」という問いに対しては十分統計量の定義が全てを物語っていると思います。

P(\mathbf{X}\| T(\mathbf{X}) = t;\ \theta) = P(\mathbf{X} \| T(\mathbf{X}) = t)

「サンプルからある統計量が得られました。この統計量が得られる場合(この統計量が得られるという条件下で)、このサンプルの生起確率はいくらでしょうか?」という問いに答えるのにパラメータの情報が不要ということです。
つまり、その統計量がパラメータと同じぐらい価値のある情報を持っている統計量が十分統計量なのかなぁと思います。
ある正規分布から得られたサンプルの最大値がわかっていても、その正規分布に対する情報としては価値がないのです。

  1. 正規分布の場合、パラメータは平均値と分散の 2 次元ですね