Minimal Sufficiency and Completeness(최소충분성과 완비성)
주어진 family에 대하여 sufficient statistics는 하나만 존재하는 것은 아니다. 어떤 $T$가 sufficient라고 하면 어떤 아이의 함수로 $T$가 도출되는 모든 아이는 sufficient 하다. 즉, $T = g(\tilde{T})$를 만족하는 $\tilde{T}$도 sufficient하며, 이는 factorization theorme에서 금방 알 수 있다. 심지어 막말로, i.i.d.인 random sample $X_1, \cdots, X_n$에 대하여 $T = (X_{(1)}, X_{(2)}, \cdots, X_{(n)})$ 역시 sufficient 하다. 이러한 $T$는 그저 data를 sort크기 순 정렬한 것에 불과하며 아무런 축소가 없었다. 하지만 가끔은 이것이 최선인 sufficient statistics를 가지는 family가 등장하기도 한다. 아무튼, 뭔가 sufficient statistics 중에서도 가장 좋게 취급받는 statistics가 있을 법하다. 실제로 모든 다른 sufficient statistics를 적절히 함수를 취하면 이 sufficient statistics로 표현되게 되는 가장 축소된 statistics가 있으며, 이를 minimal sufficient statistics최소충분통계량라고 한다.
Minimal Sufficiency최소충분성
Definition 8.1 어떤 statistic $T$가 minimal sufficient하다는 것은, $T$가 sufficient하고 모든 sufficient statistic $\tilde{T}$에 대하여 $T = f(\tilde{T})$ (a.e. $\mathcal{P}$)인 $f$가 존재하다는 것이다. 이때, a.e. $\mathcal{P}$라는 의미는 각각의 $P\in\mathcal{P}$에 대하여 위의 equality등호가 null set 정도에서만 성립하지 않음을 의미한다.
명확한 의미 파악을 위해 다음 예를 살펴보자.
Example 8.2 Random sample $X_1, \cdots, X_{2n}$이 $N(\theta, 1),\,\theta\in\mathbb{R}$에서 i.i.d.로 추출되었다고 하자. $x = (x_1, \cdots, x_{2n})^T$에 대하여 이 data의 joint density는 다음과 같다.
\[p_{\theta}(x) = (2\pi)^{-n}\exp\left[-n\theta^2-2\theta\cdot\sum_{i=1}^{2n} x_i-\frac{1}{2}\sum_{i=1}^{2n} x_i^2\right]\]Factorization theorem에 의해 만약 $t = \sum_{i=1}^{2n} x_i$으로 잡는다면 $g_{\theta}(t) = \exp[-2\theta t - n\theta^2]$가 되므로 sufficient statistic $T = \sum_{i=1}^{2n} X_i$를 찾을 수 있다.
하지만 조금의 다른 관점으로 만약 $t_1 = \sum_{i=1}^n x_i$, $t_2 = \sum_{i=n+1}^{2n} x_i$으로 잡는다면 $g_{\theta}(t_1, t_2) = \exp[-2\theta(t_1+t_2)-n\theta^2]$이 되므로 $\tilde{T} = (\sum_{i=1}^n X_i \ \sum_{i=n+1}^{2n} X_i)^T$도 sufficient statistic임을 알 수 있다.
하지만 $\tilde{T}$는 minimal sufficient이진 않음을 알 수 있다. 이는 $t =(t_1, t_2)$에 대하여 $f(t) = t_1+t_2$으로 놓으면 $T = f(\tilde{T})$이기 때문이다. 직관적으로도 $\tilde{T}$는 좀 아닌 것 같지 않은가?
하지만 Example 8.2에서 여전히 의문으로 남는 것이 있다. 과연 $T = \sum_{i=1}^{2n} X_i$는 minimal sufficient한가? 어떤 주어진 sufficient statistic이 minimal하다는 것을 어떻게 알 수 있을까?
만약에 family $\mathcal{P}$가 dominated되어 있었다면, factorization theorem을 다루어보면서 우리는 항상 data의 joint density $p_{\theta}(X)$를 구하려고 했었다. 이렇게 많이 봐왔던 $p_{\theta}(X)$는 사실 주요한 역할을 하는 함수이다. 이 함수를 data $X$에 대한 함수로 바라보지 말고 $\theta$에 대한 함수로 한 번 바라보아라. 우리는 늘 true value $\theta$에 대해 관심이 있었다. 그렇기에 그 true value $\theta_0$를 알고 있다고 하고 거기서 우리가 관측한 data $x$를 대입한 $p_{\theta_0}(x)$는 댜른 $\theta$를 잡아두고 관측한 data $x$를 대입한 $p_{\theta}(x)$보다 클 것이라고 생각할 수 있다. 그 이유는 $x$라는 데이터는 true value $\theta_0$에서 추출된 data이므로 그 true value에서 생각한 density와 가장 matching이 잘 될 것이라고 판단할 수 있기 때문이다. 이러한 면에서 $p_{\theta}(X)$는 $\theta$의 값에 따라 $X$라는 data를 얼마나 잘 나타내는지 보여준다고 하여 likelihood가능도라고 한다. 그리고 이 특성을 가장 잘 보여주는 $\theta$에 대해서는 $p_{\theta}(X)$의 값이 가장 크다고 생각하는 것이며, 이 떄의 $\theta$를 true value를 estimate한 값으로 활용하는 것이 바로 나중에 다룰 maximum likelihood estimator(MLE)최대가능도추정량이라고 하는 것이다.
위의 설명이 이해가 되었다면 $p_{\theta}(X)$가 data의 정보를 나타냄을 인지할 수 있다. Sufficient statistic도 data의 정보를 포함하고 있으며, factorization theorem에 의해 likelihood function의 모양을 충분히 결정지을 수 있는 statistic임을 알고 있다. 만약 sufficient statistic가 minimal하다면 likelihood shape를 유일하게 결정지을 수 있다고 직관적으로 받아들일 수 있다. 두 개의 likelihood가 shape이 동일하다는 것은 결국 likelihood를 식으로 표현했을 때 서로 비례할 때다.
Theorem 8.3 $\mathcal{P} = \{P_{\theta}: \theta\in\Omega\}$가 dominated되어 있고 density $p_{\theta} = g_{\theta}(T(x))h(x)$를 가지고 있다고 하자. 두 data $x$와 $y$에 대하여 만약 $p_{\theta}(x)\propto_{\theta}p_{\theta}(y)$가 $T(x) = T(y)$를 의미한다면, $T$는 minimal sufficient하다.
Proof: 제대로 된 증명은 factorization theorem이 증명된 후에 할 수 있다. Minimal sufficient statistic 자체가 존재하려면 topological sense에서 약간의 regularity가 필요하지만 여기서는 일단 넘어가고자 한다. Euclidean space에서는 $P_{\theta}$ 아래의 random variable이 완전히 discrete하거나 continuous하다면 minimal sufficiency를 만족하는 statistic은 무조건 존재한다.
Factorization theorem이 증명된 이후 대략적인 아이디어는 다음과 같다. $\tilde{T}$가 sufficient하다고 가정하면, $p_{\theta}(x) = \tilde{g}_{\theta}(\tilde{T}(x))\tilde{h}(x)$가 성립한다. 만약 $T$가 $\tilde{T}$에 대한 함수가 아니라면, 어떤 두 data $x$와 $y$가 존재하여 $\tilde{T}(x) = \tilde{T}(y)$이지만 $T(x)\ne T(y)$일 수 있을 것이다. 하지만 이 경우,
\[p_{\theta}(x)=\tilde{g}_{\theta}(\tilde{T}(x))\tilde{h}(x)\propto_{\theta} \tilde{g}_{\theta}(\tilde{T}(y))\tilde h(y) = p_{\theta}(y)\]이므로 명제 가정에 따라 $T(x) = T(y)$가 되어 모순이다. $\tilde{T}$는 임의의 sufficient statistic이었고, $T$는 이들의 함수로 표현됨에 따라 $T$는 minimal임이 증명된다.
이전에 다루었던 exponential family에 대해서는 minimal sufficient statistic을 생각 외로 정말 쉽게 찾을 수 있다. 다음 예를 살펴보자.
Example 8.4 $\mathcal{P}$가 $s$-parameter exponential family라고 하고 다음 density를 가진다고 하자.
\[p_{\theta}(x) = \exp[\eta(\theta)\cdot T(x) - B(\theta)]h(x), \quad \theta\in\Omega\]Factorization theorem에 의해 $T$가 sufficient함을 한 번에 알 수 있다. 이제 두 data $x$와 $y$에 대하여 $p_{\theta}(x)\propto_{\theta} p_{\theta}(y)$를 가정하자. 그러면,
\[\exp[\eta(\theta)\cdot T(x)]\propto_{\theta}\exp[\eta(\theta)\cdot T(y)]\]혹은 $\theta$ 대한 constant $c$에 대하여($c$는 그러므로 충분히 $x$와 $y$에 관한 식일 수는 있다)
\[\eta(\theta)\cdot T(x) = \eta(\theta)\cdot T(y) +c\]이다. 임의의 $\theta_0, \theta_1 \in\Omega$에 대하여
\[[\eta(\theta_0) - \eta(\theta_1)]\cdot T(x) = [\eta(\theta_0) - \eta(\theta_1)]\cdot T(y) = c\]혹은
\[[\eta(\theta_0)-\eta(\theta_1)]\cdot [T(x) - T(y)] = 0\]이다. 이를 다시 생각하면 $T(x) - T(y)$는 다음 space 내에 있는 모든 vector와 orthogonal직교하다는 의미이다.
\[\eta(\Omega) \ominus \eta(\Omega) := \{\eta(\theta_0) - \eta(\theta_1): \theta_0\in\Omega, \theta_1\in\Omega\}\]만약에 $\eta(\Omega)\ominus\eta(\Omega)$가 $\mathbb{R}^s$ 전체를 span한국어로 뭘까~요한다면 orthogonal complement직교 여공간인 $T(x) - T(y)$는 더이상 물러설 곳이 없다. 차원이 0이 되므로 결국 zero vector만 포함하는 space가 되므로 그냥 $T(x) = T(y)$이다. 따라서 Theorem 8.3에 의해 $T$는 minimal sufficient가 된다.
그러므로 exponential family에서는 $\eta(\Omega)\ominus\eta(\Omega)$가 exponential parameter 차원만큼 span하게 된다면 $T$는 minimal sufficient가 된다.
Example 8.5 $X_1, \cdots, $X_n$이 i.i.d. absolutely continuous variables라고 하고 다음의 동일한 density를 갖는다고 하자.
\[f_{\theta}(x) = \frac{1}{2} e^{-\vert x- \theta\vert}\]그러면 data $X$의 joint density는
\[p_{\theta}(x) = 2^{-n}\exp\left[-\sum_{i=1}^n\vert x_i-\theta\vert\right]\]Factorization theorem에 의해 $T = (X_{(1)}, X_{(2)}, \cdots, X_{(n)})^T$는 sufficient하다(물론 order statistics순서 통계량 vector가 sufficient가 아니긴 상당히 힘든 일이긴 하다…).
이제 두 data $x$와 $y$에 대하여 $p_{\theta}(x)\propto p_{\theta}(y)$를 가정하면 $\sum_i \vert x_i-\theta\vert $와 $\sum_i \vert y_i-\theta\vert $의 차이가 $\theta$에 대한 constant일 것이다. 두 식 모두 linear function일차 함수를 이어붙인 것이고, $\theta$의 값을 작은 것부터 점점 키울 때 각 order statistic $x_{(i)}$ 혹은 $y_{(i)}$를 지날 때마다 각 그래프는 기울기가 2씩 증가하는 모양을 가지고 있다. 이러한 구조에도 둘의 차이가 $\theta$에 무관한 constant이려면 이 꺾이는 지점이 동일해야 한다. 즉, $x$와 $y$의 order statistics는 동일해야 한다. 따라서 $T(x) = T(y)$이고, $T$는 minimal sufficient하다.
겨우 order statistics의 모음이 minimal 하다는 건 더이상 정보를 온전히 전달하는 간단한 statistic을 찾지 못한다는 의미이기도 하므로 상당히 슬픈 상황이다…
Completeness 완비성
Statistics들에 대해서 completeness는 sufficiency를 조금 더 보완하여 minimal sufficiency의 sufficient condition충분 조건을 제공해주는 technical한 정의이다. 통계적으로 가지는 의미가 그렇게 크겠냐마는 complete 조건을 만족하는 모든 sufficient statistics는 minimal sufficient임이 알려져 있기에 활용도는 꽤 있는 편이다.
정의부터 살펴보자.
Definition 8.6 Statistic $T$가 family $\mathcal{P} = \{P_{\theta}:\theta\in\Omega\}$ 에 대하여 complete하다는 것은
\[E_{\theta} f(T) = c, \quad \text{for all } \theta\]가 $f(T) =c$ (a.e. $\mathcal{P}$)를 의미하는 것이다.
위의 정의에서 사실 편의상 $c = 0$으로 잡아도 아무런 상관 없다. Completeness를 이용하면 minimal sufficent statistic을 얼마나 더 편하게 찾을 수 있는지 다음 예를 보면서 살펴보자.
Example 8.7 만약 $X_1, \cdots, X_n$이 i.i.d. random sample이고 $\mathcal{U}(0, \theta)$로부터 추출되었다고 하자. 이 data의 joint density는
\[p_{\theta}(x) = 1_{(0, \infty)}(\min_i x_i) \cdot 1_{(-\infty, \theta)}(\max_i x_i)\]이다. 그러므로 $T = \max_i X_i$는 factorization theorem에 의해 sufficient하다. $T$의 density를 직접 구해보자. CDF를 활용하면,
\[\begin{align*} F_T(t) &= P_{\theta}(T\le t) = P_{\theta}(X_1\le t, \cdots, X_n\le t) \\ &= P_{\theta}(X_1\le t)\times\cdots\times P_{\theta}(X_n\le t) \\ &= (t/\theta)^n \end{align*}\]이므로 미분하면,
\[f_T(t) = \frac{nt^{n-1}}{\theta^n}, \quad t\in(0, \theta)\]이다. 이제 모든 $\theta>0$에 대하여 $E_{\theta}f(T) = 0$을 가정하자. 그러면
\[E_{\theta}f(T) = \frac{n}{\theta^n}\int_0^{\theta} f(t)\cdot t^{m-1}\,dt = 0, \quad \forall \theta\]Lebesgue intergal 성질에 의하여
\[f(t)\cdot t^{n-1} = 0, \quad \text{a.e. } t>0\]라고 할 수 있으므로 $f(T) =0$이다. 따라서 $T$는 complete하다.
이제 completeness가 제공하는 주요 역할을 소개해보고자 한다.
Theorem 8.8 만약 $T$가 complete하고 sufficient하면, $T$는 minimal sufficient하다.
Proof: $\tilde{T}$가 minimal sufficient statistic이라고 하고, $T$와 $\tilde{T}$가 모두 bounded random variable 이라고 하자(expectation이 잘 정의되기 위해). Minimal sufficiency property성질에 따라 어떤 함수 $f$에 대하여 $\tilde{T} = f(T)$이다.
이제 $g(\tilde{T}) = E_{\theta}[T\vert \tilde{T}]$를 정의하자. Sufficient한 $\tilde{T}$를 conditioning했으므로 $g(\tilde{T})$는 $\theta$와 무관하다. Smoothing에 의해
\[\begin{align*} E_{\theta}g(\tilde{T}) &= E_{\theta}T, \quad\forall \theta \\ E_{\theta}[T - g(\tilde{T})] &= 0, \quad\forall\theta \end{align*}\]여기서 $T - g(\tilde{T}) = T - g(f(T))$는 $T$에 관한 식이므로 $T$의 completeness에 의해
\[T - g(\tilde{T}) = T - g(f(T)) = 0, \quad \text{a.e. } \mathcal{P}\]이는 곧 $T$와 $\tilde{T}$의 one-to-one일대일 관계를 나타낸다. Minimal sufficiency의 정의에 따라 $T$도 minimal sufficient할 수밖에 없다.
Sufficiency와 completeness 모두 one-to-one 관계에 대해서는 그 성질이 그대로 유지된다. 따라서 one-to-one 관계에 놓여있는 두 statistics는 equivalent한 관계에 있다고 할 수 있다. One-to-one 관계는 차원을 옮겨다닐 수도 있는데, $\mathbb{R}^s$와 $\mathbb{R}$ 사이에서도 충분히 one-to-one 관계를 만들어낼 수 있기 때문이다. 그러므로 위 증명에서 두 random vector에 대해 다룰 때도 이를 1차원의 random variable로 one-to-one corresponding일대일 대응을 하여 같은 논리를 펼칠 수 있다.
우리는 다시 exponential family에 대해서 completeness를 다루어볼 것이다. Example 8.4에 이어서, 우리는 다음의 특별한 구조를 가지는 exponential family에 대해 특별한 이름을 붙여주고자 한다.
Definition 8.9 다음의 density 형태를 가지는 exponential family를 고려하자.
\[p_{\theta}(x) = \exp\{\eta(\theta)\cdot T(x) - B(\theta)\}h(x), \quad \theta\in\Omega\]이 family가 full rank한국어표현모름이라고 불릴 조건은 다음과 같다.
- $\eta(\Omega)$의 interior가 비어있지 않다.
- $T_1, \cdots, T_s$가 $v\cdot T = c$ (a.e. $\mu$) 형태의 linear선형 constraint제약을 만족하지 않는다.
1번 조건은 더 nice한데, 만약 $\eta$가 continuous하고 injective(=one-to-one)하면, $\Omega$의 interior가 비어있지 않기만 해도 invariance of domain 정리에 의하여 1번 조건이 성립한다. 이와 더 관련한 것은 topology위상수학을 조금 더 공부하면 알 수 있다.
만약 $\eta(\Omega)$의 interior가 비어있지 않으면, $\eta(\Omega)\ominus\eta(\Omega)$가 span하는 공간은 $\mathbb{R}^s$ 전체가 됨을 알 수 있다. 따라서 Example 8.4에 의하여 $T$는 minimal sufficient가 된다. 사실 exponential family가 full rank이면 $T$가 complete까지 됨이 알려져 있다. 증명은 너무 어려워 생략하지만, Lehman(1986)의 굉장히 유명한 저서 Testing Statistical Hypothesis 142면에 나와있다.
우리는 이제 sufficient statistic하고는 느낌이 반대인 statistic 하나를 정의할 것이다.
Definition 8.10 Statistic $V$가 ancillary하다고 불릴 조건은 $V$의 distribution이 $\theta$에 전혀 연관되지 않는 것이다. 즉, $V$는 $\theta$에 관하여 아무런 정보를 제공하지 않는다.
Ancillary statistic $V$는 sufficient statistic $T$와는 다르게 $\theta$에 대해 그 어느 유용한 정보도 제공하지 못한다. 하지만, $V$는 충분히 $T$에 대한 함수일 수는 있다. 가령, Example 8.5에서 놀랍게도 두 order statistics의 차 $X_{(i)} - X_{(j)}$는 ancillary하다. 이러한 면에서 sufficient statistic $T$은 물론 $\theta$의 정보를 축약해서 전달해주지만 ancillary 정보를 일부 포함할 수 있음을 알 수 있다. Basu는 그럼에도 $T$가 sufficient하면서 complete하면 $T$는 그 어느 ancillary한 정보를 포함하고 있지 않음을 증명하였다.
Theorem 8.11 (Basu) 만약 $T$가 $\mathcal{P} = \{P_{\theta}: \theta\in\Omega\}$에 대하여 sufficient하고 complete한 반면에 $V$는 ancillary할 때, 모든 $\theta\in\Omega$에 대히여 $T$와 $V$는 $P_{\theta}$ 아래에서 independent하다.
Proof: $q_A(t) = P_{\theta}(V\in A\vert T = t)$라고 하자. $T$는 sufficient 하므로 $q_A(t)$는 $\theta$와 관련이 없고, $q_A(T) = P_{\theta}(V\in A\vert T)$라고 할 수 있다.
이제 $p_A = P_{\theta}(V\in A)$라고 하자. $V$는 ancillary하기 때문에 $p_A$ 역시 $\theta$와 관련 없다. 한편, smooting에 의해
\[p_A = P_{\theta}(V\in A) = E_{\theta}P_{\theta}(V\in A\vert T) = E_{\theta}q_A(T)\]$T$는 complete하다고 했으므로 위의 관계에서 결국 $q_A(T) = p_A$ (a.e. $\mathcal{P}$)임을 알 수 있다. 따라서
\[P_{\theta}(V \in A\vert T) = P_{\theta}(V\in A)\]이고, 곧 $T\perp V$이다.
이제 이를 활용한 예시를 몇 개 살펴보자.
Example 8.12 Random sample $X_1, \cdots X_n$이 i.i.d. 이고 $N(\mu, \sigma^2)$에서 추출되었다고 하자. 또한, $\mathcal{P}=\mathcal{P}_{\sigma}=\{N(\mu, \sigma^2)^n:\mu\in\mathbb{R}\}$이라고 하자. 즉, $\mathcal{P}_{\sigma}$는 standart deviation이 $\sigma$로 고정된 normal distribution의 family인 셈이다. 그러므로 $\mathcal{P}_{\sigma}$ 아래에서의 parameter는 $\mu$뿐이다.
이 data의 joint density는 다음과 같이 나타낼 수 있다. $\overline{x} = (x_1+\cdots+x_n)/n$이라고 두면:
\[p_{\mu; \sigma}(x)=(2\pi\sigma^2)^{-n/2}\exp\left[\frac{n\mu}{\sigma^2}\overline{x} - \frac{n\mu^2}{2\sigma^2}-\frac{1}{2\sigma^2}\sum_{i=1}^n x_i^2\right]\]이 exponential family는 full rank이다. 그러므로 $T = \overline{X}$는 $\mathcal{P}_{\sigma}$에 대하여 complete sufficient함을 알 수 있다.
이제 $Y_i \overset{\text{i.i.d.}}{\sim} N(0, \sigma^2)$를 고려하자. 그러면 $X_i -\overline{X} = Y_i - \overline{Y}$이므로 다음을 알 수 있다.
\[S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 = \frac{1}{n-1}\sum_{i=1}^n (Y_i-\overline{Y})^2\]그러므로 $S^2$은 $\mu$와 관계없음을 $Y_i$로 표현된 식에서 알 수 있다. 즉, $S^2$은 $\mathcal{P}_{\sigma}$ 아래에서 ancillary이다. 따라서 Basu theorem에 의해 $\overline{X}\perp S^2$이다.
Example 8.13 $Z_1, \cdots, Z_n$은 standard noraml에서 추출된 i.i.d. sample이라고 하고 $Z = (Z_1\ Z_2\ \cdots Z_n)^T$라고 하자. 우리는 $Z$의 2-norm $\Vert Z\Vert$와 $Z_1/\Vert Z\Vert$가 independent함을 보일 것이다.
먼저 우리는 적절한 parameter가 있는 distribution의 sample를 하나 잡은 후, 이를 $Z_i$와 관련지어 볼 것이다. $Y_i$를 $N(0, \sigma^2)$에서 추출된 i.i.d. sample이라고 하고 $Y = (Y_1\ Y_2\ \cdots Y_n)^T$라고 하자. 이 data의 joint density는
\[p_{\sigma^2}(y) = (2\pi\sigma^2)^{-n/2}\exp\left[-\frac{1}{2\sigma^2}\sum_{i=1}^n y_i^2\right]\]이다. 이 exponential family는 full rank이므로($s = 1$인 경우라서 $T_i$들끼리의 선형 관계가 없으며, $\eta{\Omega} = (-\infty, 0)$의 interior가 존재한다) $T = \sum_{i=1}^n Y_i^2$는 sufficient이고 complete하다. 또, $f(y) = \sqrt{y}\, (y>0)$는 one-to-one이므로 $\Vert Y\Vert = f(T) = \sqrt{\sum_{i=1}^n Y_i^2}$ 역시 sufficient이고 complete하다. 한편, $Y_i = \sigma X_i$이므로
\[\frac{Y_1}{\Vert Y\Vert} = \frac{Z_1}{\Vert Z\Vert}\]이기에 $Y_1/\Vert Y\Vert$은 $\sigma^2$와 관계 없다. 따라서 Basu theorem에 의하여
\[\sigma\Vert X\Vert = \Vert Y\Vert \perp \frac{Y_1}{\Vert Y\Vert}=\frac{X_1}{\Vert X\Vert}\]이므로 증명이 되었다.
다음 편에서는 sufficient statistic $T$를 이용하여 $g(\theta)$를 estimate 할 수 있는 estimator를 만들어본다. 또한, 그렇게 만든 estimator가 꽤 좋은 아이임을 보여주는 Rao-Blackwell theorem에 대해서 같이 살펴본다.