Post

Factorization Theorem(분해 정리)

이번 글에서는 sufficient statistics를 쉽게 찾을 있도록 하는 획기적인 정리인 factorization theorem에 대해 다룰 것이다. 만약에 우리가 설정한 model $\mathcal{P}$가 모두 density를 가지고 있다면 우리는 이 theorem을 통해 sufficient statistics를 금방 찾아낼 수 있다.



Factorization Theorem분해 정리

먼저 고려하고 있는 model, 혹은 다른 말로 distribution의 family에 속한 각 distribution이 density를 가지려면 모든 distribution에게 통하는 measure가 필요하다. 이러한 의미에서 우리는 다음을 정의한다.


Definition 7.1 Distribution의 family $\mathcal{P}=\{ P_{\theta}: \theta\in\Omega\}$가 dominated되어 있다는 의미는 모든 $\theta$에 대하여 $P_{\theta}\ll\mu$인 measure $\mu$가 있다는 것이다.


우리는 factorization theorem을 알아볼 준비를 모두 마쳤다.


Theorem 7.2 (Factorization Theorem) $\mathcal{P}=\{ P_{\theta}: \theta\in\Omega\}$가 $\mu$에 dominated 되어 있는 distribution들의 family라고 하자. $T$가 sufficient할 equivalent 조건은 $g_{\theta}\ge 0$와 $h\ge 0$가 존재하여 family의 density $p_{\theta}$가 다음을 만족하는 것이다.

\[p_{\theta}(x) = g_{\theta}(T(x))h(x), \quad \text{for a.e. $x$ under $\mu$}\]


이 theorem의 증명은 conditional distribution을 본격적으로 정의한 후에 해볼 것이다. 이 theorem이 상당히 매력적인 부분은 density가 $T$에 관한 식과 아닌 식으로 factorize할 수 있다는 조건이 그저 sufficient condition충분 조건이 아니고 equivalent 조건이라는 것이다. 그리고 $g$와 $h$ 증에서 $\theta$와 dependent 한 것은 오직 $g$임을 주목하라. 따라서 $T$만이 $\theta$와 관련된 정보를 모두 가지고 있고, $h$는 $\theta$와 무관한 항이 된다.


Example 7.3 $X_1, \cdots, X_n$이 i.i.d. abosolutely continuous random variable이라고 하고, 이들은 다음과 같은 동일한 density를 가진다고 하자.

\[f_{\theta}(x) = \begin{cases} (\theta+1)x^{\theta}, & x\in (0, 1) \\ 0, & \text{otherwise} \end{cases}\]

이때 parametric space는 $\Omega = (-1, \infty)$이다. 그러면 data의 density는 각각 sample의 density를 모두 곱한 것이 되므로

\[p_{\theta}(x) = \prod_{i=1}^n f_\theta(x_i) = \prod_{i=1}^n (\theta+1)x_i^{\theta} = (\theta+1)^n \left(\prod_{i=1}^n x_i\right)^{\theta}, \quad x\in(0, 1)^n\]

이고 나머지 $x$에 대해선 $p_{\theta}(x) = 0$이다. 그러면

\[\begin{align*} g_{\theta}(t) &= (\theta+1)^n t^{\theta}\\ h(x) &= 1_{(0, 1)^n}(x) \end{align*}\]

으로 factorize가 되고 $T = \prod_{i=1}^n X_i$가 sufficient statistic이 된다. 여기서 유의할 점은 density가 domain의 제한이 있을 때, 위의 $h$처럼 주로 indicator function을 활용하여 범위를 제한시키는 방법은 하주 흔알 일이다.


Example 7.4 $X_1, \cdots, X_n$은 $\mathcal{U}(\theta, \theta+1)$에서 i.i.d.로 추출된 random sample이라고 하자. 그러면 각각은 density를 다음과 같이 공통으로 갖는다.

\[f_{\theta}(x) = \begin{cases} 1, & x\in (\theta, \theta+1) \\ 0, & \text{otherwise} \end{cases}\]

따라서 data 전체의 joint density는 다음과 같다.

\[p_{\theta}(x) = \prod_{i=1}^n 1_{(\theta, \theta+1)}(x_i) = \begin{cases} 1, & \max_i x_i <\theta+1,\, \theta < \min_i x_i \\ 0, & \text{otherwise} \end{cases} = 1_{(\theta,\, \infty)}(\min_i x_i) \cdot 1_{(-\infty,\, \theta+1)}(\max_i x_i)\]

Factorization theorem에 의해 $T = (\min_i X_i, \max_i X_i) = (X_{(1)}, X_{(n)})$은 sufficient하다.


위의 Example 7.4처럼, domain을 잘 따져가면서 joint density를 구해야 정확하게 factorization theorem을 활용할 수 있다. 특히, domain에 $\theta$가 연루된 경우가 그러하다. 이 경우, 가장 작은 개수의 indicator function을 활용하여 sufficient statistics를 찾으면 된다.

주어진 family에 대하여 sufficient statistics는 하나만 존재하는 것은 아니다. 어떤 $T$가 sufficient라고 하면 어떤 아이의 함수로 $T$가 도출되는 모든 아이는 sufficient 하다. 즉, $T = g(\tilde{T})$를 만족하는 $\tilde{T}$도 sufficient하며, 이는 factorization theorme에서 금방 알 수 있다. 심지어 막말로, i.i.d.인 random sample $X_1, \cdots, X_n$에 대하여 $T = (X_{(1)}, X_{(2)}, \cdots, X_{(n)})$ 역시 sufficient 하다. 이러한 $T$는 그저 data를 sort크기 순 정렬한 것에 불과하며 아무런 축소가 없었다. 하지만 가끔은 이것이 최선인 sufficient statistics를 가지는 family가 등장하기도 한다. 아무튼, 뭔가 sufficient statistics 중에서도 가장 좋게 취급받는 statistics가 있을 법하다. 실제로 모든 다른 sufficient statistics가 이 sufficient statistics로 표현되는 최소 단위의 statistics가 있으며, 이를 minimal sufficient statistics최소충분통계량라고 한다.




이 minimal sufficient statistics를 수학적으로 정의하고, 찾는 기본적인 tool에 대해서는 다음 편에서 일괄적으로 다루기로 한다.

This post is licensed under CC BY 4.0 by the author.