Conditional Expectation and Sufficient Statistics in Measure Theoretic Aspects
Paul R. Halmos, L. J. Savage (1949). Application of the Radon-Nikodym Theorem to the Theory of Sufficient Statistics. Institute of Mathematical Statistics. The Annals of Mathematical Statistics, Vol. 20, No. 2 (1949). pp. 225-241.
E. L. Lehmann, Joseph P. Romano (2005). Testing Statistical Hypothesis, 3ed. Springer.
Sufficient statistics는 생각보다 놀랍도록 conditional expectation의 정립과정과 그 흐름을 함께한다. 그 둘을 연계하는 중요한 개념이 subfield인데, conditional expectation은 subfield로부터 일반적으로 유도되는 개념이다. 다만, subfield가 만약 (첫 번째 논문리뷰에서 설명했던 것처럼) 특별하게 구성되어 전체 sample space에서 parameter에 대한 구분이 충분히 가능하도록 필요한 event만 남겨둘 때, 이러한 subfield를 유도하는 통계량을 sufficient statistics라고 하기로 했다. 그러므로 우선은 conditional expectation을 measure-theoretic 관점에서 엄밀하게 정의한 후, 이를 기반으로 sufficient statistics를 정립하는 것이 필요하다. 이러한 과정을 통해 마냥 추상적으로만 받아들였던 factorization criterion의 진정한 의미를 찾을 수 있다.
나아가 다음 편에서는 subfield이 기능하는 것을 보다 직관적으로 알 수 있다. 여기서는 함수의 관점으로 conditional expectation을 정의하고 sufficient statistics를 해석하지만, 다음편에서는 subfield에서 이를 재정의함으로써 또 다른 시각에서 바라보려고 시도할 것이다. 이 관점을 활용하면 일반적으로 iid한 상황을 넘어서는 더 일반적인 경우에 대해서(각 trial이 서로에게 영향을 주는… 대표적인 것이 sequential experiement이다) 확장이 용이하다.
1. A Subfield Induced by a Statistic
Statistics는 일종의 measurable transformation으로 볼 수 있다.
- the sample space $(\mathcal{X}, \mathcal{A})$
- 어떤 measurable space $(\mathcal{T}, \mathcal{B})$
- statistic $T: (\mathcal{X}, \mathcal{A})\to(\mathcal{T}, \mathcal{B})$
이러한 transformation를 통해 다시 $\mathcal{A}$의 subfield(엄밀하게 말하면 sub-$\sigma$-field)를 생각할 수 있는데, inverse domain을 통해서다.
\(\mathcal{A}_0=T^{-1}(\mathcal{B})=\{T^{-1}(B): B\in\mathcal{B}\}\) Subfield가 생성되는 이유는 $T$가 굳이 1:1로 설정되진 않는다는 점에서 $\mathcal{A}_0$가 $\mathcal{A}$의 proper subset으로 유도되기 때문이다.
만약 $\mathcal{T}=T(\mathcal{X})$, 즉 $T$가 onto $\mathcal{T}$였다면
\(T[T^{-1}(B)]=B \quad \text{for all} \quad B\in\mathcal{B}\) 이므로 $A_0=T^{-1}(B)\mapsto B$의 mapping을 통해 $\mathcal{A}_0$와 $\mathcal{B}$ 사이의 1:1-correspondence 관계를 만들 수 있다. 달리 말하여 $T^{-1}(B)\mapsto B$ mapping은 isomorphism이므로 교집합, 합집합, 차집합의 연산을 모두 보존시킨다. 그러므로 이 경우, $(\mathcal{X}, \mathcal{A}_0)$에서 작업하나 $(\mathcal{T}, \mathcal{B})$에서 작업하나 큰 차이가 없다.
$T$가 into $\mathcal{T}$로 형성되었다고 하자. 그럼 위에서 제시한 1:1-correspondence는 $\mathcal{T}’=T(\mathcal{X})$의 부분집합을 모아둔 $\mathcal{B’}$에 적용될 것이다. 하지만 또 생각해보면 $B\in\mathcal{B}$로 생각하나 $B’\in\mathcal{B’}$으로 생각하나 큰 차이가 없는 것이 $B’=B\cap \mathcal{T’}$의 관계 탓에, sample space $(\mathcal{X}, \mathcal{A})$위에서 정의된 measure는 $B$나 $B’$나 똑같은 값을 부여할 것이다. 이러한 면에서 우리는 $\mathcal{A_0}$와 $\mathcal{B}$가 여전히 equivalent하다고 취급할 수 있는데, 다만 유일한 다른 점은 $\mathcal{B’}$과 달리 $\mathcal{B}$는 한 사건 $A\in \mathcal{A}$에 대하여 여러 다른(그렇지만 equivalent한) 표현을 가지고 있을 뿐이다.
Example 1.1 다음을 고려하자.
- $\mathcal{X}=\mathbb{R}$,
- $\mathcal{A}=\,$the class of Borel sets of $\mathcal{X}$,
- a statistic $T(x)=x^2$, and
- $\mathcal{T}=\,$ either $\mathbb{R}^+$ or $\mathbb{R}$
$T$로부터 유도되는 subfield $\mathcal{A}_0$는 원점을 기준으로 대칭인 Borel set들을 모아놓은 class이다.
- $\mathcal{T}$-space 위에서 다룬다면 $t=x^2$에 대해 measurable한 함수를 기반으로 할 것이다.
- $\mathcal{X}$-space 위에서 다룬다면, 원점에 대해서 대칭인 집합들의 class에서 measurable한 함수를 기반으로 할 것이다. 이는 곧 even measurable function이다.
그러므로 결국 어느 space에서 작업하는지는 큰 차이가 없다. 하지만 Bahadur(1954)는 $\mathcal{X}$-space를 기반으로 하여 $T$로부터 형성되는 $\mathcal{X}$ 위의 subfield에 집중하는 것이 sufficient statistics를 다룰 때 여러모로 편하다고 주장한 바 있다. 이번 장은 그의 subfield을 중심으로 한 직관을 바탕으로 sufficient statistics의 개념을 개괄하는 것을 목표로 한다.
이제 두 space 간의 직접적인 연결을 보여주는 보조정리 몇 개를 살펴본다. 이때 $fg(x)=f[g(x)]$를 의미한다.
Lemma 1.2
- statistic $T:(\mathcal{X}, \mathcal{A})\to(\mathcal{T}, \mathcal{B})$
- $\mathcal{A}_0$: a subfield induced by $T$
- $f$: $\mathcal{A}$-measurable function
$f$: $\mathcal{A}_0$-measurable $\Leftrightarrow$ $\exists g$: $\mathcal{B}$-measurable with $f=gT$
Lemma 1.3
\[\int_{T^{-1}(B)} gT(x)\,d\mu(x) = \int_B g(t)\, d\mu T^{-1}(t), \quad B\in \mathcal{B}\]
- statistic $T: (\mathcal{X}, \mathcal{A})\to (\mathcal{T}, \mathcal{B})$
- $\mu$: $\sigma$-finite measure over $(\mathcal{X}, \mathcal{A})$
- $g$: real-valued measurable function of $t$
2. Conditional Expectation and Probability
Subfield를 기반으로 Radon-Nikodym theorem을 통해 우리는 conditional expectation의 정의를 이끌어낼 수 있다. 하지만 이 정의는 우리가 기존에 알고 있던 conditional expectation의 개념과는 약간의 이질감이 느껴질 수 있다. 때문에 많은 경우에서는 subfield보다는 $\mathcal{T}$-space 위에서 작업하는 것이 편할 때도 있다. 그럼에도 불구하고 subfield 위에서 개념을 전개함으로써 얻는 이점도 충분히 많은데, 이는 sufficient statistics를 소개할 때 함께 소개하려 한다.
기본으로 세팅되는 환경은 다음과 같다.
- $P$: a probability measure over $(\mathcal{X}, \mathcal{A})$
- $T$: a statistic $(\mathcal{X}, \mathcal{A})\to(\mathcal{T}, \mathcal{B})$
- $\mathcal{A}_0$: the subfield of $\mathcal{A}$ induced by $T$
- $f$: $(A, P)$-integrable(즉, $\mathcal{A}$-measurable, $P$-integrable)
먼저 Radon-Nikodym theorem에 의하여 $(\mathcal{A}_0, P)$-integrable한 함수 $f_0$가 있다. 그리고 이 $f_0$는 유일하다$(\mathcal{A}_0, P)$.
\[\int_{A_0} f\,dP = \int_{A_0} f_0\,dP, \quad A_0\in\mathcal{A}_0\]언뜻 보기엔 똑같은 집합 위에서의 적분이기 때문에 무슨 의미를 가질까 싶지만, 여기서 주목해야 하는 점은 $f$는 일반적인 $\mathcal{A}$-measurable한 function이고, $f$는 $\mathcal{A}_0$-measurable하다는 것이다. $f$를 $\mathcal{A}_0$에 속한 집합 위에서 적분은 더 단순한 domain을 가지는 함수 $f_0$의 적분으로도 표현할 수 있다. 이렇게 정의되는 $f_0$는 $T$가 주어졌을 때 $f$의 conditional expectation이라고 말한다. 이렇게 해석될 수 있는 직관적인 이유가 뭘까?
생각해보면 위와 같이 정의되는 $f_0$는 다음 두 가지 특징을 갖는다.
- $P$에 대하여 $A_0$ 위에서의 평균값이 $f_0$와 $f$가 동일하다.
- $f_0$는 $T(x)$를 통해서만 $x$의 영향이 미친다(즉, $T(x)$에 대한 함수). 그말인즉슨, $D_x$ 위에서 $T$가 일정하다고 할 때, $f_0$ 역시 $D_x$ 위에서 일정한 상수값을 갖는다.
그러므로 곧장 가질 수 있는 직관은 $f_0$는 $D_x$ 위에서의 $f$의 평균값이다($P$에 대한). 다시 말하여, $T(x)$가 어떤 상수값으로 주어진 경우에서 $f_0$가 갖는 $P$-expectation이다. 하여 이렇게 도출한 $f_0$를 $T$가 주어졌을 때 $f$의 conditional expectation, 즉 $E_P[f(X)\,\vert\, T(x)]$로 두는 것이 이젠 자연스럽다. 혹은 $T$가 $\mathcal{A}$에 만들어낸 subfield 관점으로 보아 $E_P[f(X)\,\vert\, \mathcal{A}_0]$라고 표현하기도 한다.
앞서 Lemma 1.2에 의하여 $\mathcal{B}$-measurable한 함수 $g$에 대하여 $f_0 = gT$로 표현할 수 있는데, 이때 $g(t) = E[f(X)\vert t] = E[f(X)\vert T = t]\, (\mathcal{B}, P^T)$로 구체적으로 나타내어진다. 나아가 $\mu = P^X$, 즉 $X$에 대한 probability measure로 본다면 $\mu T^{-1}=P^T$, 곧 $T$에 대한 probability measure로 볼 수 있으므로 Lemma 1.3를 적용하면 $g$는 다음 한 줄의 식으로 엄밀히 정의된다.
\[\int_{T^{-1}B} f(x)\,dP^X(x) = \int_B g(t)\,dP^T(t)\quad \text{for all} \quad B\in\mathcal{B}\]이렇게 정의한 conditional expectation은 여느 일반적인 expectation과 똑같은 성질을 따른다. 다만, conditional expectation이 unique하게 정의되었다고 한들, $f_0$의 시각에서 봐도 $(\mathcal{A}_0, P^X)$ 수준에서의 uniqueness, $g$의 시각에서 봐도 $(\mathcal{B}, P^T)$ 수준에서의 uniqueness이므로 아래 명시된 성질들은 $(\mathcal{B}, P^T)$ 수준에서까지만 성립한다.
Lemma 2.1 [Properties of Conditional Expectation]
- $T$: a statistic with range space $(\mathcal{T}, \mathcal{B})$
- $f, g$: $(A, P)$-integrable functions
a.e. $(\mathcal{B}, P^T)$:
- $E[af(X) + bg(X)\vert t] = a E[f(X)\vert t] + b E[g(X)\vert t]$
- $E[h(T)f(X)\vert t] = h(t) E[f(X)\vert t]$
- $a\le f(x)\le b\, (\mathcal{A}, P) \implies a\le E[f(X)\vert t]\le b$
- $\vert f_n\vert \le g, \, f_n(x)\to f(x)\, (\mathcal{A}, P)\implies E[f_n(X)\vert t] \to E[f(X)\vert t]$
아울러, $g$를 정의하는 위의 식을 다시 살펴보면, 만약 $B$를 전체 space $\mathcal{T}$로 설정한다면 우리는 다음 lemma 처럼 iterative expectation law(=smoothing)를 얻을 수 있다.
Lemma 2.2
- $E[\vert f(X)\vert]<\infty$
- $g(t) = E[f(X)\vert t]$
$Ef(X) = Eg(T)$.
Conditional probability도 곧바로 $P(A\vert t) = E[I_A(X)\vert t]$로 정의할 수 있다. 즉, $g = E[I_A(X)\vert t]$를 위에서 했던 것처럼 유사하게 정의하면 다음과 같다.
\[\begin{align*} P^X(A\cap T^{-1}B) &= \int_{A\cap T^{-1}B}\,dP^X(x) \\ &= \int_B P(A\vert t)\, dP^T(t)\quad \text{for all} \quad B\in\mathcal{B} \end{align*}\]상식적으로 “$T(x)\in B$ 조건에서 사건 $A$가 발생할 conditional probability”를 표현한다면 $P^X(A\cap T^{-1}B)/P^X(T^{-1}B)$일 테다. 이를 위의 정의를 빌려 표현하면 다음과 같다($P^XT^{-1}=P^T$임을 유의하라).
\[\frac{P^X(A\cap T^{-1}B)}{P^X(T^{-1}B)} = \frac{1}{P^T(B)}\int_B P(A\vert t)\,dP^T(t)\]만약 $B$를 어떤 한 점 $t$로 수렴시킨다면 좌변은 “t가 주어졌을 때의 $A$의 conditional probability”일 테고, 우변은 $P(A\vert t)$가 되는 그럴싸한 논리가 완성된다. 이를 수학적으로 쉽게 전개하기 위해 우리는 맨 처음 conditional expectation을 정의할 때, measure의 미분 개념에 해당하는 Radon-Nikodym theorem을 활용한 것이다.
Conditional probability도 기존 probability measure가 가지는 성질을 그대로 가지기 때문에 역시 일종의 probability measure로 해석할 수 있다. 다만 아까와 마찬가지로 모두 어느 정도 수준의 null set에 대해서는 유연성을 부여해야 한다.
Lemma 2.3 [Properties of Conditional Probability]
- $T$: a statistic with range space $(\mathcal{T}, \mathcal{B})$
- $A, B, A_1, A_2, \cdots \in \mathcal{A}$
a.e. $(\mathcal{B}, P^T)$:
- $0\le P(A\vert t)\le 1$
- $A_1, A_2, \cdots$: mutually exclusive, $P(\bigcup A_i \vert t) = \sum P(A_i\vert t)$
- $A\subset B \implies P(A\vert t)\le P(B\vert t)$
Conditional probability의 probability measure로써의 정립을 마치기 전에 한 가지 마저 논의해야 할 것이 있다. $g$가 정의되는 적분 식에 의하면 $g(t) = P(A\vert t)$는 $A$는 고정된 채로 $t$에 대한 $\mathcal{B}$-measurable function이다. 하지만, 이는 기존의 probability measure로 해석하기 위해서는 $t$를 고정하고 $A\in\mathcal{A}$에 대한 함수로 두어야 한다는 점에서 개념적 충돌이 발생한다. Lemma 2.3에서도 후자의 해석이 더 어울리는 듯하지만, 쉽사리 두 개념을 양립시킬 수 없는 이유는 null set에 관한 조건 탓이다.
가령 Lemma 2.3의 두 번째 성질이 어떤 $P^T$-null $N_1$에 대하여 $t\not\in N_1$ 위에서 성립한다고 하자. 또 다른 mutually exclusive한 set $B_1, B_2,\cdots$에 대해서도 이 성질이 성립할 테지만, 이는 (possibly)다른 $P^T$-null $N_2$에 대하여 $t\not\in N_2$ 위에서 만족할 테다. 즉, 어떤 ${A_i}$를 두냐에 따라 각기 다른 $P^T$-null set 외의 $t$에서 성립할 것이다. 생각할 부분은 여기서 등장한다. 만약 $\mathcal{A}$(결국 $\mathcal{B}$)이 너무 커서 null set을 uncountable하게 만들어낼 수 있다면, ${A_i}$에 따라 우린 성립하지 않는 $t$에 대한 uncountably many $P^T$-null $N_r$을 찾을 수 있다. 궁극적으로 해당 성질은 $t\in\bigcup N_r$에 대해 성립하지 않을 터인데, $\bigcup N_r$은 uncountable union으로써 더이상 null set이 아닐 수 있다는 문제가 발생한다.
다행인 부분은 $P(A\vert t)$를 정의할 때, $A$를 고정한 후 $t$에 대하여 $(\mathcal{B}, P^T)$ 수준의 null set까지는 uniqueness를 포기하였다. 그러므로 우리가 임의로 값을 설정할 수 있는 여지가 있다. 그러한 $t$에 대하여 각 $A$마다 적당한 값을 결정하여 $P(\cdot\vert t)$가 probabiity distribution이 되도록 한다면 문제를 해결할 수 있을 기미가 보인다. 물론 이 과정이 항상 가능한 것은 아니며, 이를 만족토록 하는 충분조건이 알려져 있다. 우리가 대게 다루는 Euclidean space에서는 이 충분조건을 만족하기 때문에 conditional probability distribution을 정의하는 데 별다른 모순점이 없었던 것이다. Conditional probability distribution을 construction할 수 있는 충분조건은 다음 장에서 더 자세히 살펴본다.
3. Conditional Probability Distributions
만약 $\mathcal{A}$를 만드는 $\mathcal{X}$가 Euclidean space 내의 Borel set이라면 우리는 항상 적절한 conditional probability distribution을 만들 수 있다. 즉, Euclidean space 내에서 다루는 것이 conditional probability distribution이 존재할 충분조건이다. $\mathcal{X}$를 전체 Euclidean이 아닌 Borel set을 잡는다고 해도, $\mathcal{X}$를 전체 Eulidean이라 두고 해당 Borel set 밖의 부분은 확률을 0으로 두면 되는 일이다. 그러므로 간단하게 $\mathcal{X}$를 전체 Eucliedean으로 설정해도 무리가 없다.
Theorem 3.1 [A Sufficient Condition for the Existence of Conditional Probability Distributions]
- $\mathcal{X}$: Euclidean
There exist determinations of $P(A\vert t)$ s.t. for each $t$, $P(A\vert t)$ is a probability measure over $\mathcal{A}$.
이 theorem 3.1의 증명과정을 살펴보면서, 해당 조건에서 probability measure로써의 conditional probability distribution을 contruction하는 과정도 함께 탐색해보자.
Proof of theorem 3.1.
- $F(x, t) = P((-\infty, x] \vert t)$, where $P$ is a conditional probability
- ${r_1, r_2, \cdots }=\mathbb{Q}$, ordered in some rule
Then,
- $r_i<r_j \implies F(r_i, t)\le F(r_j, t),\quad t\not\in N’=\bigcup N_{ij}$.
- $\lim_n F(r_i+1/n, t) = F(r_i, t),\quad t\not\in N’’=\bigcup N_i$, $\lim_n F(n, t)=1$, $\lim_n F(-n, t)=0$, by Lemma 2.1.
Hence, $F(\cdot, t)$ is properly normalized, monotone, and continuous on the right over $\mathbb{Q}$, on $t\not\in N’\cup N’’$.
Define $F^*(x, t)$, uniquely determined, that
- agrees with $F$ for all $x\in\mathbb{Q}$, and
- is continuous on the right in $x$(that is, $F^*(x, t)=\inf_{y>x, y\in\mathbb{Q}}F(y, t)$).
Then, $F^$ is CDF, which determines a probability measure $P^(A\vert t)$ over $\mathcal{A}$. Once $P^(A\vert t)=P(A\vert t)\,(\mathcal{B}, P^T)$ is proven for each $A\in\mathcal{A}$, subsequently being a conditional probability of $A$ given $t$, $P^$ is what can be called a “conditional probability measure”.
This is accomplished gradually, in that $P^*$ equals $P$ for $A$
- of the form $(-\infty, x]$ with $x$ rational,
- of the form $(a, b]=(-\infty, b]-(-\infty, a]$ with $a, b$ rational,
- of the form $\bigcup (a_i, b_i]$, the union of rational endpoints, and
- in the smallest $\sigma$-field containing $\mathcal{F}$, that is, $\mathcal{A}$
Still not determined $P^*$ for $t\in N’\cup N’’$, it can however take an arbitrary value in a sense that neither the measurability nor the values of its integrals are affected on a null set, which in turn fully completed.
Euclidean space 위에서는 conditional probability measure가 잘 정의될 수 있음을 보였다. 그러므로 $T$가 주어졌을 때 $X$의 conditional distribution을 $P^{X\vert t}$로 잘 정의할 수 있다. 이는 $\mathcal{A}$ 위에서 정의될 수 있는 여러 $P(A\vert t)$ 중의 한 형태일 것이다. 여기서 곧바로 conditional expectation과 $P^{X\vert t}$의 연관성을, 어쩌면 당연히 성립해야 할 expectation과 measure 사이의 관계를 “conditional”의 관점에서도 증명할 수 있게 된다.
Theorem 3.2 [Connection Between Conditional Probability and Conditional Expectation]
- $X$: a vector-valued random variable
- $E\vert f(X)\vert <\infty$
\(E[f(X)\vert t] = \int f(x)\,dP^{X\vert t}(x)\quad (\mathcal{B}, P^T)\) Proof. The equation holds for $f$, starting from the indicator of $A\in\mathcal{A}$, any simple function, and hence up to any integrable function.
앞서 Lemma 2.1에서 설명했던 conditional expectation의 성질은, $(\mathcal{B}, P^T)$-null set을 제외한 $t$에 대해서만 성립했다면(그것도 $f$와 $g$에 따라 성립하지 않는 null set이 다를 테니, 앞서 conditional probability measure가 정립되기 전 빚었던 그 문제가 생기는 셈이다), 이젠 Theorem 3.2에 의하면 그 성질들이 null set의 예외 없이 각각의 $t$에 대해 모두 따른다. 물론 또 Lemma 2.1의 두 번째 성질은 null set의 예외에 대하여 성립하긴 하지만, 그 null set이 $h$와 무관하다는 점에서 해당 문제가 반복되진 않는다. 이에 대해선 다음 Theorem 3.3에서 자세히 설명한다.
Theorem 3.3 [About the Property Lemma 2.1 (ii)]
- $T:(\mathcal{X}, \mathcal{A})\to(\mathcal{T}, \mathcal{B})$: a statistic with Euclidean domain and range spaces
- $P^{X\vert t}$: a determination of the conditional probability distribution
- $N$: a null set only up to which Theorem 3.2 holds
\(E[h(T)f(X)\vert t] = h(t)E[f(X)\vert t]\) Proof.
- WLOG suppose that $T$ is real-valued.
- $P^{X\vert t}(A)$: a probability distribution over $\mathcal{A}$ for each $t$, existing by Theorem 3.1
For $B\in\mathcal{B}$ and the indicator function $I_B(t)$, which is $\mathcal{B}$-measurable, we have \(\begin{align*} \int_{B'} I_B(t)\,dP^T(t) = P^T(B'\cap B)&=P^X(T^{-1}B'\cap T^{-1}B) \\ &= \int_{T^{-1}B'} I_{T^{-1}B}(x)\,dP^X(x) \quad \text{for all } B'\in\mathcal{B} \end{align*}\) Hence, the definition of conditional expectation gives, a.e. $P^T$, that $I_B(t) = P(T^{-1}B \vert t)=P^{X\vert t}(T^{-1}B)$.
Given a sequence of intervals of $\mathcal{T}$, $B_n$, with rational endpoints, there is a $P^T$-null $N=\cup N_n$ in that $I_{B_n}(t)=P^{X\vert t}(T^{-1}B_n)$, $t\notin N$, for each $n$.
Note that both $P^{X\vert t}(T^{-1}B)$ and $I_{B_n}(t)$ serve probability distributions over $\mathcal{B}$, especially the latter assigning probability 1 or 0 whether or not $B_n$ contains $t$. Distributions that agrees over the rational intervals also likely to be that for all $B\in \mathcal{B}$.
With that all in mind and taking $B$ as a singleton ${t}$, we have that for all $t\notin N$, $P^{X\vert t}(\,T^{-1}({t})\,)=1$, and thus for $t\notin N$,
\(\begin{align*} \int h[T(x)]f(x)\, dP^{X\vert t}(x)&=\int_{T^{-1}(\{t\})} h[T(x)]f(x)\,dP^{X\vert t}(x) \\&=h(t)\int f(x)\,dP^{X\vert t}(x)\end{align*}\) which was to be proved.
증명과정에서 느낀 바 있겠지만, 여기에서 정의한 $P^{X\vert t}$의 domain이 이전에 일반적으로 정의했던 conditional probability처럼($A^{(t)}=T^{-1}({t})$으로 두고, $\mathcal{A}^{(t)}$를 $A^{(t)}$의 Borel subset으로 구성한 $\sigma$-field라고 한다면) $(A^{(t)}, \mathcal{A}^{(t)})$이 아니고, 끊임없이 $(\mathcal{X}, \mathcal{A})$으로 잡아두었던 것에 의아했을 수 있다. 하지만, 위 증명과정에서$P^{X\vert t}(A)=P^{X\vert t}(A\cap A^{(t)})$가 성립함을 어렵지 않게 알 수 있는데, 그러므로 어느 probability를 계산할 때도 기존과 달라지는 것은 없다.
4. Sufficient Statistics and Dominated Sets
Conditional statistics의 정의에 힘입어 여기서는 sufficient statistics를 엄밀히 정의한다. 기존에 알고 있던 sufficient statistics의 정의를 다시 상기하자.
- $\mathcal{P}={P_\theta: \theta\in\Omega }$: a family of distributions defined over a common sample space $(\mathcal{X}, \mathcal{A})$
어떤 statistic $T$가 $\mathcal{P}$에 대하여(혹은 $\theta$에 대하여) sufficient하기 위해서는 “각 $A\in\mathcal{A}$에 대하여, conditional probability function $P_{\theta}(A\vert t)$가 $\theta$와 무관하도록 결정할 수 있어야 한다.” 이 내용은 앞서 살펴본 Theorem 3.1에 의하여 다음 두 가지를 내포한다.
- $P_{\theta}(A\vert t)$는 $\theta$와는 독립적인 conditional probability distribution이다
- $P_{\theta}(A\vert t)$는 $\mathcal{A}$ 위에서의 probability measure이다
이러한 sufficient statistics는 특정 관점에서 보면 포착할 수 있는 모든 정보를 포함하고 있다는 것이 중요한 의의였다. 이와 함께 중요하게 여겨지는 것이 factorization criterion라는 사실은 이미 익숙할 텐데, 이는 dominated family 조건에서 유용하게 쓰이는 sufficiency의 기준이다.
통계의 많은 상황에서는 똑같은 $\sigma$-algebra 위에서 굉장히 많은 measure를 동시에 다루어야 할 때가 많다. 당장 우리가 정의한 $\mathcal{P}$에서도 동일한 $(\mathcal{X}, \mathcal{A})$에서 수많은 measure $P_{\theta}$’s 를 고려해야 한다. 이때 유용하게 쓰이는 전제 조건이 바로 dominated set의 존재이다(이게 무엇인지는 곧바로 정의한다).
$(\mathcal{X}, \mathcal{A})$ 위의 measure들의 집합인 $\mathfrak{M}$이 dominated하다는 것은 $\mathfrak{M} \ll \lambda$(즉, $\mathfrak{M}$의 원소 모두가 $\ll \lambda$)가 성립하는 $(\mathcal{X}, \mathcal{A})$ 위의 measure $\lambda<+\infty$(굳이 $\in\mathfrak{M}$일 필요는 없다)가 존재한다는 것이다. 한 가지 문제점은 실제로 dominated family를 다룰 때 $\lambda$가 finite하지 않은 경우가 많은데, 예컨대 finite dimensional Euclidean space의 Borel set 위에서 정의되는 measure만 봐도 finite하지 않은 것들도 많다. 그러나 그렇게 또 큰 문제가 될 건 없는 것이, 만일 $\mathcal{X}$가 finite measure 값을 가지는 set들의 countable union(namely, a $\sigma$-finite measure space)일 때 infinite한 $\lambda$와 동치인 finite measure을 항상 찾을 수 있다. 더군다나 어차피 probability measure은 $\sigma$-finite measure이므로 방금 제안한 $(\mathcal{X}, \mathcal{A})$외에 더 일반적인 space에 대해서는 다루지도 못할 터다.
이쯤에서 매우 유용한 정리를 소개한다. 바로, 모든 dominated set은 동치인 countable subset이 있다는 것이다. 우리가 다루게 될 parameter space $\Omega$는 어떤 interval, 혹은 실수 전체 집합 $\mathbb{R}$ 등으로, 주로 uncountable할 것이다. 하지만 이와 동치인 countable set을 찾게 된다면, 우리는 어쩌면 $\lambda$를 countable measure들만으로도 표현할 수 있게 될 지도 모른다. $\lambda$의 직접적인 표현식을 찾는 다는 것은, 이후 factorization criterion을 통해 sufficient statistics를 엄밀하게 표현할 수 있다는 의미이기도 하다.
Theorem 4.1 [The Equivalent Countable Subset of a Dominated Set]
Every dominated set of measures has an equivalent countable subset.
Proof.
- $\mathfrak{M}$: a dominated set of measures on $(\mathcal{X}, \mathcal{A})$, $\mathfrak{M}\ll \lambda$
- $f_{\mu} = d\mu/d\lambda$, $K_{\mu}={x: f_{\mu}(x)>0}$, for every $\mu\in\mathfrak{M}$
- (for the use of this proof only, not conventional) $K$, a kernel of $K_{\mu}$: a set $K\in \mathcal{A}$ such that $K\subset K_{\mu}$ for some $\mu\in\mathfrak{M}$, and that $\mu(K) >0$
- (neither conventional) a chain: a disjoint union of kernels
Every chain is a countable disjoint union of kernels, in that:
- $\mu(K)>0\implies\lambda(K)>0$, for every kernel $K$
- $\lambda < +\infty$
The followings are also chains:
- a measurable subset of a chain with $\mu(C)>0$ for some $\mu\in\mathfrak{M}$
a disjoint union of chains and these imply that a countable union(not necessarily disjoint) of chains is also a chain.
- ${C_j}$: a sequence of chains s.t. as $j\to\infty$, $\lambda(C_j)\to\sup_j\lambda (C_j)$
- $C = \bigcup_{j=1}^\infty C_j$ is a chain for which $\lambda(C)$ is maximal
- $\exists {K_i}$: a sequnce of kernels s.t. $C = \bigcup_{i=1}^\infty K_i$, by the def. of a chain
- $\exists \mu_i\in\mathfrak{M}$: a measure s.t. $K_i \subset K_{\mu_i}$ and $\mu_i(K_i)>0$
- $\mathfrak{N} = {\mu_1, \mu_2, \cdots}$
Then since $\mathfrak{N}\subset \mathfrak{M}$, we have $\mathfrak{N}\ll \mathfrak{M}$. One left is to show that $\mathfrak{M}\ll \mathfrak{N}$, and following procedure completes this.
- $E\in\mathcal{A}$, $\mu_i(E) =0$
- $\mu$: any measure $\in\mathfrak{M}$, desired to induce $\mu(E)=0$
- $\mu(E\setminus K_{\mu}) =0$, because of the def. of $K_{\mu}$: assume WLOG that $E\subset K_{\mu}$
Suppose $\mu(E\setminus C) >0$:
- $\implies\lambda(E\setminus C)>0$: $E\setminus C$ is a kernel
- $E\cup C$: a chain, with $\lambda(E\cup C) > \lambda(C)$; contradictory
- Hence $\mu(E\setminus C)=0$
$\mu(E\cap C)=0$, since:
- $0=\mu_i(E)=\mu_i(E\cap K_i)$, in that $E\cap K_i\subset E$
- $0=\int_{E\cap K_i} f_{\mu_i}\,d\lambda$, meanwhile $K_i\subset K_{\mu_i}$ so $f_{\mu_i}>0$ on $E\cap K_i$
- The only choice is nothing but $\lambda(E\cap K_i)=0$
- $\lambda(E\cap C)=\sum_{i=1}^\infty \lambda(E\cup K_i)=0$
Therefore $\mu(E)=\mu(E\setminus C)+\mu(E\cap C)=0$, which was to be proved.
이제 dominated family와 sufficiency를 연결지을 모든 준비가 끝났다. Sufficient statistic의 distribution은 parameter $\theta$와 무관하다는 것이 정의이므로, 실제로 이와 무관한 measure를 찾을 수 있는지가 관건이다. 그리고 그 역할을 하는 것이 곧 $\lambda$일 것이라는 데에는 긴 설명이 필요 없을 것이다. 이 정리는 factorization criterion에 다가가기 위한 중요한 발걸음이 된다.
Theorem 4.2. [The Necessary and Sufficient Condition to be Sufficient Statistic in a Dominated Family]
- $T$: a statistic with a range space $(\mathcal{T}, \mathcal{B})$
- $\mathcal{A}_0$: a subfield induced by $T$
- $\mathcal{P}$: a dominated family of measures on $(\mathcal{X}, \mathcal{A})$
A necessary and sufficient condition that $T$ be sufficient for $\mathcal{P}$ is that there exists a measure $\lambda$ on $(\mathcal{X}, \mathcal{A})$ s.t.:
- $\mathcal{P}\equiv\lambda$
- $d\mu/d\lambda$ is measurable on $\mathcal{A}_0$
Proof.
(Necessity: $T=\text{sufficient}\implies \exists\lambda$)
- $\mathfrak{N}={\mu_1, \mu_2, \cdots}$: a countable subset $\equiv\mathcal{P}$, the existence ensured by Theorem 4.1
- $\lambda$: a measure on $(\mathcal{X}, \mathcal{A})$ defined by $\lambda(E)=\sum_{i=1}^\infty a_i \mu_i(E)$, where $\sum a_i = 1/\mu(X)$, and note that $\mathcal{P}\equiv\lambda$
- $P$: a conditional probability function common to every $\mu\in\mathcal{P}$ (from a sufficient statistic $T$)
$P$ serves a conditional probability also for $\lambda$, in that for every $B\in\mathcal{B}$, \(\begin{align*} \lambda(A\cap T^{-1}B) &= \sum_{i=1}^\infty a_i\mu_i(A\cap T^{-1}B) \\ &= \sum_{i=1}^\infty a_i\int_B P(A\vert y)\,d\mu_iT^{-1}(y)\quad(\because \text{the def. of a cond. exp.}) \\ &=\int_B P(A\vert y)\, d\lambda T^{-1} \end{align*}\)
- $f=d\mu/d\lambda$ for an arbitrary chosen $\mu\in\mathcal{P}$
- Let $g(y)=E_{\lambda}[f\vert y]$, then $d\mu T^{-1} =g\, d\lambda T^{-1}$… (where $E_{\lambda}$ is the exp. corresp. to $P_{\lambda})$
- …since $\mu T^{-1}(B) = \mu(T^{-1}B)=\int_{T^{-1}B} f\, d\lambda=\int_{B} g\, d\lambda T^{-1}$ (but used to this correspondence as it is quite straightforward)
Then we get $f=gT\,[\lambda]$, in that for every $E\in \mathcal{A}$,
\[\begin{align*} \int_E f(x)\,d\lambda(x) &= \mu(E) = \int P(E\vert y)\, d\mu T^{-1} \\ &=\int P(E\vert y)g(y)\, d\lambda T^{-1}(y) \\ &=\int E_{\lambda}[I_E\cdot gT\vert y]\,d\lambda T^{-1}(y) = \int_E gT(x)\,\lambda(x) \end{align*}\]and was to be proved.
(Sufficiency: $\exists\lambda\implies T=\text{sufficient}$)
- Shall prove that $P_{\lambda}$ is a conditional probability for all $\mu\in\mathcal{P}$
- $E\in \mathcal{A}$: any set
- $\mu\in\mathcal{P}$: a measure
- $d\mu/d\lambda = gT$
$\nu$: a measure defined by $d\nu = I_E\,d\mu$, $\implies d\nu T^{-1} = P_{\mu}\,d\mu T^{-1}$ where $P_{\mu}=P_{\mu}(E\vert y)$
- $d\mu T^{-1} = g\,d\lambda T^{-1} \implies d\nu T^{-1} = P_{\mu}g\,d\lambda T^{-1}$
- $d\nu= I_E\,d\mu = I_E\cdot gT\,d\lambda \implies d\nu T^{-1} = P_{\lambda}g\,d\lambda T^{-1}$ where $P_{\lambda}=P_{\lambda}(E\vert y)$
Hence under up to a null set of $\lambda T^{-1}$, $P_{\mu}g=P_{\lambda}g$. Note that $d\mu T^{-1}=g\,d\lambda T^{-1}$ implies $g\ne 0\,[\mu T^{-1}]$, we finally obtain $P_{\mu}=P_{\lambda}\,[\mu T^{-1}]$.
위에서 중요하게 증명한 것은 dominate하는 measure $\lambda$에 대하여 derivative $d\mu/d\lambda$가 $\mathcal{A}_0$-measurable(즉, $T(x)$를 통해서만 $x$의 함수임)이어야 $T$가 sufficiency를 가져갈 수 있다는 것이다. 이는 이전 논문 리뷰 포스트에서 likelihood(혹은 probability density)와 sufficiency와의 관계를 살펴볼 때 유도되었던 성질과 맥락을 함께한다. 즉, 모든 likelihood는 parameter와 연관된 $T$에 대한(단지 $x$의 함수가 아니라!) 함수와 그 외에 자질부리한 함수로 분해할 수 있다. 이를 조금 더 정형화하면 다음 정리가 될 것이다.
Theorem 4.3 [Factorization Criterion]
- $T$: a statistic with a range space $(\mathcal{T}, \mathcal{B})$
- $\mathcal{A}_0$: the subfield of $\mathcal{A}$ induced by $T$
- $\mathcal{P}$: a dominated family $\ll\lambda_0$ of probability measures on $(\mathcal{X}, \mathcal{A})$
- $f_{\mu}=d\mu/d\lambda_0$, for each $\mu\in\mathcal{P}$
$T$ is sufficient iff $f_{\mu}$ is factorable in the form $f_{\mu} = g_{\mu}\cdot t$ where
- $0\le g_{\mu}$: $\mathcal{A}_0$-measurable
- $0\le t$
- $t$ and $g_{\mu}\cdot t$ are integrable w.r.t. $\lambda_0$
- on each set $\in\mathcal{A}$ if every $\mu\in\mathcal{P}$ vanishes, so does $t$ $[\lambda_0]$
Proof:
If $T$ is sufficient:
- $\exists\lambda$: introduced in Theorem 4.2
- $\Rightarrow\, f_{\mu}=\frac{d\mu}{d\lambda_0}=\frac{d\mu}{d\lambda}\frac{d\lambda}{d\lambda_0}$
- hence take $g_{\mu}=d\mu/d\lambda$, and $t=d\lambda/d\lambda_0$
- For $E$ that $\mu(E)=0;\, \forall\mu$, we have $0=\lambda(E)=\int_E t(x)\,d\lambda_0(x)$ and $t$ vanishes on $E$
If $f_{\mu}=g_{\mu}\cdot t$:
- Let $\lambda = \sum a_i \mu_i$, ensured by Theorem 4.1
- $d\lambda = \sum a_i d\mu_i =\sum a_i g_{\mu_i}\cdot t\,d\lambda_0 = k\cdot t\,d\lambda_0$ where $k=\sum a_i g_{\mu_i}$
- Hence, $d\mu/d\lambda = g_{\mu}^$ where $g_{\mu}^=g_{\mu}/k$ if $k>0$ and is arbitrarily when $k=0$, which is $\mathcal{A}_0$-measurable
Theorem 4.3을 통해 우리가 익히 알고 있던 factorization criterion을 measure theory에 입각해서도 잘 도출할 수 있었다. 증명과정에서 익히 알 수 있었듯, 결국 중요한 것은 parameter와 연관되는 함수는 Theorem 4.2에서 유도한 $T$에 대한 함수 $d\mu/d\lambda$ 였다는 것이다. 그 뒤에 붙는 parameter와는 무관한 $t$는 사실 dominating measure $\lambda_0$를 어떻게 잡냐에 따른 것이므로 부차적인 요소이다. 우연히 $\lambda=\lambda_0$로 두었다면 $t$는 정말로지 별 기능을 안 할 것이다. 즉, $t$는 전체적으로 $\mathcal{P}$를 어떤 공통된 measure $\lambda_0$로 대할 것(여기서 대한다는 것은, 이걸로 density를 만들고 likelihood를 유도하는 등의 일체 과정…)이냐에 따른 잉여항일 뿐이다. 결국 parameter에 따른 likelihood는 $x$까지 세밀하게 바라볼 필요 없이 $T$로만 나눠지는 단계에서도 충분히 구분해낼 수 있다는 것이다. 그것이 $g_{\mu}$가 $\mathcal{A_0}$-measurable하다는 것이 갖는 의미이다.
이쯤되면 결국 전체 field에서 따질 필요 없이 조금 더 편리한 subfield에서 parameter에 따른 likelihood를 구분할 수 있다는 것을 알았고, 적절한 subfield가 바로 sufficient statistics에 의해 유도된 $\mathcal{A_0}$라는 결론에 도달한다. 그러므로 애초부터 conditional expectation을 정의할 때서부터, 어떤 statistic $T$에 입각한 정의가 아닌, 어떤 subfield에서 다루고 있는 conditional expectation인지를 정의하고 이를 notation에 표현하면 어떨까 하는 생각도 한편 든다. 그럼 sufficient statistics를 conditional expectation에 입각하여 정의할 때 훨씬 직관적인 도움이 될 것이다. 그리고 그런 작업을 바로 다음 편에서 한다!