Exponential Families(지수족)
Exponential Families
주어진 data로부터 적절한 inference추론을 하기 위해서 data가 어떤 distribution을 따르는지 관련 정보가 주어지면 정말 좋다. 하지만 대부분의 경우, 이 distribution을 모르기 때문에 data가 어떤 유형의 distribution을 따르는지 큰 틀에서 가정하는 것이 좋다. Distribution을 묶어놓은 가장 자주 쓰이는 그 큰 틀이 바로 exponential family지수족이다. Exponential family에는 binomial이항, Poisson포아송, exponential지수, normal정규 distribution 등 우리가 익숙히 알고 있는 대부분의 distribution이 포함되어 있다. 이 exponential family는 수학적인 관점에서 여러 성질이 유도가 가능하여 자주 활용된다.
만약 $\mu$가 $\mathbb{R}^n$에서 정의된 measure이고, $h:\mathbb{R}^n\to\mathbb{R}$이 non-negative function이라고 가정하자. 또, $T_1, \cdots, T_s$ 또한 $\mathbb{R}^n\to\mathbb{R}$인 measurable function이라고 하자. $\eta=(\eta_1, \cdots, \eta_s)\in\mathbb{R}^s$에 대하여 다음의 형태로 density가 주어지는 모든 distribution의 모음 을 $s$-parameter exponential family in canonical form이라고 부른다.
\[p_{\eta}(x) = \exp\left[\sum_{i=1}^s\eta_i T_i(x) - A(\eta)\right]h(x), \quad x\in\mathbb{R}^n\]이라고 한다. 이때 $A$는
\[A(\eta) = \log \int \exp\left[\sum_{i=1}^s \eta_i T_i(x)\right]h(x)\, d\mu(x)\]로써, $\int p_{\eta}\,d\mu = 1$로 하여 $p_{\eta}$가 density로써 잘 정의될 수 있도록 조정된 $x$에 대한 상수 값이다. Exponential family가 잘 정의되기 위해서는 위처럼 정의된 $A(\eta)$가 막상 $+\infty$의 값을 갖지 않는 것이다. 즉,
\[\Xi = \{\eta: A(\eta)\lt\infty\}\]그러므로 $\Xi$는 parameter의 값으로 가능한 모든 것들의 집합이라고 볼 수 있으며, 이를 natural parameter space라고 부른다. 그리고 exponential family를 가능한 모든 parameter $\eta$에 대하여 $\{p_{\eta}: \eta\in\Xi\}$라고 표현한다. Parameter $\eta$는 $s$차원에 속한 벡터이므로 $s$-parameter라는 명칭이 붙게 되었다. 또, canonical form이라는 의미는 parameter $\eta$가 $T = (T_1, \cdots, T_s)$와 직접 inner product내적되어 있기에 가장 보편적인 형태라고 볼 수 있다는 것이다. 일반적인 형태는 $\eta$가 parameter에 의해 parameterize매개화되어있는 꼴이다. 즉, $\eta:\Omega\to\Xi$에 대하여 다음 꼴을 가지는 familites $\{p_{\theta}: \theta\in\Omega\}$는 $s$-parameter exponential families라고 부른다.
\[p_{\theta}(x) = \exp\left[\sum_{i=1}^s\eta_i(\theta)T_i(x) - B(\theta)\right]h(x)\]여기서 $B(\theta) = A(\eta(\theta))$가 된다.
Example 4.1 Normal distribution $N(\mu, \sigma^2)$은 다음과 같은 density를 가지고 있다.
\[\begin{align*} p_{\theta}(x) &= \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{(x-\mu)^2}{2\sigma^2}\right]\\ &= \frac{1}{\sqrt{2\pi}}\exp\left[\frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}x^2-\left(\frac{\mu^2}{2\sigma^2}+\log\sigma\right)\right] \end{align*}\]그러므로 parameter는 $\theta = (\theta_1, \theta_2)= (\mu, \sigma^2)$이고 normal distribution은 $\eta = (\eta_1, \eta_2) = (\mu/\sigma^2, -1/(2\sigma^2))$이고, $T = (T_1, T_2) = (x, x^2)$, $B(\theta) = \mu^2/(2\sigma^2)+\log\sigma$, $h(x)=1/\sqrt{2\pi}$인 two-parameter exponential family이다. 위의 식 형태를 보면 canonical form은 아닌 것을 알 수 있다.
만약 normal distribution $N(\mu, \sigma^2)$로부터 $n$개의 random sample $X_1, \cdots, X_n$이 independent하게 추출되었다면, 이들의 joint density는 $x = (x_1, \cdots, x_n)$에 대하여
\[\begin{align*} p_{\theta}(x) &= \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{(x_i-\mu)^2}{2\sigma^2}\right]\\ &= (2\pi)^{-n/2}\exp\left[\frac{\mu}{\sigma^2}\sum_{i=1}^n x_i-\frac{1}{2\sigma^2}\sum_{i=1}^n x_i^2-n\left(\frac{\mu^2}{2\sigma^2}+\log\sigma\right)\right] \end{align*}\]가 되고 이 역시 two-parameter exponential family임을 알 수 있다. 이때, $T = (\sum x_i, \sum x_i^2)$로 바뀌고 $B(\theta)$와 $h(x)$도 바뀌었음을 관찰할 수 있다.
위의 예시처럼 $s$-parameter exponential family에 속하는 동일한 distribution
\[\exp\left[\sum_{i=1}^s \eta_i(\theta)T_i(x) - B(\theta)\right]h(x)\]으로부터 random sample을 independent하게 추출한다면 이 sample들의 joint density는 원래 추출한 distribution의 형태와 정말 비슷한 $s$-paramter exponential family이며, 동일한 $\eta$와
\[\tilde{T}_i(x) = \sum_{j=1}^s T_i(x_j), \quad \tilde{B}(\theta) = nB(\theta), \quad\tilde{h}(x)=\prod_{i=1}^n h(x_i)\]를 가진 distribution이다.
Example 4.2 $(\mathcal{X}, \mathcal{B})$에 대한 measure $\mu$에 대하여 exponential family $\{p_{\theta}: \theta\in\Omega\}$,
\[p_{\theta}(x) = h(x)\exp\left[\sum_{i=1}^s\eta_i(\theta)T_i(x) - B(\theta)\right]\]가 주어졌다. 어떤 변수 $X$가 density $p_{\theta}$를 가진다고 한다. 하지만, 이 변수는 어떤 영역 $S$ 내에 그 값이 존재할 때만 측정 가능하다고 한다. $X$가 $S$에 속한 확률, 즉 $P_{\theta}(X\in S)$가 양수라고 하자.
우리는 $X$를 관측한 데이터를 $Y$라고 하자. 즉, $Y$는 $S$ 밖의 값을 가질 probability은 0이다. 이러한 $Y$를 $X$의 truncation이라고 한다. $Y$와 관련된 probability는 다음과 같이 구할 수 있을 것이다.
\[P_{\theta}(Y\in B) = P_{\theta}(X\in B\vert X\in S), \quad B\in\mathcal{B}\]먼저 $Y$의 density $q_{\theta}$를 구해보자. $\Lambda(\theta):=P_{\theta}(X\in S)$ 위의 성질을 활용하면,
\[P_{\theta}(Y\in B) = \frac{P_{\theta}(X\in B\cap S)}{\Lambda(\theta)} = \int_B 1_S\cdot \frac{p_{\theta}}{\Lambda(\theta)}\,d\mu\]따라서 $q_{\theta} = 1_S\cdot p_{\theta}/\Lambda(\theta)$이다. Truncated random variable의 denstiy도 exponential family에 속하는 것을 알 수 있는데, 동일한 $\eta_i$와 $T_i$,
\[\tilde{h}(x) = h(x)\cdot 1_S(x), \quad \tilde{B}(\theta) = B(\theta) + \log\Lambda(\theta)\]를 가지는 exponential family의 일종임을 알 수 있다.
Differential Identities
Canonical form을 가진 exponential family들은 미분했을 때 정말 많은 성질을 얻을 수 있다. 특히 moment적률과 cummulant누율을 정말 쉽게 구할 수 있다. 이러한 특징을 알아보기 위해 먼저 유용한 theorem 하나를 살펴보자.
Theorem 4.3 $\Xi_f$가 다음을 만족하는 모든 $\eta\in\mathbb{R}^s$ 값들의 집합이라고 하자.
\[\int \vert f(x)\vert \exp\left[\sum_{i=1}^s \eta_i T_i(x)\right]h(x)\,d\mu(x)<\infty\]그러면 함수
\[g(\eta) = \int f(x) \exp\left[\sum_{i=1}^s \eta_i T_i(x)\right]h(x)\, d\mu(x)\]는 continuous하고 모든 $\eta\in\Xi_f^{\circ}$의 성분에 대하여 continuous partial derivative편도함수를 가지고 있다. 이때 $\Xi_f^{\circ}$는 $\Xi^{\circ}$의 interior내부, 즉 경계를 제외한 영역이다. 또한 $g$를 미분할 때 미분 기호과 적분 기호를 바꿀 수 있다.
위 정리는 Brown이 1986년에 증명하였다. 만약 $f = 1$이라면 $\Xi_f$는 위에서 본 $\Xi$와 같아진다. 또한,
\[g(\eta) = \int \exp\left[\sum_{i=1}^s\eta_i T_i(x) \right]h(x)\, d\mu(x) = e^{A(\eta)}\]임을 알 수 있다. $\eta\in\Xi^{\circ}$에 대하여 $g$를 미분하면
\[\begin{align*} \frac{\partial g(\eta)}{\partial\eta_j} = e^{A(\eta)}\frac{\partial A(\eta)}{\partial \eta_j} &= \int\frac{\partial}{\partial\eta_j} \exp\left[\sum_{i=1}^s\eta_i T_i(x)\right] h(x)\,d\mu(x) \\ &= \int T_j(x) \exp\left[\sum_{i=1}^s\eta_i T_i(x)\right]h(x)\,d\mu(x) \end{align*}\]따라서 $p_{\eta}$의 식을 적용하고 양변을 $e^{A(\eta)}$로 나누어주면 우리는 다음을 얻는다.
\[\frac{\partial A(\eta)}{\partial\eta_j} = \int T_j(x) p_{\eta}(x)\, d\mu(x) = E_{\eta} T_j(X)\]이때 expectation 아래에 이는 $\eta$라는 첨자는 density가 parameter $\eta$의 값을 가질 때의 expectation임을 의미한다. 우리는 $A$의 partial derivative를 통해 $T_j$의 expectation을 쉽게 알 수 있는 것이다. 이 identity는 뒤에서 매우 유용하게 쓰인다.
Dominated Convergence
그렇다면 theorem 4.3가 어떻게 증명이 되는 것인지 알아보자. 증명의 스케치를 위해 먼저는 $s=1$일 때를 살피는 것이 좋다. 우리는 다음 식을 미분해서 위의 identity까지 도달하였다.
\[e^{A(\eta)} = \int e^{\eta T(x)} h(x)\,d\mu(X)\]우리는 아주 간단한 예로 $\eta = 0$에서의 미분을 살펴볼 것이다. 미분이 잘 정의되기 위해서는 위의 적분식이 0 주변에서(대충 $\eta\in[-2\epsilon, 2\epsilon]$) finite한 값을 가진다고 가정하자. 미분이 0에서 되는지 아직 모른다고 가정하고 미분의 정의를 활용해보자.
\[\begin{align*} \lim_{n\to\infty} \frac{e^{A(\epsilon /n)} - e^{A(0)}}{\epsilon/n}{\epsilon /n} &= \lim_{n\to\infty}\int\frac{e^{\epsilon T(x)/n} -1}{\epsilon/n} h(x)\, d\mu(x) \end{align*}\]이때 $e^{A(\eta)}$가 0에서 미분가능했다면 위의 limit이 존재해야 하고 그 값이 앞의 section에서 유도했 듯이 $\int T(x)h(x)\,d\mu(x)$여야 한다($s=1$, $\eta = 0$임에 유의). 주목이 되는 함수를 다음과 같이 잡자.
\[f_n(x) = \frac{e^{\epsilon T(x)/n} - 1}{\epsilon/n} h(x)\]그러면 우리는 쉽게 $n\to\infty$이면 $f_n(x) \to f(x):= T(x)h(x)$ 임을 알 수 있다. 따라서 위의 성질을 증명하기 위해서는 최총으로 우리는 다음을 보이기만 하면 된다.
\[\int f_n\,d\mu \to\int f\, d\mu, \quad n\to\infty\]Integrand $f_n$이 $f$로 converge하면 interate한 $\int f_n\,d\mu$도 당연히 $\int f\,d\mu$로 converge해야 할 것 같지만, 사실 이는 그렇게 당연한 사실은 아니다. 이 성질을 만족하기 위한 sufficient condition을 제시해주는 theorem이 dominated convergence theorem(DCT)지배 수렴 정리이다. 이 정리는 정말 유용하니 꼭 기억해두어야 한다.
Theorem 4.4 (Dominated Convergence) 주어진 sequence of function함수열 $f_n, n\in\mathbb{N}$가 함수 $g$에 의해 uniformly bounded되어 있다(즉, $\vert f_n\vert\le g\, (a.e. \mu),\, \forall n$)고 하자. 또한, $\int g\,d\mu <\infty$이고 $\lim_{n\to\infty} f_n(x) =f(x)\, (a.e. \mu)$(pointwise convergence)하다고 하자. 그러면 $n\to\infty$임에 따라
\[\int f_n\,d\mu \to\int f\,d\mu\]가 성립한다.
즉, 위의 정리가 말해주는 것은 sequence of function $f_n$이 적분했을 때 finite한 함수 $g$에 의해 dominating되고 있으면, 상식적으로 생각했던 것, 즉 $f_n\to f$이면 $\int f_n\,d\mu\to\int f\,d\mu$가 성립한다. 그러면 만약에 주어진 sequence of function이 dominating이 되지 않고 있으면 어떤 일이 벌어질까? 다시 말해, $g$라는 함수는 대체 왜 필요한 것일까? 다음 예시를 살펴보자.
Example 4.5 $f_n = 1_{(n, n+1)}$로 주어진 a sequence of function에 대하여 $f = 0$으로 잡으면 $f_n\overset{n\to\infty}{\to} f\, (a.e. \mu)$임을 쉽게 알 수 있다. 하지만 $\int f_n\,d\mu = 1$이고 $\int f\,d\mu =0$이다. $f_n$은 그 어떤 함수로도 모든 $n$에 대하여 bound시킬 수 없음을 알 수 있을 것이다.
다시 우리의 주제로 돌아와서, 우리는 $f_n$이 적분된 것도 $f$가 적분된 것으로 converge하는 것을 보여야 했다. Dominated convergence에 의하여 우린 이제 적절한 $g$만 잡아주면 증명할 수 있다. 다음의 성질을 이용해보자.
\[\begin{align*} \vert e^t - 1\vert &\le \vert t\vert e^{\vert t\vert}, \\ \vert t\vert &\le e^{\vert t\vert} \end{align*}\]그러면 우리는 다음을 얻을 수 있다. 목표는 $n$을 없애는 것이다. $g$는 uniform bound로써 모든 $f_n$을 bound시켜야 하기 때문이다.
\[\begin{align*} \bigg\vert\frac{e^{\epsilon T(x)/n} -1}{\epsilon/n}\bigg\vert &\le \frac{\vert\epsilon T(x)/n\vert}{\epsilon/n}e^{\vert \epsilon T(x)/n\vert} \\ &=\frac{1}{\epsilon}\vert\epsilon T(x)\vert e^{\vert\epsilon T(x)/n\vert} \le\frac{1}{\epsilon}\vert\epsilon T(x)\vert e^{\vert\epsilon T(x)\vert}\le \frac{1}{\epsilon}e^{\vert 2\epsilon T(x)\vert}\\ &\le\frac{1}{\epsilon}\left(e^{2\epsilon T(x)}+e^{-2\epsilon T(x)}\right) \end{align*}\]만약 $g$를 이 부등식의 가장 마지막 항으로 설정하면
\[\int e^{\pm 2\epsilon T(x)}h(x)\,d\mu(x) = e^{A(\pm 2\epsilon)} \lt \infty\]이기 때문에 $g$를 적분했을 때 그 값은 finite하다. 따라서 dominated convergence가 성립하고 증명이 완료되었다.
Example 4.6 여기서는 series의 합이 absolutely convergent이면 각 term은 0으로 converge함을 신기하게 보여볼 것이다. 즉,
\[\sum_{i=1}^\infty \vert c_n\vert <\infty \implies \lim_{n\to\infty} c_n = 0\]임을 보일 것이다. $\mu$가 $\{1, 2, \cdots\}$의 counting measure라고 하고 주어진 constant $c_i$에 대하여 $f_n = c_n 1_{\{n\}}$이라고 하자. 각 $x$에 대하여 $f_n$이 converge하는 값을 구해보면 0임을 알 수 있다. 그러므로 $f = 0$이라고 잡자.
우리는
\[\sum_{n=1}^\infty \vert c_n\vert \lt \infty\]인 것과 $\vert f_n\vert \le g,\,\forall n$, $\int g\,d\mu\lt\infty$가 서로 equivalent함을 보일 수 있다. 먼저, 만약 $g = \sum_n \vert c_n\vert\cdot 1_{\{n\}}$으로 잡으면 $\int g\,d\mu = \sum\vert c_n\vert\lt\infty$이므로 그러한 $g$를 잘 찾았다. 반대로, 이러한 $g$가 존재한다고 가정하면, $\sup_x \vert f_n\vert = \sum \vert c_n\vert\cdot 1_{\{n\}}$이므로 $\sum\vert c_n\vert 1_{\{n\}} \le g$이기에
\[\sum_n \vert c_n \vert =\int \sum_n\vert c_n\vert\cdot 1\_{\\{n\\}}\,d\mu\le \int g\,d\mu\lt\infty\]이다. 그러면 dominated convergence에 의해
\[\lim_{n\to\infty} c_n = \lim_{n\to\infty} \int f_n\,d\mu = \int f\,d\mu = 0\]이므로 증명이 되었다.