Generating Functions(생성함수)
Moments적률 and Cumulants누율
Moments는 distribution의 모양이나 생김새를 나타내는 수치들이다. 예를 들어 어떤 질량을 가진 물체가 있을 때, 각각의 좌표를 밀도로 가중평균한 것이 무게 중심, 각각의 좌표를 제곱하여 밀도로 가중평균한 것이 momentum of inertia관성 모멘트였다. 통계에서 정의하는 moments 또한 같은 맥락이다. 1차 moment는 mean, 2차 moment는 variance(distribution의 center을 0으로 잡았을 때), 3차 moment는 skewness(즉, distribution이 어느 쪽으로 쏠려 있는지), 4차 moment는 kurtosis(즉, distribution 꼬리의 두꺼운 정도)를 나타낸다. 수학적으로는 $n$-th moment는 $EX^n$으로 정의된다.
이 moment 값들을 편하게 구할 수 있도록 하는 함수가 있는데, moment generating function적률 생성 함수, 줄여서 MGF라고 부르는 것이다. 어떤 random vector $T = (T_1, \cdots, T_s)^T\in\mathbb{R}^s$에 대하여 MGF $M_T$는 다음과 같이 정의된다.
\[M_T(u) = E e^{u_1T_1 +\cdots+ u_sT_s} = E e^{u\cdot T}, \quad u\in\mathbb{R}^s\]이 때의 $(r_1, \cdots, r_s)$차 moments $\alpha_{r_1, \cdots, r_s}$는 다음과 같이 정의된다.
\[\alpha_{r_1, \cdots, r_s} = E[T_1^{r_1}\times\cdots\times T_s^{r_s}]\]Cumulants는 moments와 같은 맥락으로 쓰이는 수치들이다. 다만, moments와 달리 cumulants는 2차 cumulants로 variance를 바로 구할 수 있다는 점(2차 moment는 단지 $EX^2$이지만) 등 moments가 미처 설명하지 못하는 부분들을 보완한다. Cumulants를 구할 수 있는 cumulant generating function누율 생성 함수는 CGF라고도 불리는데 MGF로부터 간단히 정의된다. $T$의 CGF $K_T$는
\[K_T(u) = \log M_T(u), \quad u\in\mathbb{R}^s\]으로 정의된다. Moments는 엄청난 성질이 있는데, 바로 해당 random variable(vector)의 distribution을 유일하게 결정지어 준다는 것이다. 이로써 모든 moments가 같은 서로 다른 두 random variable은 결국 같은 distribution을 가진다. 이는 MGF가 어느 open된 구간에서 finite한 값을 가지기만 하면 무조건 성립한다.
Theorem 5.1 만약 두 random vector $X$와 $Y$의 moment generating functions $M_X(u)$와 $M_Y(u)$가 interior가 비어있지 않은 어느 집합 내의 $u$에 대하여 finite하고 둘의 값이 서로 같다면, $X$와 $Y$는 같은 distribution을 가진다. 즉, $P_X = P_Y$.
MGF를 이용하여 moments를 찾는 방법은 MGF를 미분하고 0일 때의 값을 찾는 것이다. 증명은 어렵지 않으나 expectation과 미분의 순서를 바꾸는 과정에 대한 입증이 요구되므로 dominated convergence를 활용할 필요가 있다.
Theorem 5.2 만약 $T$의 moment generating function $M_T$가 0 주변에서 finite할 때, $M_T$의 모든 차수의 derivative도함수가 0에서 continuous하고,
\[\alpha_{r_1, \cdots, r_s} = \frac{\partial^{r_1}}{\partial u_1^{r_1}}\cdots\frac{\partial^{r_s}}{\partial u_s^{r_s}} M_T(u)\bigg\vert_{u=0}\]가 성립한다. 또, 이에 대응되는 cumulants는 CGF $K_T$에 대하여 다음과 같이 구할 수 있다.
\[\kappa_{r_1, \cdots, r_s} = \frac{\partial^{r_1}}{\partial u_1^{r_1}}\cdots\frac{\partial^{r_s}}{\partial u_s^{r_s}} K_T(u) \bigg\vert_{u=0}\]
$M_T$와 $K_T$의 관계를 통해 이들의 derivative들의 관계 또한 충분히 도출할 수 있다. 이를 테면, $s = 1$인 1차원 random vector(즉, randmo variable)에 대해서 살펴보면
\[\begin{align*} K_T' &= M_T' / M_T \\ K_T'' &= [M_TM_T'' - (M_T')^2]/M_T^2 \end{align*}\]$u=0$일 때를 대입하면 moments와 cumulants의 관계 또한 도출할 수 있는데,
\[\begin{align*} \kappa_1 &= ET \\ \kappa_2 &= ET^2 - (ET)^2 = Var(T) \end{align*}\]이다. Moments와 cumulants는 random vector들이 independent할 때 상당히 다루기 쉬워진다. 특히, 이들의 joint distribution을 구하고 싶을 때 MGF를 이용하게 될 텐데, independence 조건이 있으면 joint 된 것의 MGF은 너무나도 쉽게 구할 수 있기 때문이다. 이 이점을 활용하기 위해서는 우리는 먼저 두 random vector가 independent할 때 expectation이 쪼개질 수 있음을 증명할 것이다.
Lemma 5.3 Random vectors $X$와 $Y$에 대하여 만약 $X$와 $Y$가 모두 양수이거나, 혹은 양수가 아닐지라도 $E\vert X\vert$와 $E\vert Y\vert$가 모두 finite하다면,
\[EXY = EX\times EY\]가 성립한다.
Proof: $Z = (X Y)^T \sim P_X\times P_Y$에 대하여 $g(Z) = \vert XY\vert$를 고려하자. Fubini’s theorem에 의해
\[\begin{align*} E\vert XY\vert &= \int g\,d(P_X\times P_Y) = \int \left(\int \vert x\vert\vert y\vert\,dP_X,(x)\right)\,dP_Y(y) \\ &= \int \vert y\vert E\vert X\vert \,dP_Y(y) = E\vert X\vert \times E\vert Y\vert \end{align*}\]$X$와 $Y$가 모두 양수인 경우, 위의 식에 의해 완전히 증명되었고, 설령 양수가 아닐지라도 $E\vert X\vert$와 $E\vert Y\vert$가 finite하다면 위의 식에 의해 $E\vert XY\vert$가 finite하여 $EXY$가 잘 정의되므로 위의 과정과 비슷한 과정을 한 번 더 밟게 된다면 증명이 된다.
위의 정리는 비단 두 개의 random vectors 뿐만이 아니라 반복해서 활용하다보면 $n$개의 independent random vectors에 대해서도 충분히 적용 가능하다. 만약 independent한 random vectors $Y_1, \cdots, Y_n\in\mathbb{R}^s$에 대하여 $T = Y_1+\cdots+ Y_n$의 분포가 알고 싶을 때, 상수 $u\in\mathbb{R}^s$에 대하여 $e^{u\cdot Y_1}, \cdots, e^{u\cdot Y_n}$도 independent함을 이용하면 위의 Lemma 5.3에 의해
\[M_T(u) = Ee^{u\cdot T} = E[e^{u\cdot Y_1}\times\cdots\times e^{u\cdot Y_n}]=M_{Y_1}(u)\times\cdots\times M_{Y_n}(u)\]가 성립한다. 즉, $T$의 MGF는 각 $Y_i$들의 MGF 곱으로 표현될 수 있다. 또한 CGF 간의 관계는 위에서 log를 취하게 되면
\[K_T(u) = K_{Y_1}(u) +\cdots + K_{Y_n}(u)\]위의 식에서 한 번과 두 번을 각각 미분한 후 $u = 0$(여기서는 0 vector)을 대입하게 되면 1차와 2차 cumulants를 구할 수 있는데, 이들은 각각 mean과 variance였다. 우리는 independent한 random vector들의 합의 mean과 variance는 각각의 mean과 variance의 합과 같음을 익히 알고 있는데, 그것과 일치하는 결과임을 알 수 있다.
Moments and Cumulants in Exponential Families
여기서는 exponential family에 속하는 distribution의 moments와 cumulants가 어떤 특별한 성질을 가지는 지 알아볼 것이다. 만약 어떤 $X$가 canonical exponential family에 속하는 density를 가지고 있을 때, 즉,
\[p_{\eta}(x) = \exp\left[\eta\cdot T(x) - A(\eta)\right]h(x), \quad \eta\in\Xi\]를 가지고 있을 때, $T$는 다음과 같은 MGF를 가지고 있다.
\[\begin{align*} E_{\eta}e^{u\cdot T(X)} &= \int e^{u\cdot T(x)}\cdot e^{\eta\cdot T(x) - A(\eta)}h(x)\,d\mu(x) \\ &= e^{A(u+\eta) - A(\eta)}\int e^{(u+\eta)\cdot T(x) - A(u+\eta)} h(x)\,d\mu(x) \end{align*}\]이때, $u+\eta\in\Xi$라면 뒤의 적분은 $p_{u+\eta}$를 적분한 것으로써 1의 값을 가진다. 따라서 MGF와 CGF는 다음과 같이 각각 정리된다.
\[\begin{align*} M_T(u) &= \exp[A(u+\eta) - A(\eta)] \\ K_T(u) &= A(u+\eta) - A(\eta) \end{align*}\]특히 CGF를 미분하면 우리는 다음을 얻는다. 이때 $u$로 미분하게 되지만 $A$는 원래 $\eta$의 함수로 표기하기도 했고, 변수 명을 바꾼다고 하여 미분 값이 바뀌는 것은 아니므로 편의상 $\eta$로 표기하기로 한다.
\[\kappa_{r_1, \cdots, r_s} = \frac{\partial^{r_1}}{\partial\eta_1^{r_1}}\cdots\frac{\partial^{r_s}}{\partial\eta_s^{r_s}} A(\eta)\]Example 5.4 Poisson distribution에 대해서 살펴보자. 만약 $X$가 mean $\lambda$를 가지는 Poisson distribution을 따른다고 가정했을 때, mass function은 다음과 같다.
\[P(X = x) = \frac{\lambda^x e^{-\lambda}}{x!} = \frac{1}{x!}\exp[x\log\lambda - \lambda], \quad x = 0, 1, \cdots\]Poisson distribution의 density는 exponential family의 형태를 띠고 있지만 canonical form은 아니다. $\eta = \log\lambda$으로 parameterize됨을 알 수 있는데, 그러면 mass function은
\[P(X = x) = \frac{1}{x!}\exp[\eta x - e^{\eta}], \quad x = 0, 1, \cdots\]임을 알 수 있고, $T = X, A(\eta) = e^{\eta}$이다. 미분하게 되면 $T = X$의 모든 cumulants는 $e^{\eta} = \lambda$임을 발견할 수 있다.