Post

Weak Law for Random Functions(랜덤 함수와 랜덤 함수의 약한 큰 수의 법칙)

지난 글들 중 maximum likelihood estimator(MLE)에 관한 편에서 우리는 MLE가 정의되는 방식과, 그 정의를 활용하여 몇 가지 model에 대하여 MLE를 직접 구해보았다. 그리고 명확하진 않았지만 직관적으로 MLE가 왜 그럴싸한 estimator를 제공해주는지도 살펴보았다. Likelihood를 maximise를 한다는 것이 unknown true parameter를 알아내는 데 어떤 의미가 있는지 말이다. 하지만 이를 우리는 수학적 표현을 활용하여 분명하게 할 필요가 있다. 하여 이 글부터는 이러한 MLE의 주요한 성질을 수학적으로 입증하기 위한 첫 발을 내딛는 것이다. 그리고 이어서 MLE는 일반적으로 어떠한 convergence proeprty와 limiting distribution을 가지는지 알아보고, 이렇게 정의한 MLE가 수학적으로도 꽤나 efficient하고 performance가 좋은 estimator라고 증명해보일 것이다.

사실 MLE뿐만이 아니라 통계학에서 많은 경우에 어떤 목적 함수를 최대화하는 방식으로, 혹은 어떤 방정식의 해를 통해 필요한 estimator를 도출해낸다. MLE는 그중 한 경우로써 likelihood를 최대화하려는 시도를 하였다. 이러한 방식으로 얻는 estimator 중에서 충분히 좋은 performance를 갖는 estimator이 상당히 많이 알려져있다. MLE말고도 이를테면 moment를 활용하여 얻는 estimator(이를 method of moment로 얻어진다고 표현한다)가 있고, 곧 다른 글에서 다루게 될 M-estimator도 매우 유명하다.

비록 수식의 간편화를 위해 당분간 i.i.d. random sample를 기본적으로 가정하고 수학적으로 정립해나갈 것이지만, 이는 충분히 더 일반적인 경우로 확장이 가능하다. 마지막 편에서는 이를 조금 확장하면 수학적으로 어떤 방식을 취하면 되는지 time series data sample이 주어진 경우에 한하여 간략히 다룰 것이다.



Random Functions

먼저 random function에 대해서 다룰 것이다. Random variable을 넘어서 random function에 대해서 다루는 이유는 앞으로 모든 random variable이 parameter $\theta$에 대한 함수가 될 것이기 때문이다. 현재까지 weak law of large numbers(WLLN) 따위의 정리들이 random variable에 대해서만 정립되어 있는데, 이로써 우리가 최대로 보일 수 있는 것은 특정 값으로 고정된 parameter $\theta$에 대하여 data가 그 정리들을 만족한다는 것이다. 하지만 우리가 진정 원하는 것은 고정된 $\theta$에서의 convergence가 아닌, 아무런 $\theta$를 잡아도 uniform하게 convergence가 성립되도록 하는 것일 테다. 우리는 이러한 uniform convergence가 성립할 수 있도록 주요 theorem들을 확장해나갈 것이다.

Data $X_1, X_2\cdots$가 i.i.d. random sample이라고 가정하고, $K$가 $\mathbb{R}^p$ 내의 compact set옹골집합이라고 가정하자. 모든 각 $x$에 대하여 $t$에 대한 continuous function $h(t, x)$에 대하여

\[W_i(t) = h(t, X_i), \quad t\in K\]

를 정의하자. 그러면 $W_1, W_2, \cdots$는 $C(K)$ 위에서 값을 취하는 i.i.d. random functions라고 볼 수 있다. 이때 $C(K)$는 $K$ 위에서 정의되는 모든 continuous function으로 이루어진 vector space벡터 공간이다. $C(K)$는 많은 것들을 할 수 있는 vector space인대, 기본적으로 addition, subtraction, multiplied by constant에 닫혀있고(즉, linear space선형공간), convergence도 정의할 수 있다. Convergence를 정의할 때는 사실 어느 norm을 활용할 것인지가 중요한데, 여기는 다음과 같이 정의되는 supremum norm $\Vert\cdot\Vert_\infty$을 활용할 것이다.

\[\Vert w\Vert_{\infty} := \sup_{t\in K} \vert w(t)\vert, \quad w\in C(K)\]

Sequence of functions $w_n$이 $w$로 converge한다는 것은 결국 $\Vert w_n - w\Vert_{\infty}\to 0$으로 정의한다는 것이다. 이 norm과 함께 $C(K)$는 complete완비, 즉 모든 Cauchy sequence코시 수열이 converge하고 그 limit 또한 space 안에 존재함이 알려져 있다. 이렇게 linear property를 만족하면서도 complete한 space를 Banach space바나흐 공간이라고 부른다.

$C(K)$의 성질은 이것으로 끝나지 않는데, $C(K)$는 separability도 가지고 있다. 어떤 space $X$의 subset $A$이 dense하다는 것은 $X$의 임의의 element에 대해서 무한정 가까운 $A$에 속한 element를 찾을 수 있는 경우를 말한다. 가장 직관적인 예로 유리수의 집합 $\mathbb{Q}$은 $\mathbb{R}$에 대하여 dense한데, 그 어떤 실수도 그 실수와 충분히 가까운 유리수를 얼마든지 찾을 수 있기 때문이다. 이때 주어진 space의 dense subset 중에서도 element 개수가 countable할 정도로 적은 것이 존재할 때, 우리는 해당 space가 separable하다고 표현한다. 유리수 집합 $\mathbb{Q}$는 countable set이므로 $\mathbb{R}$ 역시 separable하다. $\mathbb{R}$ 자체는 uncountable하지만, 결국 countable set $\mathbb{Q}$ 정도만 이용해도 모든 실수가 $\mathbb{Q}$ 중 하나에 충분히 가까우므로, $\mathbb{Q}$의 각 element를 중심으로 하는 작은 ball을 그려도 모든 $\mathbb{R}$의 element가 커버된다. 그리고 그 ball의 개수는 countable하므로 indexing을 자연수로 할 수 있다. 이러한 의미에서 separable하다고 표현한다. $C(K)$도 supremum norm과 함께 이 성질을 가지고 있다는 것을 분명히 하고 싶었다. $C(K)$를 포함하여 모든 separable Banach space 위에서 정의된 i.i.d. random element(variable이든 function이든…)에 대하여 WLLN이 성립함이 알려져 있다.

위에서 설명한 $C(K)$에 대한 내용은 사실 기초적인 topology위상수학를 공부한 경험이 있어야 더욱 수월히 이해할 수 있을 것이다.

이 $C(K)$ 위에서 measurability를 어떻게 정의할 지에 대해서도 궁금할 수 있다고 생각한다. 먼저 가장 큰 문제인 Borel $\sigma$-algebra를 정의하기 위한 Borel set을 interval로부터 정의해야 하는데, 여기서 interval이 무엇이냐는 것이다. 이 상황에서는 interval의 더 일반적인 개념인 ball을 활용할 것인데, $B_a(w) :- \{f\in C(K): \Vert f - w\Vert_{\infty}\lt a\}$는 중심이 $w$이고 radius가 $a$인 구다. 이와 같은 ball들을 $\mathbb{R}^1$에서 살펴보면 open interval이 됨을 알 수 있다. 무튼 이 ball를 모두 포함하는 $\sigma$-algebra가 우리가 찾던 Borel $\sigma$-algebra가 될 것이다.

만약 measurable space $(\mathcal{X}, \mathcal{A})$ 위에서 probability가 잘 정의되었다면, random function은 $W:\mathcal{X}\to C(K)$로 정의될 것이다. 이것이 measurable하다는 것은 모든 Borel set $B\in\mathcal{B}$에 대한 preimage $W^{-1}(B)$\in \mathcal{A}가 될 때이다.

이제 $C(K)$ 위에서 WLLN이 성립함을 알기 위한 토대를 만들어나가보자.


Lemma 22.1 $W$가 $C(K)$ 위에서 정의된 함수라고 하고,

\[\mu(t) = EW(t), \quad t\in K\]

를 정의하자(이 $\mu$를 $W$의 mean이라고 똑같이 부른다). 만약 $E\Vert W\Vert_{\infty} \lt\infty$라면, $\mu$는 continuous하다. 또한,

\[\sup_{t\in K} \sup_{s:\Vert s-t\Vert\lt\epsilon} \vert W(s) - W(t)\vert \to 0, \quad \text{as}\quad\epsilon\searrow 0 0\]

가 성립한다.

Proof:

This post is licensed under CC BY 4.0 by the author.