Random Variables(확률 변수)
Lebesgue Integration 르벡 적분
Measure의 개념을 정립한 우리는 충분히 nice(??)한 함수 $f$가 주어졌을 때 integral적분을 정의해보기로 한다. 그 nice한 조건으로 가장 중요한 regularity(한국어로 모름)는 바로 $f$가 measurable function가측함수이어야 한다는 점이다.
Definition 2.1 Measurable space $(\mathcal{X}, \mathcal{A})$와 $\mathcal{X}$위의 real-valued function $f$에 대하여, $f$가 measurable하다는 것은 모든 Borel set보렐 집합 $B$에 대하여
\[f^{-1}(B) := \{x\in\mathcal{X}: f(x)\in B\}\in \mathcal{A}\]이라는 것이다.
먼저 $\mathcal{X}$의 Borel set이라 함은 $\mathcal{X}$의 open set열린 집합들의 countable union, countable intersection, compliment으로 만들어질 수 있는 집합을 의미한다. 직관적으로는 interval구간, open set, closed set닫힌 집합 등 정상적(?)으로 생긴 모든 집합을 지칭한다고 보면 된다(closed set도 open set의 countable union 혹은 intersection으로 만들어질 수 있지 않은가?). Borel의 정의를 closed set으로 출발해도 equivalent동치의한 집합을 얻을 수 있다. 모든 Borel set을 모으면 그것 자체로 $\sigma$-algebra를 형성함을 쉽게 알 수 있다. 즉, $\mathcal{X}$의 Borel set을 모두 모은 것을 $\mathcal{B}$라고 하면 $(\mathcal{X}, \mathcal{B})$는 measurable space인 것이다. 특히, $\mathcal{X}=\mathbb{R}$이면 $\mathcal{B}$는 interval을 모두 포함하는 가장 작은 $\sigma$-algebra임이 알려져 있다.
Measurable space에 속한 집합들은 measurable set이라고 정의한다. Definition 2.1의 말을 간추려서 표현하면 결국 $f$가 measurable function이기 위해서는 모든 Borel set $B$들의 preimage(한국어로 모름) $f^{-1}(B)$가 measurable set이어야 한다.
Lebesgue integral은 가장 간단하게 생긴 함수부터 출발하여 integral을 정의한다. 먼저 우리는 indicator function(??)의 integral부터 정의한다. 집합 $A$의 indicator function이라 함은 주어진 $x$가 집합 $A$에 속해 있는지 아닌지를 판별하며, 속해 있으면 1 아니면 0의 함숫값을 주는 매우 간단한 함수이다. 기호로는 $1_A$로 자주 사용하며, 수학적으로 표현하면
\[1_A(x) := \begin{cases} 1, & x\in A; \\ 0, & x\not\in A. \end{cases}\]이다. 이 함수를 integrate하게 되면 결국 값이 1로 유지되는 $x$는 집합 $A$ 위에만 있으므로 그 값이 집합 $A$의 크기로 도출되어야 할 것이다. 그래서 우리는 다음과 같이 정의한다.
\[\int 1_A\, d\mu = \mu(A)\]그 다음으로 integral을 정의할 함수는 simple function간단 함수이다. Step function은 계단 모양으로 생긴 함수로, 수학적인 논증을 이어나갈 때 처음으로 시도하기 좋은 아주 간단한 함수이다. 이들은 결국 유한 개의 indicator function들의 합으로 표현 가능하다. 즉, $f$가 simple function이라면 집합 $A_1, \cdots, A_n$와 non-negative음이 아닌 constants상수(들) $a_1, \cdots, a_n$에 대하여
\[f(x) = \sum_{k=1}^n a_k 1_{A_k}(x)\]의 꼴로 표현된다. 이 함수의 integral 값은 결국 각각의 집합의 크기와 그 집합에서 가지는 함숫값의 곱을 모두 합한 값일 것이다. 즉,
\[\int \left(\sum_{k=1}^n a_i 1_{A_i}\right)\,d\mu = \sum_{i=1}^n a_i\mu(A_i)\]만약 전체적으로 intergate하는 것이 아닌, 일부 집합 $B$에서만 integrate하고 싶다면 결과는 다음과 같이 된다.
\[\int_B \left(\sum_{k=1}^n a_i 1_{A_i}\right)\,d\mu = \sum_{i=1}^n a_i\mu(A_i\cap B)\]그렇다면 일반적인 non-negative 함수에서는 integral을 어떻게 정의할까? 이는 결국 simple function을 이용하여 다음과 같이 정의하게 된다.
\[\int_E f\,d\mu := \sup\left\{\int_E s\,d\mu: 0\le s\le f,\ s: \text{simple} \right\}\]Measure를 정의할 때도 언급한 적 있지만 위의 supremum상한이 없어도 $+\infty$를 숫자처럼 취급하여 적분 값을 $+\infty$라고 표기한다.
이 정의가 적당한지 보기 위해서는 $f$가 먼저 simple function일 때, simple function에서의 integral를 정의한 결과와 같은 결과를 주는 지 확인해야 한다. 다행히도 같은 값을 줌을 쉽게 알 수 있다. 하지만, 위의 정의처럼 integral 값을 구하기에는 굉장히 노고스러울 것 같다. 이를 조금 더 간편한 과정으로 바꿀 수 있는 방법이 있는데, 바로 모든 measurable function은 increasing하는 simple function sequence의 limit으로 나타낼 수 있다는 점을 이용해서다.
Proposition 2.2 만약 $f$가 non-negative이고 measurable하다면, $s_1\le s_2\le \cdots$ 이고 $f = \lim_{n\to\infty} s_n$인 non-negative simple function가 존재한다.
우리는 마지막으로 함수가 negative음수 값을 가질 때 integral을 잘 정의해주면 된다. 우리는 항상 임의의 함수를 positive양수부분과 negative 부분으로 쪼갤 수 있다. Measurable function $f$에 대하여 이들을 다음과 같이 정의하자.
\[f^{+}(x) := \max\{f(x), 0\}, \quad f^{-}(x):=-\min\{f(x), 0\}\]그러면 $f^+$와 $f^-$ 모두 non-negative function이고 measurable임을 알 수 있고, $f = f^+ - f^-$이다. 그러면 일반적인 integral은 다음과 같이 정의할 수 있다.
\[\int f\,d\mu := \int f^+\,d\mu - \int f^-\,d\mu\]여기서 유의할 점은 각각의 integral $\int f^+\,d\mu$와 $\int f^-\,d\mu$가 $+\infty$의 값을 가질 수 있다는 것인데, 만약 둘 다 $+\infty$의 값을 가진다면 $\infty - \infty$는 정의할 수 없기에 $\int f\,d\mu$가 정의되지 않는다. 따라서 우리는 추가로 적어도 하나는 $\int f^+\,d\mu < +\infty$ 혹은 $\int f^-\,d\mu < +\infty$이어야 한다는 조건이 요구된다.
또, $\int f\,d\mu$가 finite value를 가지기 위해서는 $\int f^+\,d\mu$와 $\int f^-\,d\mu$가 모두 finite해야 한다. 이와 equivalent한 조건은 $\vert f \vert = f^+ + f^-$라는 점에서 $\int \vert f\vert\,d\mu <\infty$이다. 따라서 이 조건을 만족하면 $f$는 integrable적분 가능한하다고 표현한다.
이렇게 정의된 integral은 몇 가지 성질이 있다.
- $f$와 $g$가 non-negative measurable function들이고, $a$와 $b$가 positive constants라면,
- Monotone convergence 만약 $f_1\le f_2\le\cdots$가 non-negative measurable function이고 $f(x) = \lim_{n\to\infty} f_n(x)$이면
1번 성질은 결국 linearity선형성을 만족한다는 것이고, 2번 성질은 함수가 monotone단조이면 limit과 integral의 순서를 바꿀 수 있다는 의미가 된다. 이는 매우 유용하게 쓰이는 성질이 될 것이며, 특히 위에서 정의한 일반적인 integral를 구할 때 Proposition 2.2와 함께 쓰면 정말 효과적이다.
Null Sets 영집합
Measure theory에서는 measure의 값이 0인 집합들을 특별히 붙여주는 이름이 있는데, 이것이 바로 null set이다. 만약 $\mu$가 measure space $(\mathcal{X}, \mathcal{A})$에서의 measure라면, 집합 $N$이 ($\mu$에 대하여) null 이라는 것은
\[\mu(N) = 0\]이라는 것이다. 집합이 아무리 null set이라고 하여도 이것이 empty set공집합을 꼭 의미하진 않는다. 예를 들어, Lebesgue measure에 대해서는 모든 countable element를 가진 집합은 모두 null set이다. 그러므로 자연수 전체 집합과 유리수 전체 집합도 결국 measure는 0이다. 이정도면 empty set에 비하여 굉장히 큰 집합으로 인식할 수 있지만, Lebesgue measure 입장에서는 실수 전체 집합에 비하여 너무나도 작은 집합이라는 것이다.
이것이 이렇게 중요하게 취급받는 이유는 empty set은 아닌데도 empty set처럼 취급해도 되는 성질 때문에 그러하다. Measure theory에서는 $\mu$에 대한 null set $N$이 주어지고 만약 어떤 statement명제가 $x\in\mathcal{X}\setminus N$에 대해서 성립한다면, 그 statement는 $\mu$에 대하여 almost everywhere거의 어디서나 성립한다고 표현한다. 줄임말로 a.e. 혹은 a.e. $\mu$를 정말 많이 활용한다. 만약 $f = 0\ a.e.\ \mu$라고 표현된 statement의 의미는
\[\mu(\{x\in\mathcal{X}: f(x)\ne 0 \}) = 0\]와 의미와 같으며, 진짜 대부분의 점에서 함숫값이 0이라는 점이다.
$\mu$가 만약 probability measure라면 우리는 비슷한 의미를 부여할 수 있다. 어떤 statement가 $x\in B$에서 성립하는데 $\mu(B^c) =0$ 혹은 $\mu(B) = 1$이라면, 그 statement는 with probability one1의 확률로으로 성립한다고 표현한다. 즉, probability 1로 성립한다는 것은 꼭 전체집합에서 성립함을 의미하는 것이 아니고, 전체집합에서 어느 null set 정도를 제외한 나머지 element에 대해서 성립한다고 인식하면 좋을 것이다. 그러므로 probability가 zero라고 하여 아무것도 해당되는 것이 없다는 의미가 아니다. 단적인 예로, 변의 길이 1짜리인 정사각형 $\mathcal{X} = [0, 1]^2$를 생각하고, 이 중에서 중점 하나만을 가지는 집합 $B = {(1/2, 1/2)}$을 생각하면 probability space $(\mathcal{X}, 2^{\mathcal{X}}, \mu)$에서 $\mu$를 넓이 정도를 의미하는 probability measure(전체 집합의 measure가 1이므로 따로 normalize정규화할 필요는 없다)로 생각하면 $\mu(B) = 0$이다. 즉 임의로 정사각형에 무언가를 던졌을 때 어디든 맞출 확률이 동일하다면, 딱 중점 하나를 맞출 확률은 0이라는 것이다. 그럼에도 $B$는 empty set이 아니다.
이 null set 정도에서 정의되는 함숫값들은 integrate했을 때 결국 무시된다는 점이 중요하다. 이러한 특징으로부터 다음 성질들이 유도된다. 이 성질들은 정말 많이 활용되니 익숙해질 필요가 있다.
- 만약 $f = 0\ a.e.\ \mu$이면, $\int f\,d\mu = 0$.
- 만약 $f\ge 0$이고 $\int f\,d\mu = 0$이면, $f = 0\ a.e.\ \mu$.
- $\mu\equiv 0$가 아닌 이상, $f>g\ a.e.\ \mu$이면 $\int f\,d\mu>\int g\,d\mu$이다.
- 만약 $f = g\ a.e.\ \mu$이면, $\int f\,d\mu = \int g\,d\mu$이다(integral 값이 존재한다면 말이다).
- 만약 모든 $x>c$에 대하여 $\int 1_{(c, x)}f\,d\mu = 0$이면, $f(x) = 0\ a.e.\ x>c$이다. $c=-\infty$이어도 성립한다.
Random Variable 확률 변수
$P$가 probability space $(\mathcal{E}, \mathcal{B}, P)$에서의 probability measure라고 하자.
- 집합 $B\in\mathcal{B}$를 event사건이라고 한다.
- 원소 $e\in \mathcal{E}$를 outcome결과라고 한다.
- $P(B)$를 $B$의 probability라고 한다.
Event와 outcome의 개념이 헷갈릴 수 있다. Outcome은 그냥 나올 수 있는 결과 하나하나를 의미한다. 나올 수 있는 모든 outcome의 집합이 $\mathcal{E}$가 되고 이를 sample space표본 공간이라고 한다. 하지만 event는 우리가 관심 있어하는 outcome들의 집합이다. 그렇게 하여 일어날 수 있는 event를 각각 담은 것이 $\mathcal{B}$가 되는 것이며, 이는 곧 $\sigma$-algebra이다.
Example 2.4 Fair coin을 두 번 던지는 것을 고려하자. $HH$는 두 번 연속 앞면이 나오는 outcome, $HT$는 처음에 앞면이 나오고 두 번째엔 뒷면이 나오는 outcome, $TH$는 처음에 뒷면이 나오고 두 번째엔 앞면이 나오는 outcome, $TT$는 두 번 연속 뒷면이 나오는 outcome이라고 하자. 그러면
- $\mathcal{E} = \{HH, HT, TH, TT\}$
- $\mathcal{B} = 2^\mathcal{E}$
- $B\in\mathcal{B}$에 대해 $P(B)=\vert B\vert/4$으로 정의하자. 그러면 $P$는 probability measure이다. 예를 들어, $B = \{HH, TT\}\in \mathcal{B}$에 대하여 $P(B)=1/2$.
Example 2.5 Sample space $\mathcal{X} = \{1, 2, 3, 4\}$가 주어졌을 때, 우리는 $\sigma$-algebra를 다음과 같이 구성할 수 있다.
\[\mathcal{B} = \{\emptyset, \{1\}, \{4\}, \{2, 3\}, \{1, 4\}, \{1, 2, 3\}, \{2, 3, 4\}, \{1, 2, 3, 4\}\}\]이때 probabilty measure를 $B\in\mathcal{B}$에 대해
\[P(B) = \vert B\vert / \vert \mathcal{X}\vert\]으로 두면 잘 정의된다. 이 외에도 probability measure를 정의할 수 있는 방법은 여러 가지가 있을 것이다.
우리는 random variable을 정의할 수 있다. Random variable은 sample space를 domain으로 갖고, measurable space로 연결시켜 주는 하나의 함수라고 말할 수 있다. 즉, 각각의 event들을 간편하게 measurable space에 속한 원소와 연결하여, 그 random variable와 직접적으로 연결된 probability measure를 만들 수 있다. 말로 표현하면 상당히 추상적이므로 다음 정의들을 먼저 살펴보자.
Definition 2.6 Measurable space $E$에 대하여 measurable function $X:\mathcal{E}\to E$를 random variable이라고 한다.
보통 measurable space를 말할 때는 pair $(E, 2^E)$ 이런 식으로 표현하곤 했었는데, 만약 위의 정의에서 표현된 바와 같이 ‘measurable space $E$’라고 명시되어 있으면, 그 집합을 바탕으로 $2^E$ 등과 같이 적절한 $\sigma$-algrebra가 구성되어 뒤에 암묵적으로 따른다고 생각하기 바란다. 보통 random variable로 $E = \mathbb{R}$로 대게 잡아둔다.
Definition 2.7 Probability density $P_X$를 $E$의 Borel set $A$에 대하여 다음과 같이 정의하자.
\[P_X(A) = P(X\in A)\]그러면 $P_X$는 $X$의 distribution분포라고 한다. 보통
\[X\sim Q\]라고 표현하면 $X$는 distribution $Q$를 가지고 있다는 뜻이며, $P_X = Q$가 된다. $F_X$를 다음과 같이 정의하면
\[F_X(x) = P(X\le x) = P_X((-\infty, x])\]이를 cumulative distribution function(CDF)누적분포함수라고 한다.
위의 정의에서 $P(X\in A)$라는 표현을 활용했는데, 원래 measure 안에는 어떤 집합을 넣어야 하는데 상당히 이상한 표현이 등장했다. 이는 다음을 간추려서 표현한 것이며, 정말 많이 활용하는 표현이니 익숙해지도록 하자.
\[P(X\in A) = P(\{e\in\mathcal{E}: X(e)\in A\})\]결국 $P$는 우리가 정의하는 전체적인 probability라고 볼 수 있다. 그리고 어떤 random variable이 정의되면 이에 따르는 distribution $P_X$가 함께 정의된다. 이는 $X$의 특성을 보여주는 probability measure로써, event를 값으로 넣어주는 것이 아닌 event에 해당하는 $X$의 값을 직접 넣어준다.
Example 2.8 Events $B_1, B_2, \cdots$에 대하여 다음 부등식을 Boole’s inequality불의 부등식라고 한다.
\[P\left(\bigcup_{i\ge 1} B_i\right) \le \sum_{i\ge 1}P(B_i)\]$B = \bigcup_{i\ge 1}B_i$이라고 두면, $ 1_{B} \le\sum 1_{B_i}$ 이므로
\[P(B) = \int 1_B\,d\mu \le \int \sum 1_{B_i}\,d\mu \overset{\text{Fubini}}{=} \sum\int 1_{B_i}\,d\mu = \sum P(B_i)\]로 증명할 수 있다.
지금까지 우리는 Lebesge integral를 정립하고, 기본적인 성질을 다루었다. 이 성질은 앞으로 expectation 등을 활용할 때 유용하게 사용될 것이다. 또, random variable를 probability theory 관점으로 명확하게 다시 정의했는데, 이는 결국 event에서 하나의 실수(혹은 measurable space)로 가는 함수임을 기억하여 distribution 등의 정의를 확실하게 하는 것이 좋다. 다음 포스트에서는 어떠한 distribution을 따르는 random variable의 density를 정의하고, expectation과 variance 등 random 요소가 있는 데이터를 요약하는 수치들의 수학적 표현을 살펴보기로 한다.