What is Probability?(확률이란?)
-- Karl Pearson, 1910
Introduction
Probability확률 개념은 uncertainty불확실성을 표현하기 위한 도구로써 18세기와 19세기 정도에 등장하였다. 이때 probability를 바라보는 시각이 여럿 등장했는데, 크게는 Bayesian베이지안과 Frequentist빈도론자로 나눌 수 있다. Bayesian은 probability을 ‘믿음의 정도’로 해석하기 시작했으며, 사람마다 그 정도를 해석하는 것은 다르기 마련이므로 우리는 subjective주관적인한 확류이라고 말한다. 이를테면 fair coin의 앞면이 나올 probability가 1/2이라는 것은 앞면과 뒷면이 나올 불확실성이 같은 정도이므로, 앞면이 나올 불확실성이 1/2 정도라고 생각한 것이다. 이와는 다르게, frequentist는 장기적으로 바라봤을 때의 빈도로 해석하였다. 가령, frequentist가 fair coin의 앞면이 나올 probability가 1/2이라고 해석하는 것은 이 fair coin을 계속해서 던졌을 때 전체 경우에서 앞면이 등장한 횟수가 평균적으로 절반이라는 관점에서 나왔다. 이를 다른 말로 objective객관적인 확률이라고도 한다. 이 두 개의 다른 관점이 통계학의 분석을 절대적으로 방해했다고 할 순 없지만, 분명한 점은 아직 통계학이 어떠한 관점에서 확립되었는지는 입이 하나로 모아지지 않았다는 것이다.
우리가 익숙히 알고 있는 frequentist들의 확률을 바라보는 시각은 반복되는 똑같은 실험 속에서 발생하는 어느 사건의 frequency빈도에 입각한다. 한편으로는 정말 자연스러운 정의이기에 우리가 처음에 기초적인 통계를 배울 때 확률를 frequentist의 시각으로 바라보게 되는 데도 별다른 의문점이 생기지 않으니 말이다. 기초통계에서는 Frequentist의 관점에 입각하여 많은 통계 개념들을 확장했는데, 이를테면 confidence interval신뢰구간을 특정할 때 사용하는 기준점인 confidence level신뢰도는 여러 개의 sample표본를 똑같이 반복하여 추출한 후 도출한 confidence interval이 알려지지 않은 parameter모수를 포함하는 ‘frequency’이었다는 점이다. 그밖의 $p$-value$p$-값, power검정력 등의 개념들은 모두 이 똑같은 반복적인 sampling의 과정에서 도출된 것들이다.
또 다른 관점으로는 1763년, Bayes가 작성한(그리고 사망 후에야 출판된) An Essay Towards Solving a Problem in the Doctrine of Chances에서 볼 수 있다. Bayesian 사람들은 확률을 불확실성을 수치화하는 잣대로써 활용하였다. 그당시 inverse probability역확률, 측정할 수 없는 변수의 확률 분포를 일컬으며 지금의 posterior distribution의 옛날 용어이다를 추정하기 위해 Bayes theorem베이즈 정리를 제안하게 되었는데, 이 식에 내포되어 있는 논리에도 불확실성을 수치화하는 부분이 등장한다.
\[f(\theta\vert x) = \frac{f(x\vert\theta)f(\theta)}{f(x)}\]예컨대, 위의 식에서 $f(\theta)$는 prior distribution사전분포라고 불리는데, 데이터가 관측되기 전(즉, $x$라는 데이터를 얻기 전) $\theta$ 에 대해 알고 있는 불확실성의 지식과 정보를 바탕으로 수치화하여 확률로 표현한 것이 prior distribution이었던 것이다. 하지만 이러한 시각으로 바라보는 경우 사람마다 느끼는 불확실의 정도가 다르게 되고 결국 확률을 subjective하게 바라보게 된다는 문제점이 있었다. 확률을 주관적인 관점으로 정의하는 것 자체에는 잘못된 점이 없지만, 사람마다 믿음의 정도가 다르기 마련이므로 특정 사건의 확률을 다 다르게 표현하게 되면서 하나의 수치로 합의되는 부분이 없다는 것이 분쟁거리로 다가왔다. Prior distribution을 결정하는 Bayesian 분석 기법에서도 이러한 단점이 여실히 드러나는데, 주어진 정보를 바탕으로 최대한 objective하게 확률을 계산하여 prior distribution에 적용하려고 많은 노력이 더해졌지만, 일관된 prior distribution의 선택이 이루어지지는 않고 있다.
확률을 수학으로 정의하려는 시도는 꽤나 오랜 역사를 가지고 있다. 16세기 Gerolamo Cardano가 확률게임, 즉 random한 요소가 가미되어 진행되는 게임에서 불확실성을 분석하고자 할 때부터 시작하여, 17세기 Pierre de Fermat와 Blaise Pascal의 지인이었던 Antoine Gombaud(the chevalier de Méré라는 이름으로 어쩌면 더 유명한..)의 부탁(`두 gambler가 7판 4선승 게임을 하고 있었는데 한 사람이 2승을 거둔 상태에서 모종의 이유로 게임이 중단되었을 때 상금의 배분이 어느 비율로 이루어져야 하는가’라는 유명한 그 문제이다)으로 결국 gambling odds를 수학적으로 공식화하였다. 현재 Probability theory확률론라는 이름으로 정립된 이론은 확률을 수학적인 표현으로 정의하고 있으며, Pierre Laplace에 의하여 완성되었다. 이 이론은 Andrey Nikolaevich Kolmogorov가 1933년에 정립한 probability axiom확률 공리을 바탕으로 하여 완성되었는데, 이전에 제시된 개념인 sample space표본공간을 measure theory측도론과 결합하여 하나의 probability space확률 공간와 이를 바탕으로 하는 probability axiom을 제시하였다는 점에서 의의가 있다. 이 axiom은 지금까지도 아무런 논쟁거리 없이 매우 잘 정립되어 있다.
Measures 측도(들)
Measure는 어떤 집합 $\mathcal{X}$ 위에서 정의되는데, 기하학적인 측정을 일반화한 것이라고 볼 수 있다. 간단하게로는 길이, 넓이, 부피 등으로도 충분히 정의할 수 있다. Measure가 $\mathcal{X}$ 위에서 정의되면, $\mathcal{X}$의 subset $A$의 어떤 측정치를 $\mu(A)$로 표현할 수 있다. 갑자기 measure가 등장한 이유는 이 measure를 기반으로 probability가 정의되기 때문이다.
Example 1.1 만약 $\mathcal{X}$가 countable가산이고,
\[\mu(A) =\#A = \text{number of points in } A\]으로 정의하면, $\mu$는 counting measure셈 측도라고 한다. 즉, $A$는 $\mathcal{X}$의 subset으로써 역시 countable할 것이므로 원소의 개수를 셀 수 있을 것이다. 따라서 집합의 크기를 나타내기 위해 measure $\mu$를 원소의 개수로 정의할 수 있다.
Example 1.2 $\mathcal{X} = \mathbb{R}^n$ 이고
\[\mu(A) = \underset{A}{\int\cdots\int} dx_1\cdots dx_n\]으로 정의된다면, measure $\mu$는 $n$차원짜리 입체의 부피를 나타낸다. 구체적으로, $n=1, 2, 3$일 때 $\mu(A)$는 각각 $A$의 길이, 넓이, 부피가 된다. 이렇게 정의되는 것을 $\mathbb{R}^n$위에서의 Lebesgue measure르벡 측도라고 한다.
위 예에서 보았듯이 같은 집합이라도 어떻게 measure가 정의되냐에 따라 그 값이 달라질 수 있다. 가령 어떤 singleton원소 하나짜리 집합 $\{x\}$를 고려하면, Example 1.1에서 정의한 measure에서는 $\mu(\{x\})=1$이지만 Example 1.2에서 정의한 measure는 $\mu(\{x\})=0$ (적분을 한 점 위에서 하면 0)이다.
하지만 무턱대고 $\mathcal{X}$의 모든 subset위에서 measure를 정의하라고 요구할 수는 없는 노릇이다. Measure가 잘 정의되도록 $\mathcal{X}$의 subset들(전체 혹은 일부)을 모아놓은 집합을 정의할 수 있으며, 이를 바로 $\mathcal{X}$의 $\sigma$-algebra$\sigma$-대수라고 부른다
Definition 1.3 집합 $\mathcal{X}$의 subset들의 collection(한국어로 뭔지 모름) $\mathcal{A}$를 $\sigma$-algebra라고 부르기 위해서는 다음을 만족해야 한다.
- $\mathcal{X}\in\mathcal{A}$ 이고 $\emptyset\in\mathcal{A}$.
- $A\in\mathcal{A}$이면 $A^C=\mathcal{X}-A\in\mathcal{A}$.
- $A_1, A_2, \cdots \in \mathcal{A}$이면 $\bigcup_{i=1}^\infty A_i\in \mathcal{A}$.
먼저 collection이라는 의미는 몇 개만 골라서 모은 집합을 의미한다. 위에서 언급된 “subset의 collection”은 모든 subset을 담은 것이 아닌, 모든 또는 일부 subset을 골라담았다는 것을 의미한다.
Algebra라는 표현은 set들을 모아놓은 것이 어떤 특별한 구조를 가질 때 붙는 이름이다. 그러나 특별한 구조라고 해서 대단한 것은 아니고, 기본적인 집합 연산이 되고, commutativity교환법칙, associativity결합법칙, distributive law분배법칙 등을 만족하고, complement여집합가 있는 등 아주 기본적인 것들을 만족하는 구조를 일컫는다. Defintion 1.3에서는 1번과 2번이 algebra가 가져야 하는 기본 성질들을 담고 있다.
$\sigma$시그마는 보통 countable한 집합들의 union합집합이 다시 존재할 때 특별히 붙여주는 이름이다. $\delta$델타는 보통 countable한 집합들의 intersection교집합 또한 들어있을 때 특별히 붙여주는 이름이다.
$\sigma$-algebra를 정의하기 위해서는 기본적으로 (1) 어떤 집합의 subset인지 표시해주어야 하고, (2) 어떤 subset를 모았는지 명시해야 한다. 위의 정의에서는 (1)에 해당하는 것이 $\mathcal{X}$이고 (2)에 해당하는 것이 $\mathcal{A}$이며, 위의 세 가지 조건을 만족할 때 $\mathcal{X}$의 $\sigma$-algebra가 되는 주체는 $\mathcal{A}$이다. 이제 measure를 정의할 때가 되었다. $\sigma$-algebra는 measure의 domian정의역으로 든든한 역할을 해낸다.
Defintion 1.4 $\mathcal{X}$의 $\sigma$-field $\mathcal{A}$의 함수 $\mu$가 measure로 불리기 위해서는 다음을 만족해야 한다.
\[\mu\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty \mu(A_i)\]
- 모든 $A\in\mathcal{A}$에 대하여 $0\le \mu(A)\le \infty$이다. 즉, $\mu: \mathcal{A}\to [0, \infty]$.
- $A_1, A_2, \cdots\in\mathcal{A}$가 pairwise disjoint서로소할 때,
그리고 $\mu(A)$가 잘 정의되는 $A$를 measurable set가측집합이라고 한다.
흠… 위의 정의에서 의구심이 드는 것이 한 두가지가 아니다. 먼저 첫 번째 조건에서 $\mu$의 codomain치역에 $\infty$가 포함되어 있다는 것이다. 보통 upper bound위로 유계가 없다는 것을 표현할 때도 $[0, \infty)$의 형태로 쓰기 마련인데 여기서는 $\infty$로 숫자처럼 포함시켰다. 앞으로 measure에서 $\mu(A)=\infty$라는 표현은 흔하디 흔하게 보게 될 것이고, 그냥 하나의 숫자로 취급함을 유의하라.
두 번째의 성질은 결국 disjoint한 countable set들의 union의 measure는 그냥 각각의 합과 같다는 것인데, 이를 countable additivity가산가법성이라고 한다. 이렇게 이름까지 따로 등장할 정도면 매우 특별하다는 이야기이니 눈여겨 보도록 하자.
Measure의 정의를 보면 한 가지 드는 생각이 있지 않은가? 만약 probability axiom을 미리 본 적이 있다면, measure의 정의와 probability axiom이 굉장히 비슷한 조건을 가지고 있음을 알 수 있다.
위의 정의로부터 어렵지 않게 도출되는 성질이 있다. Measurable set의 sequence열, 집합열 수열 등등 $B_1\subset B_2\subset\cdots$와(이런 성질을 가지면 sequnece of set $B_n$이 increasing증가한다고 표현한다) 이들의 합집합(혹은 극한값) $B = \bigcup_{n=1}^\infty B_n$에 대하여
\[\mu(B) = \lim_{n\to\infty}\mu(B_n)\]을 만족한다. 이러한 성질은 $\mu$가 continuity연속성을 가진다고 볼 수 있다. 그 이유는 우리가 함수의 continuity를 sequence의 관점에서 본다면, 함수가 어떤 점에서 continuous연속하다는 것은 그 점으로 converge수렴하는 그 어느 sequnce에 대하여 함숫값도 그 점의 함숫값으로 converge함을 의미하기 때문이다.
몇 가지 대표적인 notation을 살펴볼 것이다. 먼저, $\mathcal{A}$가 $\mathcal{X}$의 subset들의 $\sigma$-field라면 $(\mathcal{X}, \mathcal{A})$를 measurable space가측공간이라고 한다. 만약 심지어 $\mathcal{A}$의 measure $\mu$라는 아이가 나타났다면, $(\mathcal{X}, \mathcal{A}, \mu)$는 measure space측도 공간라고 한다. 두 space공간은 영어 표현이 비슷하므로 헷갈리지 말아야 한다.
Probability Measure 확률측도
Probability를 정의할 준비가 모두 완료되었다! Probability는 기본적으로 measure로부터 정의되며, 여기서 한 가지 조건만 더 추가해주면 되는데 바로 전체 확률은 1이라는 점이다. 여기서 전체라는 의미는 결국 subset들 중에서도 모든 원소를 포함하는 것, 결국 그 자기 자신 $\mathcal{X}$가 될 것이다. 따라서 Definition 1.4의 조건을 모두 만족하고 $\mu(\mathcal{X})=1$을 만족하면, 해당 함수 $\mu$는 probability measure확률 측도라고 한다. 그리고 그 probability measure를 담은 space $(\mathcal{X}, \mathcal{A}, \mu)$를 probability space확률 공간이라고 한다. Probability measure도 마찬가지로
\[\mu(B) = \lim_{n\to\infty} \mu(B_n)\]과 같은 continuity를 만족한다.
Example 1.5 집합 $\mathcal{X} = \{1, 2, \cdots, n\}$와 $\mathcal{A} = 2^\mathcal{X}$(이 표현은 $\mathcal{X}$의 모든 subset들을 담은 집합이라는 뜻이다)이라고 하자. 모든 $B\in\mathcal{A}$에 대하여 $\mu$를
\[\mu(B) = \frac{\# B}{n}\]으로 정의하면 $\mu$은 probability measure이고, $(\mathcal{X}, \mathcal{A}, \mu)$는 probability space이다.
Example 1.6 $\mathcal{A} = 2^\mathbb{N}$이고 집합 $\mathcal{X} = \mathbb{N}$를 생각하자. 이는 결국 Example 1.1와 똑같은 설정이다. $\mathbb{N}$은 countable하기 때문이다. 모든 $B\in\mathcal{A}$에 대해 $\mu$를
\[\mu(B) = \lim_{n\to\infty}\frac{\#[B\cap \{1, \cdots, n\}]}{n}\]으로 정의하면 $\mu$가 countable set에 대한 완벽한 probability measure일 것 같지만 사실 아니다. Finite addivity유한가법성은 성립함을 알 수 있다. Disjoint한 $A, B\in \mathcal{A}$에 대하여 $\mu(A\cup B) = \mu(A)+\mu(B)$가 성립하기 때문이다. 또 모든 $A\in\mathcal{A}$에 대해 $\mu(A)\in [0, 1]$이다.
$\mu$가 probability measure가 아닌 결정적인 이유는 countable additivity가 깨지기 때문이다. 아이디어는 이 measure 또한 singleton에 대해서는 0의 값을 주지만, countable한 set에 대해서는 1의 값을 준다는 점이다. 그리고 countable한 개수의 singleton의 union은 곧 countable set이 되므로 countable addivity가 성립하지 않음을 암시한다.
이 아이디어를 구체화해보자. $A_n = \{n\}$으로 놓으면 $A = \bigcup_{n=1}^\infty A_n = \mathbb{N}$이다. 모든 $n$에 대하여 $\mu(A_n) = 0$이기에 $\sum_{n=1}^\infty \mu(A_n) = 0$이지만, $\mu(A) = 1$이다.
이렇게 probability에 대해 기본적인 전개를 모두 마쳤다. 하지만 이 상태로는 probability를 계산하기엔 수학적 정립이 더 필요하다. 다음 포스터에서는 probability measure를 기반으로 event사건, random variable확률 변수, distribution분포를 정의하고, distribution을 따르는 random variable를 더욱 쉽게 특정지어 줄 수 있는 density밀도함수를 함께 정의해보기로 한다.