Utility Theory - Construction of Utility(효용이론 - 효용함수의 정립)
지난 글부터 왜 우리가 risk, 즉 loss의 expectation을 활용하여 performance가 더 좋은 estimator를 선정했는지를 조금 더 원초적인 관점에서 살펴볼 것이다. 우리가 진짜 원하는 estimator가 왜 하필 risk로 판별될 수 있었는지, risk에는 어떤 의미가 숨어있는지 알아보도록 한다. Estimator들 중에서 어떤 것이 더 선호된다는 것을 수학적으로 표현하기 위해 그 estimator를 선택했을 때의 rewards보상을 나타내는 수치인 utility효용를 정의할 것이다. 이후, utility function들이 정립되어가는 과정을 살펴보고 수학적으로 가지는 특징을 여럿 살펴보도록 한다. 이에 따라 risk도 하나의 utility function으로 역할을 할 수 있음을 보이고자 한다.
저번 편에서는 reward와 preference, 그리고 이를 수치적으로 나타내는 utility의 기본 개념과 이들에 대한 기초적인 감을 잡기 위한 여러 예시를 제시하였다. 이번 편은 preference를 수치적으로 나타내기 위해 도입한 utility function이 존재하기 위해 어떤 axiom들이 가정되어야 하고, 그 토대 위에서 utilty가 어떻게 정의될 수 있을지 원론적인 부분부터 차례차례 쌓아 올라간다.
Axiomatic Development of Utility
Utility function이 어떤 역할을 수행하는지 감을 익혔으리라 생각한다. 앞에서 우리는 $\precsim$를 가지고 bounded probability distribution의 class $\mathcal{P}_B$ 위에서 complete ordering을 잘 정의했었다. 이제부터 우리는 utility function이 $R$ 위에서 잘 정의되고 임의의 $P_1, P_2\in\mathcal{P}_B$에 대하여
\[P_1\precsim P_2 \Longleftrightarrow E_{P_1} U \le E_{P_2}U\]가 성립하기 위한 $\precsim$에 대한 조건들을 탐구할 것이다.
먼저 표기법 하나를 정의한다. $\mathcal{P}$에서 두 distribution $P_1, P_2$와 $0\lt \alpha\lt 1$을 만족하는 $\alpha$ 하나를 고려하자. 각 event $A\in\mathcal{A}$에 대하여 probability $\alpha P_1(A) + (1-\alpha)P_2(A)$를 대응시키는 distribution을 단순히 $\alpha P_1 + (1-\alpha) P_2$라고 표기한다. 구체적으로, 보상 $r_1, r_2\in R$과 $0\lt\alpha\lt$인 $\alpha$에 대하여 $\alpha r_1 + (1-\alpha)r_2$는 보상 $r_1$를 probability $\alpha$로, 보상 $r_2$를 probability $1-\alpha$로 주는 distribution을 의미하며, 당연히 $\mathcal{P}$에 속한다. 그리고 직관적인 사실이지만 $P_1, P_2\in \mathcal{P}_B$이면 $\alpha P_1 + (1-\alpha)P_2\in\mathcal{P}_B$이다.
우리는 첫 번째 가정을 다음과 같이 할 것이다.
Axiom 18.1 [U1] $P_1, P_2, P$가 $\mathcal{P}_B$에 속한 distribution이고, $\alpha$는 $0\lt\alpha\lt 1$을 만족한다고 하자. 그러면
\[P_1\prec P_2 \Longleftrightarrow \alpha P_1 + (1-\alpha)P \prec \alpha P_2 + (1-\alpha)P\]이다.
이 가정이 굉장히 뜬금없다고 생각할 수 있다. 하지만 distribution $\alpha P_1+(1-\alpha)P$와 $\alpha P_2 + (1-\alpha)P$를 기반으로 각각 보상을 주는 lottery 두 개를 고려하자. 둘 다 probability $1-\alpha$에 대하여 보상이 $P$에 의해 결정될 수 있다. 이러한 공통적인 random한 요소들은 $P_1$과 $P_2$의 preference를 결정하는데 도움이 될 수 없어야 하고, 그것이 위의 가정이 담은 내용이다. 이 가정으로 인하여 다음 성질들이 도출된다.
Lemma 18.2 $P_1, P_2, Q_1, Q_2$가 모두 $\mathcal{P}_B$에 속하는 distribution이고 $P_1\precsim Q_1$과 $P_2\precsim Q_2$가 성립한다고 하자. 그리고 $\alpha$는 $0\lt\alpha\lt1$을 만족하는 임의의 수다. 그러면
\[\alpha P_1 + (1-\alpha)P_2\precsim \alpha Q_1 + (1-\alpha)Q_2\]이다. 이와 더불어, 만약 $P_1\prec Q_1$ 혹은 $P_2\prec Q_2$, 즉 둘 중 적어도 하나가 strict하게 prefer된다면,
\[\alpha P_1 + (1-\alpha)P_2 \prec \alpha Q_1 + (1-\alpha)Q_2\]가 성립한다.
Proof: Axiom 18.1를 연달아 활용하면
\[\alpha P_1 + (1-\alpha)P_2\precsim \alpha Q_1 + (1-\alpha)P_2 \precsim \alpha Q_1 + (1-\alpha)Q_2\]이다. 그리고 $P_1\prec Q_1$ 혹은 $P_2\prec Q_2$가 추가로 성립한다면, 위에서 적어도 하나는 strict inequality로 성립되므로 궁극적으로 strict preference가 성립한다.
Lemma 18.3 특정 보상 $r_1, r_2\in R$에 대하여 $r_1\prec r_2$이고, $\alpha$는 $0\lt\alpha\lt 1$을 만족하는 임의의 수라고 하자. 그러면,
\[r_1\prec \alpha r_2 + (1-\alpha)r_1 \prec r_2\]Proof: 각각의 보상 $r_i$는 $r_i = \beta r_i + (1-\beta)r_i$가 성립한다. 그러므로 Axiom 18.1를 연달아 활용하면,
\[r_1 = \alpha r_1 + (1-\alpha)r_1 \prec \alpha r_2 + (1-\alpha)r_1 \prec \alpha r_2 + (1-\alpha)r_2 = r_2\]
Lemma 18.4 특정 보상 $r_1, r_2\in R$에 대하여 $r_1\prec r_2$이고, $\alpha$와 $\beta$는 각각 $0\le\alpha\le1$과 $0\le\beta\le1$을 만족하는 임의의 수라고 하자. 그러면
\[\alpha\lt\beta \Longleftrightarrow \alpha r_2 + (1-\alpha)r_1 \prec \beta r_2 + (1-\beta)r_1\]Proof: 먼저 $\alpha\lt\beta$임을 가정하자. $\gamma = (1-\beta)/(1-\alpha)$라고 두면, $0\le\gamma\lt 1$이 성립하고
\[\beta r_2 + (1-\beta)r_1 = \gamma[\alpha r_2+(1-\alpha)r_1] + (1-\gamma)r_2\]로 표현된다. 따라서
\[\begin{align*} \alpha r_2 + (1-\alpha)r_1 &= \gamma[\alpha r_2 + (1-\alpha)r_1] + (1-\gamma)[\alpha r_2 + (1-\alpha)r_1] \\ &\prec \gamma[\alpha r_2 + (1-\alpha)r_1] + (1-\gamma)r_2 \\ &=\beta r_2 + (1-\beta)r_1 \end{align*}\]가 성립하고 증명되었다. Converse의 경우는 Lemma 18.3과 비슷하게 하면 쉽게 증명된다.
다음 가정은 distribution의 probability를 충분히 작게 바꾸면 strict preference는 유지됨을 의미한다.
Axiom 18.5 [U2] $P_1, P_2, P$가 $\mathcal{P}_B$에 속하는 distribution이고 $P_1\prec P\prec P_2$가 성립한다고 하자. 그러면 적절한 $\alpha\in(0, 1)$과 $\beta\in(0, 1)$가 존재하여 다음을 만족한다.
\[P\prec\alpha P_2+(1-\alpha)P_1\quad\text{and}\quad P\succ\beta P_2 + (1-\beta)P_1\]
두 번째 axiom, Axiom 18.5가 가져오는 특징을 하나 살펴보자. $r$과 $r_1$이 $r\succsim r_1$을 만족할 때, 모든 $\beta$에 대하여 $\beta r_2 + (1-\beta)r_1\succ r$가 되도록 하는 적절한 $r_2\in R$가 없다. 마찬가지로 $r$과 $r_2$이 $r\prec r_2$를 만족하는 특정 보상이라고 할 때, 모든 $\alpha$에 대하여 $\alpha r_2 + (1-\alpha)r_1 \prec r_2$를 만드는 적절한 $r_1\in R$이 없다. 이를 다른 말로 표현하면 $R$에서는 절대적인 최상의 보상과 최악의 보상은 없는 것이다. 만약에 최상의 것과 최악의 것이 있었다면 Axiom 18.5에서 보여주는 것은 중간 정도의 원하는 보상을 최상이 나올 probability를 줄이고 최악이 나올 확률을 조금 늘리는 방법으로 조합하여 정확히 얻을 수 있음을 의미한다. 그러한 면에서 보면, Axiom 18.5은 이러한 실험적인 특성을 적극 보장해주는 axiom이라고 볼 수 있다. 이는 다음 theorem에서 더 정확히 보여준다.
Theorem 18.6 $r_1\prec r_2$이고 $r_1\precsim r\precsim r_2$인 보상 $r, r_1, r_2\in R$에 대하여 다음을 만족하는 constant $\nu\in[0, 1]$가 uniquely하게 존재한다.
\[r\sim \nu r_2 + (1-\nu)r_1\]Proof: 만약 $r$이 $r_1$ 혹은 $r_2$와 정확히 equivalent하면 자명한 경우로 증명된다. 이제 $r_1\prec r\prec r_2$인 경우에 대하여 다음을 고려하자.
\[S:= \{\alpha\in[0, 1]: r\prec \alpha r_2 + (1-\alpha)r_1\}\]만약 $\alpha_1\in S$이고 $\alpha_2 \gt \alpha_1$이라면 Lemma 18.4에 의하여 $\alpha_2\in S_1$이다. 또한, $1\in S$이기 때문에 $S\ne\emptyset$이다. 따라서 $S$는 interval이라고 볼 수 있다.
$\nu = \inf S$라고 놓자. 만약, $\nu r_2 + (1-\nu)r_1\prec r$이라면 $\nu\lt1$이고 Lemma 17.6에 의하여 $\nu r_2 + (1-\nu)r_1\prec r\prec r_2$라는 면에서, 어떤 $\beta\in (0, 1)$에 대하여
\[r\succ \beta r_2 + (1-\beta)[\nu r_2 + (1-\nu)r_1] = [\nu + \beta(1-\nu)]r_2 + (1-\beta)(1-\nu)r_1\]이 성립한다. 이것이 의미하는 바는 $\nu$가 $\inf S$가 아니라는 것이다. 반대로, 만약 $\nu r_2 + (1-\nu)r_1\succ r$이라고 하면, $\nu >0$일 것이고 다시 Lemma 18.3에 의하여 $\nu r_2 + (1-\nu)r_1\succ r\succ r_1$이라는 점에서 어떤 $\alpha\in(0, 1)$에 의해
\[r\prec \alpha r_1 + (1-\alpha)[\nu r_2 + (1-\nu)r_1] = (1-\alpha)\nu r_2 + [1-(1-\alpha)\nu]r_1\]가 성립한다. 이 역시 $\nu$가 $\inf S$라는 점과 모순이다.
따라서 유일한 경우인 $r\sim \nu r_2 + (1-\nu)r_2$이 성립한다. Uniqueness는 Lemma 18.4에 의하여 자명하다.
Construction of the Utility Function
우리는 이제 utility function의 역할을 할 수 있는 함수 $U$를 만들 준비가 모두 완료되었다. $s_0$와 $t_0$가 $R$에서의 특정 utility라고 하고 $s_0\prec t_0$라고 하자. 전편에서도 Lemma 17.1에 의하여 increasing linear transformation을 취해도 utility의 성질이 변하지 않으므로 일반성을 잃지 않고
\[U(s_0) = 0, \quad U(t_0) = 1\]로 둘 수 있다. $s_0\precsim r\precsim t_0$를 만족하는 임의의 보상 $r\in R$에 대하여 $U(r)$은 $0\le U(r)\le 1$을 만족해야 한다. 마침 Theorem 18.6에 의하여 다음 관계를 만족하는 $U(r)$이 잘 정의되고 uniquely하게 존재한다.
\[r\sim U(r)t_0 + [1-U(r)]s_0\]$r\prec s_0$을 만족하는 임의의 보상 $r\in R$에 대해선, 다음을 만족하는 $\alpha\in (0, 1)$이 역시 Theorem 18.6에 의하여 uniquely하게 존재한다.
\[s_0\sim \alpha t_0 + (1-\alpha)r\]이들의 utility 또한 같은 것이 자연스럽다(아직 실제로 성립하는지는 모른다).
\[0 = \alpha + (1-\alpha)U(r)\]위의 식이 성립하도록 하는 $U$는
\[U(r) = -\frac{\alpha}{1-\alpha}, \quad r\prec s_0\]이다. 마지막으로 $r\succ t_0$를 만족하는 $r\in R$에 대하여 다시 Theorem 17.9에 의해 다음을 만족하는 $\alpha\in(0, 1)$이 uniquely하게 존재한다.
\[t_0\sim \alpha r + (1-\alpha)s_0\]이들의 utility 또한 같으면 좋을 것이다.
\[1 = \alpha U(r) + 0\]따라서 우리는
\[U(r) = \frac{1}{\alpha}, \quad r\succ t_0\]를 얻는다. 이로써 전체 $R$에 대하여 $U$를 정의하였다. 위의 과정을 통해 통해 다음 두 식과 같은 $U$의 linearity를 나타내는 형태가 성립함이 관건임을 알게 되었다.
\[\begin{align*} U(s_0) &= \alpha U(t_0) + (1-\alpha)U(r) \\ U(t_0) &= \alpha U(r) + (1-\alpha)U(s_0) \end{align*}\]비록 $[s_0, t_0]$을 기준으로만 linearity property를 만족하도록 $U$를 만들었지만, 이는 전체 $R$에 대해서 알아서 linearity property가 성립하기에 utility로써 잘 정의된다. 다음 theorem이 이를 보여준다.
Theorem 18.7 $r_1, r_2, r_3$가 $R$에서의 특정 보상이라고 하고 어떤 $\alpha\in[0, 1]$에 의하여 다음을 만족한다고 하자.
\[r_2 \sim \alpha r_3 + (1-\alpha)r_1\]그러면
\[U(r_2) = \alpha U(r_3) + (1-\alpha)U(r_1)\]이 성립한다.
Proof: 다섯 개의 reward $r_1, r_2, r_3, s_0, t_0$ 중에서 $s_1$이 가장 선호되지 않는 보상, $t_1$을 가장 선호되는 보상이라고 하자. 그러면 $s_1\prec t_1$이 성립한다. $s_1\precsim r\precsim t_1$을 만족하는 임의의 $r\in R$에 대하여 $U_1(r)$은 다음을 만족하는 유일한 $0\le U_1(r)\le 1$으로 결정된다.
\[\label{eqn:defofu1} r\sim U_1(r)t_1 + [1-U_1(r)]s_1 \tag{$*$}\]$r_2$와 관련하여 명제에 주어진 조건과 더불어 위의 식에서 $r = r_1$과 $r = r_3$일 때 성립하는 관계, Lemma 18.2를 활용하면 우리는 다음을 얻을 수 있다.
\[\begin{align*} r_2 &\sim \alpha r_3 + (1-\alpha)r_1 \\ &= \alpha [U_1(r_3)t_1 + [1-U_1(r_3)]s_1] + (1-\alpha)[U_1(r_1)t_1 + [1-U_1(r_1)]s_1] \\ &= [\alpha U_1(r_3) + (1-\alpha)U_1(r_1)]t_1 + [1-\alpha U_1(r_3)-(1-\alpha)U_1(r_1)]s_1 \end{align*}\]또, 관계식 $\eqref{eqn:defofu1}$은 $r = r_2$에 대해서도 성립한다. 그러면 $r_2$에 관하여 $t_1$의 계수를 비교할 수 있는데, Lemma 18.4에 의하여 그 계수끼리는 같아야 한다.
\[\label{eqn:linearity} U_1(r_2) = \alpha U_1(r_3) + (1-\alpha)U_1(r_1)\tag{$**$}\]우리가 원하던 바였던 임의의 $r_i$에 대하여 linearity 관계를 찾았지만, 이 utility는 theorem 밖에서 정의한 $U$가 아니라 $U_1$에 한정되어 있다. 그러므로 우리는 $U_1$이 결국 $U$의 linear transformation을 거친 함수뿐이라 linear property가 $U$로 확장될 수 있음을 보여야 한다.
$r_i$를 $r_1, r_2, r_3$ 중 하나로 놓자. 먼저, $s_0\precsim r_i\precsim t_0$를 가정하자. 그러면 $U$를 정의한 방식에 따르면
\[r_i\sim U(r_i)t_0 + [1-U(r_i)]s_0\]가 성립한다. $r_i$가 위와 같이 표현되므로 명제에서 준 조건에서 $\alpha = U(r_i)$로 둘 수 있고, $\eqref{eqn:linearity}$에서 $r_2$를 $r_i$로, $r_3$를 $t_0$로, $r_1$을 $s_0$로 치환하면 우리는 다음을 얻는다.
\[\label{eqn:first} U_1(r_i) = U(r_i)U_1(t_0) + [1-U(r_i)]U_1(s_0) \tag{$***$}\]이제 만약 $r_i\prec s_0$라고 하자. 앞에서 구한 $r\prec s_0$에서의 $U$의 성질에 의하여 $\alpha = -U(r_i)/(1-U(r_i))$로 둘 수 있으므로
\[s_0 \sim -\frac{U(r_i)}{1 - U(r_i)}t_0 + \frac{1}{1-U(r_i)}r_i\]이고, 이를 바탕으로 $\eqref{eqn:linearity}$에 반영시키면
\[U_1(r_2) = -\frac{U(r_i)}{1 - U(r_i)}U_1(t_0) + \frac{1}{1-U(r_i)}U_1(r_i)\]가 되고, 이는 $\eqref{eqn:first}$와 정확히 일치한다(형태만 다를 뿐).
마지막으로 $r_i\succ t_0$를 가정하자. 그러면 비슷한 논리로 $\alpha = 1/U(r_i)$라고 둘 수 있으므로
\[t_0\sim \frac{1}{U(r_i)}r_i + \left[1 - \frac{1}{U(r_i)}\right]s_0\]가 성립한다. 이를 바탕으로 $\eqref{eqn:linearity}$에 반영시키면
\[U_1(t_0) = \frac{1}{U(r_i)}U_1(r_i) + \left[1 - \frac{1}{U(r_i)}\right]U_1(s_0)\]를 얻고, 이 역시 $\eqref{eqn:first}$와 정확히 일치한다. 그러므로 $\eqref{eqn:first}$를 통해 $U_1$을 $U$로 대체할 수 있으며, linearity가 $U$에서도 그대로 유지됨을 알 수 있다.
Verification of the Properties of a Utility Function on Distribution
지금까지는 고정된 보상 $r_i$에 대해서만 utility $U$가 잘 정의되는지의 여부, 또 잘 정의되기 위한 기초적인 axiom들을 가정한 후 $U$을 정립하였다. 하지만 우리의 궁극적인 목표는 probability distribution의 preference에 따른 utility도 잘 정의되도록 하는 것이었다. 즉, 우리는 다음을 만족하도록 해야 한다.
\[P_1\precsim P_2 \Longleftrightarrow E_{P_1}U\le E_{P_2}U\]가장 큰 문제는 distribution $P\in\mathcal{P}_B$에 대하여 expectation $E_P U$이라는 표현이 쓰인다는 것이다. 이는 다시말해 $U$가 $R$의 $\sigma$-algebra $\mathcal{A}$에 대하여 measurable해야 하는 조건이 추가로 필요하다. 그 외에도 expectation에서의 preference의 equivalence과 관련한 조건이 추가된다.
먼저 measurability와 관련한 axiom을 정립하도록 하겠다.
Axiom 18.8 [U3] 임의으 보상 $r_1, r_2, r_3\in R$와 임의의 수 $\alpha\in [0, 1]$와 $\beta\in[0, 1]$에 대하여 다음이 성립한다.
\[\{r: \alpha r+ (1-\alpha)r_1 \precsim \beta r_2 + (1-\beta)r_3\}\in\mathcal{A}\]
이에 따르는 성질 하나를 살펴보자.
Lemma 18.9 함수 $U$는 $\mathcal{A}$에 대하여 measurable하다.
Proof: 우리가 보여야 하는 것은 각 실수 $x$에 대하여
\[U^{-1}((-\infty, x]) := \{r: U(r)\le x\}\in\mathcal{A}\]가 성립한다는 것이다.
먼저 $x\lt 0$일 때를 살펴보자. 어떤 보상 $r$에 대하여 $U(r)\le x$이면, $r\prec s_0$이다. 이 경우 $\alpha = -U(r)/(1-U(r))$로 둘 수 있고, $-U(r)/(1-U(r))>-x/(1-x)$이므로 Lemma 18.4에 의하여 $U(r)\le x$는
\[\begin{align*} s_0 &\sim -\frac{U(r)}{1-U(r)}t_0 + \frac{1}{1-U(r)}r\\ &\succsim -\frac{x}{1-x}t_0+\frac{1}{1-x}r \end{align*}\]인 것과 equivalent하다. 이를 만족하는 모든 $r$의 집합은 Axiom 18.8에 의하여 $\mathcal{A}$에 속한다.
그다음으론 $0\le x\le 1$인 경우를 살펴보자. 이 경우는 $U(r)\le x$인 것과
\[r\precsim xt_0 + (1-x)s_0\]인 것이 equivalent하다. 역시 Axiom 18.8에 의하여 위의 관계식을 만족하는 $r$의 집합은 $\mathcal{A}$에 속한다.
마지막으로 $x>1$일 때다. $r\succ t_0$인 경우에는
\[t_0\sim \frac{1}{U(r)}r + \left(1 - \frac{1}{U(r)}\right)s_0\]임이 성립함을 알고 있고, $1/U(r)\ge 1/x$인 것과 $r\precsim t_0$인 경우까지도 모두 고려하면
\[t_0\succsim \frac{1}{x}r + \left(1 - \frac{1}{x}\right)s_0\]인 것과 equivalent하다. 이 역시 Axiom 18.8에 의하여 성립하는 모든 $r$의 집합은 $\mathcal{A}$에 속한다.
임의의 두 보상 $r_1, r_2\in R$에 대하여 $r_1\prec r_2$가 성립한다고 하자. 그러면 Theorem 18.6에 의하여 각 $r\in [r_1, r_2]$에 대하여 다음을 만족하는 $\alpha(r)$이 존재한다.
\[r\sim [\alpha(r)]r_2 + [1 - \alpha(r)]r_1\]그리고 Theorem 18.7에 의하여 $\alpha(r)$을 직접적으로 구할 수 있는데,
\[U(r) = \alpha(r)U(r_2) + [1-\alpha(r)]U(r_1)\]임에 따라
\[\alpha(r) = \frac{U(r) - U(r_1)}{U(r_2) - U(r_1)}\]를 만족한다. $P([r_1, r_2]) = 1$을 만족하는 distribution $P$ 하나를 생각하자. 임의의 특정 보상 $r\in[r_1, r_2]$을 받는 것은 ,보상 $r_2$를 probability $\alpha(r)$로 보상 $r_1$을 probability $1-\alpha(r)$로 주는 lottery와 완전히 일치한다. 그렇기 떄문에 $P$ 그 자체도 $r_1$과 $r_2$의 적절한 probability를 부여한 것과 equivalent할 것이다. 이를 자세히 알아보기 위해 two-stage lottery 하나를 고려할 것인데, 그 lottery는 $[\alpha(r)]r_2 + [1-\alpha(r)]r_1$의 형태를 가진 lottery를 distribution $P$에 의거하여 뽑고, 뽑은 그 lottery에서 다시 $r_1$이나 $r_2$의 보상을 받는 구조를 갖는다. 그러면 이 two-stage lottery에서 $r_2$의 보상을 받을 전체 probability $\beta$는
\[\beta = \int_{[r_1, r_2]} \alpha(r)\, dP(r)\]이고, $r_1$의 보상을 받을 전체 probability는 $1-\beta$일 것이다. 이때 $\beta$를 정의하는 적분이 존재하는 이유는 $\alpha$가 어차피 $U$의 linear function이고 $U$는 measurable하며, $\beta$의 값은 $[r_1, r_2]$ 위의 적분이기 때문에 무조건 bounded되어 있다. 그러므로 우리는 임의의 bounded distribution $P$을 그저 $P$의 양끝단 보상들인 $r_1$ 혹은 $r_2$를 어떤 probability에 따라 주는 것과 equivalent한 관계를 만들 수 있다. 이를 네 번째 가정으로 둘 것이다.
Axiom 18.10 [U4] 어떤 보상 $r_1, r_2 \in R$에 대하여 $P([r_1, r_2]) = 1$을 만족하는 distribution $P$를 고려하자. 각 보상 $r\in[r_1, r_2]$에 대하여 $\alpha(r)$은 다음과 같이 정의한다.
\[\alpha(r) = \frac{U(r) - U(r_1)}{U(r_2) - U(r_1)}\]그리고 $\beta$를
\[\beta = \int_{[r_1, r_2]} \alpha(r)\, dP(r)\]으로 두면
\[P\sim \beta r_2 + (1-\beta)r_1\]이 성립한다.
위의 관계에 따라 equivalence 관계를 다시 꽤나 구체적으로 표현할 수 있다.
\[P\sim \left[\frac{E_P U - U(r_1)}{U(r_2) - U(r_1)}\right]r_2 + \left[\frac{U(r_2) - E_PU}{U(r_2) - U(r_1)}\right]r_1\]이제 $R$ 위에서 정의된 probability distribution에 관한 것도 수학적으로 모두 정립되었다. 이 정립한 개념이 우리가 원하는 조건을 만족하는지 살펴보고, 추가 성질들도 함께 둘러보자.
Theorem 18.11 임의의 두 distribution $P_1, P_2\in\mathcal{P}$에 대하여
\[P_1\precsim P_2\Longleftrightarrow E_{P_1}U\le E_{P_2}U\]Proof: $P_1$과 $P_2$가 모두 bounded 되어 있기 때문에 $r_1\prec r_2$인 $r_1, r_2\in R$에 대하여
\[P_1([r_1, r_2]) = P_2([r_1, r_2]) = 1\]을 만족하는 것이 존재한다. 따라서 두 distribution에 대하여
\[P_i\sim \left[\frac{E_{P_i} U - U(r_1)}{U(r_2) - U(r_1)}\right]r_2 + \left[\frac{U(r_2) - E_{P_i}U}{U(r_2) - U(r_1)}\right]r_1, \quad i = 1, 2\]이고, Axiom 18.4에 의해 증명이 마무리된다.
Theorem 18.12 $U$와 $U^*$가 Theorem 18.11을 만족시키는 $R$위의 함수라고 하자. 그러면 모든 $r\in R$에 대하여 $U(r) = aU^{*}(r)+b$를 만족하는 $a>0$과 $b$가 존재한다.
Proof: 위에서 정의한 $s_0, t_0$에 대하여 $s_0\prec t_0$이므로 $U(s_0)\lt U(t_0)$와 $U^*(s_0)\lt U^*(t_0)$가 성립한다. 그러므로 $U$와 $U^*$가 $s_0$와 $t_0$에서 같은 값을 갖도록 하는 linear transformation을 생각할 수 있다. 그러므로 우리가 마지막으로 증명하면 되는 것은 $U(s_0) = U^*(s_0)$이고 $U(t_0) = U^*(t_0)$이면 모든 $r\in R$에 대하여 $U(r) = U^*(r)$이 성립하는 것이다.
첫째로 $s_0\prec r\prec t_0$를 만족하는 보상 $r\in R$을 생각하자. 그러면 어떤 $\gamma\in[0, 1]$에 대하여
\[r\sim \gamma t_0 + (1-\gamma)s_0\]가 성립한다. 그러므로
\[\begin{align*} U(r) &= E_{\gamma t_0 + (1-\gamma)s_0} U \\ &= \gamma U(t_0) + (1-\gamma) U(s_0) \\ &= \gamma U^*(t_0) + (1-\gamma)U^*(s_0) \\ &= E_{\gamma t_0 + (1-\gamma)s_0} U^* \\ &= U^*(r) \end{align*}\]가 성립한다. 둘째로 $r\succ t_0$인 $r$를 고려하면 다음을 만족하는 $\gamma\in[0, 1]$이 역시 존재한다.
\[t_0 \sim \gamma r + (1-\gamma)s_0\]비슷한 접근방식으로 우리는 $U(r) = U^*(r)$임을 쉽게 알 수 있다. 마지막 경우인 $r\prec s_0$에 대해서도 동일한 논리이다.
Utility function을 정립하는 많은 과정에서는 이 글에서 한 axiom 가정보다도 더 강한 가정을 하곤 한다. 이를 통해 utility function을 $R$에서 bounded되게끔 하려한다. 보통 더 강하게 가정하는 것 중에 하나는 $\precsim$이 $\mathcal{P}_B$가 아니라 $\mathcal{P}$에 대해서 complete ordering이 된다고 하는 것이다. $U$가 bound되어있기 때문에 expectation $E_P U$가 모든 $P\in\mathcal{P}$에 대하여 finite할 것이고 $U$를 전체 $\mathcal{P}$에 대해 정의할 수 있는 것이다.
그럼에도 불구하고 이 글에서 utility의 boundedness가 성립되도록 axiom을 가정하지 않은 이유는 많은 경우에서 utility가 bound되지 않아야 다루기 쉽기 때문이다. 대표적인 예로 $R$이 실수집합 내에서 잡힐 수 있고 utility function이 linear하거나 quadratic할 수 있는데, 이들은 모두 bounded되어 있지 않다.
하지만, $U$의 boundedness를 가정하지 않은 대신 우리는 $U$를 $\mathcal{P}_B$까지밖에 정의하지 않았다. 하지만 우리는 꽤나 많은 경우에서 bounded 되지 않은 $P$에 대하여 expectation $E_P U$를 계산할 일이 잦다. 그렇기 때문에 $U$의 정의를 $\mathcal{P}_B$에서 $\mathcal{P}_E$(expectation $E_PU\lt\infty$인 모든 $P$의 class)를 확장할 필요가 있다.
사실 $R$이 가장 선호되는 보상과 가장 비선호되는 보상을 포함하고 있으면, $\mathcal{P}$에 속한 모든 distribution이 bounded되어 있으므로 $U$를 $\mathcal{P}_B$에서 $\mathcal{P}_E$로 확장하는 과정이 딱히 불필요하다. 그리고 그러한 보상이 $R$에 없더라도 가상으로 끼워넣어 분석할 때도 있다. 하지만 유의해야 하는 점은 이렇게 끼워넣을 때 우리가 지금까지 만든 axiom들이 그대로 유효하냐는 것이다. 이들이 유효하기 위해서는 가장 선호되는 보상과 가장 비선호되는 보상에 finite한 utility를 부여해야 한다. 다르게 표현하면, $U$가 bounded되어있어야 한다는 것이다. 하지만 $U$는 충분히 unbounded되어있을 수 있고, 그러므로 $U$를 $\mathcal{P}_B$에서 $\mathcal{P}_E$로 확장하는 과정은 나름의 의미가 있다고 볼 수 있다.
Extension of the Properties of a Utility Function
여기에서는 $U$를 $\mathcal{P}_B$에서 $\mathcal{P}_E$로 확장해보도록 하겠다. 가장 궁극적인 목표인
\[P_1\precsim P_2 \Longleftrightarrow E_{P_1}U\le E_{P_2}U\]의 성질을 만족해야 한다. 이를 위해서는 우선 $\precsim$이 $\mathcal{P}_B$가 아니라 $\mathcal{P}_E$ 위에서 잘 정의되어야 한다. 그 말인즉슨, $\mathcal{P}_E$에 속한 모든 distribution에 대하여 적절한 preference가 있어서 $\mathcal{P}_E$위에서 complete ordering을 구체화할 수 있어야 한다. 이를 위해 우리가 늘 가정했던 다음 두 가지를 $\mathcal{P}_E$ 위에서 다시 가정한다.
- $\forall P_1, P_2\in\mathcal{P}_E$에 대하여 다음 중 오직 하나만이 성립한다: $P_1\prec P_2$, $P_2\prec P_1$, $P_1\sim P_2$.
- $\forall P_1, P_2, P_3\in\mathcal{P}_E$가 $P_1\precsim P_2$, $P_2\precsim P_3$기 성립할 때, $P_1\precsim P_3$가 성립한다.
또한 U1(Axiom 18.1)과 U2(Axiom 18.5)를 $\mathcal{P}_E$에 속한 모든 distribution에 대하여 가정할 것이다. 우리는 이 외에도 두 가지 정도의 추가 가정이 필요하다. 임의의 특정 보상 $r_0\in R$에 대하여 다음 $R$의 subset들을 고려하자.
\[(-\infty, r_0] = \{r: r\precsim r_0\}, \quad [r_0, \infty) = \{r: r\succsim r_0\}\]그러면 가정 U3(Axiom 18.8)에 의하여 어떤 $r\in R$에 대해서도 $(-\infty, r]$과 $[r, \infty)$은 $\sigma$-algera $\mathcal{A}$에 속한다. $(-\infty, r_0]$에 속한 모든 보상들은 $[r_0, \infty)$에 속한 보상들과 비교했을 때 선호되지 않으므로 다음의 가정을 하는 것은 타당하다.
Axiom 18.13 [U5] $\mathcal{P}_E$에 속한 임의의 두 distribution $P$와 $Q$에 대하여 어떤 보상 $r\in R$이 $P((-\infty, r]) = Q([r, \infty)) = 1$을 만족한다. 그러면 $P\prec Q$이다.
사실 위의 가정 U5는 U4(Axiom 18.10)과 Lemma 18.4에 의해 증명될 수 있지만, 우리는 unbounded distribution에 대해서도 preference를 잘 부여하고자 axiom으로 두었다.
임의의 distribution $P\in\mathcal{P}_E$와 $P(B)>0$을 만족하는 임의의 집합 $B\in\mathcal{A}$에 대하여 $P_B$를 $P$를 $B$ 위로 truncate한 distribution이라고 하자. 그러므로 임의의 집합 $A\in\mathcal{A}$에 대하여
\[P_B(A) = \frac{P(AB)}{P(B)}\]가 성립한다. 또한 $P_B\in\mathcal{P}_E$이다.
우리는 두 sequence of rewards $s_1\succsim s_2\succsim \cdots$와 $t_1\precsim t_2\precsim \cdots$를, 임의의 특정 보상 $r\in R$에 대하여 $s_m\precsim r$과 $r\precsim t_n$을 만족하는 $s_m$과 $t_n$이 각각의 sequence에 존재하도록 둘 것이다. Sequnece가 이와 같은 property를 만족하면 confinal with $R$이라고 표현하고, 우리는 이와 같은 sequence가 존재한다고 가정할 것이다. 이를 이렇게 가정해야 하는 이유는 일부 completely ordered set은 confinal sequence가 없기 떄문이다.
Confinal sequence로부터 임의의 보상 $s_m, t_n$에 대하여 두 interval $[s_m, \infty)$와 $(-\infty, t_m]$을 고려하자. $P\in\mathcal{P}_E$가 $P([s_m, \infty))>0$와 $P((-\infty, t_m])>0$를 만족하는 임의의 distribution이라고 할 때, 두 truncated distribution $P_{[s_m, \infty)}$와 $P_{(-\infty, t_n]}$은 앞으로 꽤 자주 활용할 것이다. 조금 더 간단한 표기로 전자를 $P_m$으로, 후자를 $P^n$으로 둘 것이다. 우리는 다음 성질들을 유도할 수 있다.
Lemma 18.14 임의의 distribution $P\in\mathcal{P}_E$에 대하여
\[E_P U = \lim_{m\to\infty} E_{P_m} U = \lim_{n\to\infty} E_{P^n}U\]가 성립한다.
Proof: $A_m := [s_m \infty),\ m=1, 2, \cdots$을 놓자. 그러면 confinal sequence의 property에 따라 $A_1 \subset A_2 \subset \cdots$이고 $\bigcup_{m=1}^\infty A_m = R$이다. 그러므로 $\lim_{m\to\infty} P(A_m) = 1$이고,
\[\begin{align*} \lim_{m\to\infty} E_{P_m} U &= \lim_{m\to\infty}\left[\int_{A_m}\frac{U(r)}{P(A_m)}\, dP(r)\right] \\ &=\int_R U(r)\, dP(r) = E_P U \end{align*}\]가 성립한다. $P^n$ 하에서의 expectation에 대해서도 같은 논리로 성립한다.
Lemma 18.15 임의의 distribution $P\in\mathcal{P}_E$와 $P([s_m, \infty))>0, P((-\infty, t_n]) >0$을 만족하는 integer $m, n$을 두자. $m\lt m_1$과 $n\lt n_1$에 대하여
\[P^n \precsim P^{n_1} \precsim P \precsim P_{m_1}\precsim P_m\]이 성립한다.
Proof: 우리는 먼저 $P\precsim P_m$임을 증명할 것이다. $A:=[s_m, \infty)$라고 두고, $B = A^c$라고 하자. 만약 $P(B) = 0$이면 $P_m = P$이므로 증명이 완료된다. 만약 $P(B)>0$이라면 distribution $P$는 다음과 같이 표현될 수 있다.
\[P = [P(A)]P_m + [P(B)]P_B\]$P_B((-\infty, s_m]) = P_m([s_m, \infty)) = 1$이기 때문에 U5(Axiom 18.13)에 의하여 $P_B\precsim P_m$이다. 따라서 Lemma 18.2에 의하여 $P\precsim P_m$이다.
이제 $m=m_1$으로 치환하여 명제에 명시된 바와 같이 $P\precsim P_{m_1}$임을 알 수 있다. 또, 다시 위에서 $P = P_{m_1}$으로 치환하면 $P_{m_1}\precsim P_m$임을 알 수 있다.
$P^n$와 $P^{n_1}$과 관련된 preference에 대해서도 모두 동일한 논리를 적용하면 된다.
이제 우리는 마지막 가정을 할 것인데, unbounded distribution에 대해서도 preference를 정할 때 unbounded distribution을 bounded distribution으로 충분히 근사할 수 있다는 내용이다.
Axiom 18.16 [U6] 임의의 두 distribution $P, Q\in\mathcal{P}_E$에 대하여,
\[\forall m\ge m_0 \quad \text{s.t.}\quad P_m\succsim Q\]을 만족하는 $m_0$가 있을 때, $P\succsim Q$이다. 또한, 만약
\[\forall n\ge n_0 \quad \text{s.t.}\quad P^n\precsim Q\]을 만족하는 $n_0$가 있을 때, $P\precsim Q$이다.
다음 성질은 드디어 $U$가 $\mathcal{P}_E$에 속한 위로 unbounded된 distribution에 대해서도 utility function이 가져야 할 성질을 만족해야 함을 보여준다.
Lemma 18.17 임의의 두 distribution $P, Q\in\mathcal{P}_E$가 다음을 만족하는 $r_1, r_2\in R$를 가진다고 하자.
\[P([r_1, \infty)) = Q([r_2, \infty)) = 1\]그러면
\[P\precsim Q \Longleftrightarrow E_PU\le E_QU\]가 성립한다.
Proof: $r_1, r_2$보다 크게끔 충분히 잡은 $n$에 대하여 $P^n$과 $Q^n$은 잘 정의될 것이다. 앞의 유한한 $(n-1)$개의 ${t_n}$을 버리고 다시 indexing하여 일반성을 잃지 않고 $n=1$에 대해서도 $P^n$과 $Q^n$이 잘 정의된다고 말할 수 있다.
$n=1, 2, \cdots$에 대하여 $a_n:= E_{P^n} U$와 $b_n = E_{Q^n}U$을 정의하자. $P^n$와 $Q^n$은 문제에 주어진 $P$와 $Q$에 대한 조건에 의하여 bounded되어 있음을 알고 있으므로 Lemma 18.16과 bounded distribution에서의 utility function property에 의하여
\[\begin{align*} &a_1\le a_2 \le \cdots \\ &b_1\le b_2\le \cdots \end{align*}\]가 성립한다. 이제 $P\prec Q$임을 가정하자. U6(Axiom 18.16)의 대우에 의하여 어떤 $n_0$에 대하여 $P\prec Q^{n_0}$를 만족하며, Lemma 18.16에 의하여 $P^{n_0}\precsim P$이다. 그러므로 U2(Axiom 18.5)에 의하여 다음을 만족하는 $\alpha\in(0, 1)$이 존재한다.
\[P\prec \alpha Q^{n_0} (1-\alpha) P^{n_0}\]다시 Lemma 18.16에 의하여
\[P^n\prec\alpha Q^{n_0} + (1-\alpha)P^{n_0}, \quad n = 1, 2, \cdots\]가 성립한다. 위의 관계식에 등장하는 모든 distribution은 모두 bounded하므로 bounded distribution에 대한 utility의 성질에 의하여
\[a_n \lt \alpha b_{n_0} + (1-\alpha)a_{n_0}, \quad n = 1, 2, \cdots\]이제 $n\to\infty$의 극한을 취하면 Lemma 18.15에 의하여
\[E_PU\le \alpha b_{n_0} + (1-\alpha) a_{n_0}\]가 성립한다. 더군다나 $P^{n_0}\prec Q^{n_0}$이고 두 distribution 모두 bounded되어 있기 때문에 bounded distribution utility property에 의하여 $a_{n_0}\lt b_{n_0}$가 성립한다. 따라서
\[\alpha b_{n_0} + (1-\alpha) a_{n_0}\lt b_{n_0}\]이다. $\{b_n\}$가 non-decreasing하기 때문에 Lemma 18.14에 의하여
\[\alpha b_{n_0} + (1-\alpha) a_{n_0}\lt E_Q U\]가 성립한다. 따라서 $E_PU \lt E_QU$임을 증명하였다.
이제 converse를 증명하자. $E_PU \lt E_QU$라고 하자. 그러면 충분히 큰 $n_0$에 대하여 $E_PU\lt b_{n_0}$가 성립하고, 우리는 자연스레 $a_{n_0}\le E_PU\lt b_{n_0}$를 얻는다. 우리는 어떤 $\alpha\in (0, 1)$에 대하여
\[a_n \le E_PU \lt \alpha b_{n_0} + (1-\alpha)a_{n_0} \lt b_{n_0}, \quad n = 1, 2, \cdots\]가 성립함을 알 수 있다. $P^n$과 $Q^n$ 모두 bounded하므로 utility의 성질에 의하여
\[P^n \prec \alpha Q^{n_0} + (1-\alpha)P^{n_0} \prec Q^{n_0}, \quad n = 1, 2, \cdots\]가 성립한다. U6(Axiom 18.16)과 Lemma 18.15에 의하여 우리는
\[P\precsim \alpha Q^{n_0} + (1-\alpha)P^{n_0} \prec Q^{n_0}\precsim Q\]를 얻고 $P\prec Q$임을 증명하였다.
이제 마지막으로 Lemma 18.17을 활용하여 utility function의 주요 property가 $\mathcal{P}_E$로 확장될 수 있음을 보일 것이다.
Theorem 18.18 임의의 두 distribution $P, Q\in\mathcal{P}_E$에 대하여
\[P\precsim Q \Longleftrightarrow E_PU\le E_QU\]가 성립한다.
Proof: 충분히 큰 $n$에 대하여 $P_n$과 $Q_n$은 잘 정의될 수 있다. 그러므로 Lemma 18.17에서 했던 것처럼 $n$을 다시 indexing하여 $P_n$과 $Q_n$이 잘 정의되기 시작하는 $n$을 1로 다시 둔다. 이는 일반성을 잃지 않는다.
$n = 1, 2, \cdots$에 대하여 $c_n = E_{P_n}U$와 $d_n = E_{Q_n}U$를 정의한다. 그러면 $c_1\ge c_2\ge \cdots$이고 $d_1\ge d_2\ge \cdots$이다. $P_n$과 $Q_n$은 lower bound가 존재하기 때문에 여기서부터는 Lemma 18.17을 적용할 수 있고, 이들에 대해서는 utility property가 성립한다.
이제 $P\prec Q$를 가정하자. U6(Axiom 18.16)에 의하여 $P_{n_0}\prec Q$를 만족하는 양의 정수 $n_0$가 존재한다. 또한 Lemma 18.15에 의하여 $Q\precsim Q_{n_0}$이다. 그러므로 U2(Axiom 18.5)와 Lemma 18.15에 의하여 다음을 만족하는 적절한 $\alpha\in(0, 1)$이 존재한다.
\[P_{n_0}\prec \alpha Q_{n_0} +(1-\alpha)P_{n_0}\precsim Q\precsim Q_n, \quad n = 1, 2, \cdots\]$P_n$과 $Q_n$이 모두 lower bound가 있기에 Lemma 18.17에 의하여
\[c_{n_0}\lt \alpha d_{n_0} + (1-\alpha)c_{n_0} \le d_{n_0}\]따라서 Lemma 18.14와 Lemma 18.15에 의하여 극한을 취하는 등의 간단한 작업을 통해
\[E_PU\le c_{n_0}\lt \alpha d_{n_0} + (1-\alpha)c_{n_0} \le E_Q U\]를 얻는다. 따라서 $E_PU\lt E_QU$임을 증명하였다.
이제 converse를 살펴보자. 즉, $E_PU\lt E_QU$임을 가정한다. 그러면 Lemma 18.14과 $\{c_n\}$이 decreasing하는 성질에 따라 다음을 만족하는 자연수 $n_0$가 존재한다.
\[c_{n_0}\lt E_Q U\le d_{n_0}\]그러므로 다음을 만족하는 $\alpha\in (0, 1)$도 찾을 수 있다.
\[c_{n_0} \lt \alpha d_{n_0} + (1-\alpha)c_{n_0} \lt E_QU\le d_n, \quad n =1, 2, \cdots\]$P_n$과 $Q_n$이 lower bound를 가지고 있으므로 Lemma 18.17에 의하여
\[P_{n_0} \prec \alpha Q_{n_0} + (1-\alpha)P_{n_0} \precsim Q_n, \quad n = 1, 2, \cdots\]따라서 U6(Axiom 18.16)과 Lemma 18.15에 의하여
\[P\precsim P_{n_0} \prec\alpha Q_{n_0} + (1-\alpha)P_{n_0} \precsim Q\]를 얻는다. 따라서 $P\prec Q$임이 증명되었다.
이렇게 두 가지의 공리를 더 추가함으로써 $U$가 $\mathcal{P}_E$에 대해서도 잘 확장되었음을 확인했다. Linear transformation 아래에서 $\mathcal{P}_E$ 위의 utility function도 유일하고, 이는 Theorem 18.12에서 이미 보인 바 있으며 $\mathcal{P}_E$ 위에서 이 theorem을 적용해도 상관없다.
상당히 긴 과정을 통해 preference가 어떻게 utility로 표현이 될 수 있는지 다루었고, expectation이 random 요소가 가미된 reward를 다룰 때 어떤 역할을 하는지 알 수 있었다. Estimator를 비교하기 위한 loss의 expectation 비교도 이와 같은 맥락에서 등장한 것이다. 우리는 적절한 decision을 내려야 했고, 그 decision을 결정하기 위해 utility를 활용할 것이다. Utility를 어떤 함수로 활용하냐에 따라 decision, 즉 우리의 상항에서는 어느 estimator를 고를지가 달라질 것이고, 이에 기반하는 철학도 모두 상이할 것이다. Utility를 loss function으로 활용하고 expected utility를 risk로 정의하여 이를 minimize하려는 시도를 한 것이 우리가 지금까지 해왔던 방법이다. 이전 글들에서는 당연히 risk를 비교해야 한다면서 risk를 도입하기 급급했지만 utility theory를 통해 왜 risk를 가지고 estimator를 비교하는 것이 합리적이었는지, 또 estimator를 Bayes risk나 다른 방법(이 외에도 minimax 등 여러 방법이 있다)으로 비교하는 것도 왜 합당한지, 이렇게 estimator를 비교하는 방식이 여러 가지로 제안이 되었는지 등 전반적인 것을 이해하는데 도움이 되었길 바란다.
다음 글에서는 다시 원래의 맥락으로 돌아가 large sample theory를 다룰 것이다. 이 내용 역시 frequentist의 심장같은 철학 중 하나라고 볼 수 있는데, 이들이 probability를 정의할 때 infinte sequence of experiment에서 어떤 특정 event의 frequency로 정의했으므로 experiment를 무한 번 진행했을 때 어떻게 되는지, 다시 말하여 sample의 개수가 infinte할 때 어떻게 되는지가 매우 중요한 것이다. 그리고 이들의 논리가 맞춰지기 위해서는 sample size를 무한이 늘렸을 때 어떤 estimate 값이 true value로 다가가야 한다. 이와 관련된 성질이 frequentist가 중요하게 여기는 consistency일치성이다. 그러므로 large sample theory는 estimator가 과연 frequentist의 핵심 가치인 consistency를 만족하는지, 혹은 infinie size일 때 estimator가 따르는 distribution이 무엇일지 파악하여 근사하는 방법론을 제시해주는 것이 목적이 되겠다.