사후일치성과 Doob의 정리

Posted by Kyeongwon Lee on Saturday, January 8, 2022

모수의 추정량의 일치성(consistency)은 “표본의 크기를 무한히 크게 함에 따라 모수의 추정량을 모수의 참값에 충분히 가깝게 할 수 있는 성질"로 다분히 빈도론적인 개념이라고 볼 수 있다. 그러나 이는 베이즈 접근에서도 매우 중요한 성질이다. 베이지안의 일치성이라고 볼 수 있는 사후 일치성(posterior consistency)은 표본의 크기를 무한히 크게 했을 때 나타나는 사후분포의 성질이다.
사후 일치성은 서로 다른 사전분포에서 출발한 사후분포들을 결합(merge)하고, 객관적 베이지안(objective Bayesian)들에게는 표본의 크기를 무한히 크게 함에 따라 미지의 실제 모형을 추론할 수 있음을 보장한다. 여기서는 사후 일치성의 정의를 살펴보고, 사후 일치성의 존재성을 보장하기 위한 Doob의 정리와 약한/강한 사후 일치성에 대해 살펴본다.

$\newcommand{bx}{\mathbf{x}}$ $\newcommand{\pop}[1]{\mathfrak{ #1 }}$ $\newcommand{\sfield}[1]{\mathscr{ #1 }}$ $\newcommand{\metric}[1]{\mathbf{ #1 }}$ $\newcommand{\wconv}{\stackrel{w}{\rightarrow}}$ $\newcommand{\indic}[1]{I( #1 )}$ $\newcommand{\Set}[1]{ \left\{ #1 \right\} }$ $\newcommand{\abs}[1]{ \left\vert #1 \right\vert }$

Preliminaries

거리 공간

거리 공간 $(\metric{S}, \rho)$을 생각하자. 이 거리공간이 셀 수 있는 조밀한 부분집합(countable dense subset)을 가질 때, 즉, $\bar{\metric{S}}_0 = \metric{S}$를 만족하는 적당한 셀 수 있는 부분집합 $\metric{S}_0$가 존재할 때, 이 거리공간이 분해 가능(seperable)하다고 한다.

거리공간의 분해 가능성은 다음과 같이 정의되는 확률분포의 받침(support)이 잘 정의되기 위해 필요하다.

(받침) $P$가 잴 수 있는(measurable) 공간 $(\metric{S}, \sfield{S})$의 확률측도라 하자. $P(A)=1$을 만족하는 가장 작은 닫힌 집합 $A$를 확률측도 $P$의 (위상수학적) 받침이라 한다.

$\metric{S}$가 분해 가능하면 $P$의 받침이 항상 존재함을 보일 수 있다.

$$ \mathcal{U}_0 = \left\{ U: U \text{ open}, P(U)=0 \right\}, $$

$U_0 = \bigcup_{U \in \mathcal{U}_0} U$라 정의하면 $U_0$는 열린집합이다.

이때 $\mathcal{U}_0$는 셀 수 있는 집합이어야 하므로 (아니라면 $\metric{S}$가 분해 가능함에 모순이 생긴다) $P(U_0)=0$이다. 이제 $F = U_0^c$라 하면 $F$는 $P$의 받침이 된다.

거리 공간 $\metric{S}$가 분해 가능할 필요충분조건은 $\metric{S}$가 제2 가산 공간(second countable space), 즉, $\metric{S}$의 위상을 생성하는 셀 수 있는 기저(base)가 존재하는 것임이 알려져 있다.

약한 수렴성

확률 측도의 수렴성 중 약한 수렴성(weak convergence)에 대해 생각하자. 거리공간 $\metric{S}$와 이 위의 보렐 $\sigma$-대수 $\sfield{S}$를 생각하자. $C(\metric{S})$를 $\metric{S}$위의 유계 연속함수(bounded continuous function)의 집합이라고 했을 때, $\metric{S}$ 위의 확률 측도의 약한 수렴성은 다음과 같이 정의된다.

확률 측도열 $\\{P_n\\}$이 임의의 $f \in C(\metric{S})$에 대해 $$ \begin{equation}\label{eqn:weakconv} \int f dP_n \rightarrow \int f dP \end{equation} $$ 를 만족할 때, $P$로 약하게 수렴한다(converge weakly)고 하고 $\\{P_n\\} \wconv P$로 쓴다.

다음 정리는 확률 측도열의 약한 수렴과 동치인 조건들을 다룬 것으로 매우 유용하게 사용된다.

(Portmanteau) 다음은 동치이다.

  • $\{P_n\} \wconv P$;
  • 모든 유계이고 균등연속(uniformly continuous) 함수 $f$에 대하여 $\int f dP_n \rightarrow \int fdP$;
  • 모든 닫힌 집합 $F$에 대하여 $\lim\sup P_n(F) \leq P(F)$;
  • 모든 열린 집합 $U$에 대하여 $\lim\inf P_n(U) \geq P(U)$;
  • $P(\partial B)=0$인 모든 $B \in \sfield{S}$에 대하여 $\lim P_n(B) = P(B)$.

많은 경우에 확률 측도 $P_n$은 거리공간 $\metric{S}$의 값을 갖는 확률변수 $X_n$에 의해 정의된다. 만일 $\metric{S}$가 분해 가능하지 않다면 $P_n$은 $\sfield{S}$보다 작은 $\sigma$-대수를 갖게되어 수렴성에 대한 논의가 어렵다.

다음 정리는 분해 가능한 완비거리공간(complete metric space)에서 확률 측도 공간이 relative compact이기 위한 필요충분조건을 다룬다.

(Prohorov) 분해 가능한 완비 거리공간 $\metric{S}$의 임의의 확률 측도열 $P_n$이 수렴하는 부분 확률 측도열을 가지는 것은 $P_n$이 tight, 즉, 임의의 양수 $\epsilon >0$에 대하여 모든 $n$에 대해 $P_n(K) > 1-\epsilon$이 성립하는 적당한 옹골집합(compact set) $K$가 존재한다는 것과 필요충분조건이다.

(Polish space) 거리를 줄 수 있는 공간(metrizable space)이 분해 가능한 완비거리공간으로 거리화될 때, 이 공간을 폴란드 공간(polish space)이라 한다.

분해 가능한 완비 거리공간 $\metric{S}$에서 $\metric{S}$위의 확률 측도의 공간 $\metric{M}(\metric{S})$은 약한 수렴성을 생성(generate)하는 폴란드 공간이 된다. 즉, 다음을 만족하는 적당한 완비거리 $\rho$가 존재한다 $$ \begin{equation} P_n \wconv P \Longleftrightarrow \rho(P_n,P) \rightarrow 0.\tag{polish}\label{eqn:prob-polish} \end{equation} $$

$\metric{M}(\metric{S})$ 위의 거리로 다음과 같은 거리들을 생각해볼 수 있다.

  • [Weak convergence] $\ref{eqn:prob-polish}{polish}$를 유도하는 거리
  • [Total Variation of $L_1$] $\lVert P-Q \rVert_1 = 2\sup_B\lvert P(B) - Q(B)\rvert$. $p$, $q$를 각각 $P$, $Q$의 밀도함수라 하면 $\lVert P-Q \rVert_1 = \int \lvert p - q\rvert d\mu$가 성립한다;
  • [Hellinger 거리] $H(p,q) = \left[ \int (\sqrt{p} - \sqrt{q})^2 d\mu \right]^{1/2}$.

Hellinger 거리와 $L_1$ 거리는 서로 동등(equivalent)함이 알려져 있다.

마지막으로 다음과 같이 통계량 $T_n(X_1,\cdots, X_n): \Omega \mapsto M(\Theta)$, $\Omega = (\mathbf{X}^\infty, \mathcal{A}^\infty)$ with a measure $P_0^\infty$의 약한 수렴성을 정의하자.

  1. 다음을 만족할 때, $P_0$에 대해 거의 확실하게(almost surely) $T_n \wconv T$ 라 한다 $$P_0^\infty \left\{ \omega: T_n(\omega) \wconv T(\omega) \right\} = 1;$$
  2. 다음을 만족할 때, $P_0$-확률수렴(convegence in probability) $T_n \wconv T$ 라 한다 $$P_0^\infty \left\{ \omega: \rho(T_n(\omega), T(\omega)) > \epsilon \right\} \rightarrow 0.$$ 여기서 $\rho$는 약한 수렴성을 생성하는 거리이다.

비슷하게 통계량의 $L_1$ 수렴성을 정의할 수 있다.

사후 분포와 사후 일치성

사후 분포

다음과 같은 모형을 생각하자.

  • $\mathfrak{X}$ : 자료 공간(data space)
  • $\mathscr{X}$ : $\mathfrak{X}$상의 $\sigma$-대수($\sigma$-algebra)
  • $\Theta$ : 폴란드 공간인 모수 공간(parameter space)
  • $\mathscr{B}$ : $\Theta$위의 보렐 $\sigma$-대수(Borel $\sigma$-field)
  • $\Pi(\cdot)$ : 잴 수 있는 공간 ($\Theta,\mathscr{B}$)에서의 사전분포(prior distribution)
  • $P_\theta(\cdot)$ : 모수 $\theta$가 주어져 있을 때, 자료 $X$의 정칙조건부분포(regular conditional distribution)

그러면 각 자연수 $n \in \mathbb{N}$에 대하여

$$ \begin{equation}\label{eqn:model} X^n=(X_1,X_2,\cdots,X_n), \quad X_i \stackrel{i.i.d.}{\sim} P_\theta \end{equation} $$

잴 수 있는 공간 $(\pop{X}^n, \sfield{X}^n,P_\theta^n)$위의 확률변수가 된다.

이때, 모수 공간 $\Theta$가 폴란드 공간, $\sfield{B}$가 보렐 $\sigma$-대수이면 ($\Theta \times \pop{X}^n, \sfield{B} \otimes \sfield{X}^n$)위의 결합분포 $$ \begin{equation}\label{eqn:joint_dist} \lambda_{n,\Pi}(B \times A) = \int_B P_\theta^n(A)d\Pi (\theta), \quad A \in \sfield{X}^n, B\in \sfield{B}, \end{equation} $$ ($\pop{X}^n, \sfield{X}^n$)위의 주변확률분포 $$ \begin{equation}\label{eqn:marginal_dist} \lambda_n(A) = \lambda_{n,\Pi}(\Theta \times A), \quad A \in \sfield{X}^n \end{equation} $$ 이 잘 정의되고, 다음 세 가지 조건을 만족하는 사후분포(Posterior distribution) $\Pi_n(\cdot\vert X^n)$이 유일($\lambda_n$-$a.s.$ 관점에서)하게 존재함이 알려져 있다.

  1. 각 $\omega \in \sfield{X}^n$에 대하여 $\Pi_n(\cdot \vert \omega)$는 $(\Theta,\sfield{B})$위의 확률 측도,
  2. 각 $B \in \sfield{B}$에 대하여 $\Pi_n(B\vert \cdot)$은 ($\pop{X}^n, \sfield{X}^n$)위의 잴 수 있는 함수,
  3. 각 $B \in \sfield{B}$, $A \in \sfield{X}^n$에 대하여 $\displaystyle \lambda_{n,\Pi}(B \times A) = \int _A \Pi_n(B\vert \omega) d\lambda_n(\omega)$.

이제부터 다음을 가정한다.

모수 공간 $\Theta$는 first countable1 topological space

사후 일치성

사후 일치성(Posterior consistency)은 다음과 같이 정의된다.

(사후 일치성) 각 $n \in \mathbb{N}$에 대하여 $\Pi_n(\cdot\vert X^n)$을 $X^n$이 주어졌을 때의 사후분포라 하자. 이때 $\theta_0 \in \Theta$의 모든 근방 $U$에 대하여 $$ \begin{equation}\label{eqn:consistency} \Pi_n(U \vert X^n) \rightarrow 1 \quad P_{\theta_0}^{\infty}-a.s. \end{equation} $$ 를 만족하면 사후분포열 $\\{\Pi_n(\cdot \vert X^n)\\}$이 $\theta_0$에서 사후 일치성을 갖는다고 한다.

portmanteau 정리로부터 사후분포열 $\{\Pi(\cdot \vert X^n) \}$이 $\theta_0$에서 사후 일치성을 가질 필요충분조건이 $\{ \Pi(\cdot \vert X^n) \} \wconv \delta_{\theta_0}$ $P_{\theta_0}-a.s.$ 임을 알 수 있다. 즉, 사후분포열 $\{\Pi_n(\cdot \vert X^n)\}$이 $\theta_0$에서 사후 일치성을 가진다는 것은 $n$이 커질수록 사후분포가 거의 확실히 $\theta_0$에 집중되는 것으로 이해할 수 있다.

Doob의 정리

다음 정리는 특정 조건이 만족되면 사전분포의 관점에서 측도가 0인 집합을 제외하면 사후 일치성을 가짐을 알려준다.

(Doob, 1949) $\pop{X}$, $\Theta$가 모두 분해 가능한 완비거리공간이고, $\sfield{X}$, $\sfield{B}$가 각 공간 위에 정의된 보렐 $\sigma$-대수, 확률 측도가 식별 가능(identifiable), 즉, $\theta \mapsto P_\theta$가 1-1이라 하자. $\Pi$를 사전분포, $\Pi_n(\cdot \vert X^n)$을 사후분포라 하면 사후분포열 $$\Set{ \Pi_n(\cdot \vert X^n) : n \geq 1 }$$ 은 $\Pi-a.s.$하게 일치성을 가진다.

먼저, 각 $\omega \in \sfield{X}^\infty$에 대해 사후분포열 $ \Set{ \Pi_n(\cdot \vert X^n(\omega)) : n \geq 1} $은 슈퍼마팅게일(supermartingale)이고 $0 \leq \Pi_n(\cdot \vert X^n(\omega)) \leq 1$이므로 마팅게일 수렴 정리(martingale convergence theorem)에 의해 사후분포열의 극한 $\Pi(\cdot | X^\infty(\omega))$이 $\lambda_\infty-a.s.$하게 존재한다. 이러한 극한이 실제 일치성을 갖는 사후분포임을 보이면 충분하다. $\pop{X}$가 분해 가능한 완비거리공간이므로 제2 가산 공간이다. $\sigma(\mathcal{A}^0) = \sfield{X}$를 만족하는 $\pop{X}$의 셀 수 있는 기저 $\mathcal{A}^0$를 생각하자. $$ \begin{equation} \begin{gathered} E_{\theta, A} := \Set{\omega \in \sfield{X}^\infty: \frac{1}{n} \sum_{i=1}^n \delta_{X_i}(\omega)(A) \rightarrow P_\theta(A)}, \\\\ E_{\theta} := \bigcap_{ A \in \mathcal{A}^0} E_{\theta, A} \end{gathered} \end{equation} $$ 라 하면, 각 $E_{\theta,A}$이 잴 수 있는 집합이므로 셀 수 있는 교집합 $E_\theta$는 잴 수 있는 집합이다. 이때, 강한 대수의 법칙으로부터 각 $A$에 대해 $P_\theta^\infty(E_{\theta,A}) = 1$이므로 $P_\theta^\infty (E_\theta)= 1$이고, 식별 가능성에 의해 $\theta \neq \theta'$일 때 $E_\theta \cap E_{\theta'} = \emptyset$, $P_\theta^\infty(E_{\theta'}) = 0$이다. 각 $B \in \sfield{B}$에 대해 $E(B) = \cup_{\theta \in B} E_\theta$, $$ f_B(\omega) = \begin{cases} \indic{\omega \in E(B)} & \omega \in E = E(\Theta) \\ \Pi(B) &o.w. \end{cases} $$ 라 하자. 그러면,
  1. $E$와 $E(B)$는 모두 잴 수 있는 집합이므로 $f_B$는 잴 수 있는 함수;
  2. $0 \leq f_B(\omega) \leq 1 = f_\Theta(\omega)$;
  3. $\omega \in E$일 때 $E_\theta \cap E_{\theta’} = \emptyset$ for $\theta \neq \theta’$이므로 가산가법성이 성립

하므로 모든 $\omega \in \sfield{X}^\infty$에 대해 $B\mapsto f_B(\omega)$는 확률측도이다. 또한 $$\lambda_\infty(E) = \int \indic{E} \lambda_\infty(d\omega)= \int \int \indic{E} P_\theta^\infty(d\omega) \Pi(d\theta) = \int \Pi(d\theta) = 1,$$ $$ \begin{aligned} \int_A f_B(\omega) \lambda_\infty(d \omega) &= \int \indic{E \cap A} f_B(\omega) \lambda_\infty(d\omega) \\ &= \lambda_\infty(E \cap A \cap E(B)) = \lambda_\infty(E(B) \cap A) \\ &= \int P_\theta^\infty \indic{A \cap E(B)} \Pi(d\theta) \\ &= \int_B P_\theta^\infty(A) \Pi(d\theta) \\ &= \lambda_{\infty, \Pi}(A \times B) \end{aligned} $$ 이므로, 사후분포의 유일성으로부터 $f_\cdot(\omega)$는 사후분포 $\Pi(\cdot | X^\infty(\omega))$임을 알 수 있다. 이제 사후분포 $f_\cdot(\omega)$가 사후일치성을 가짐을 보이면 증명이 끝난다. $\Theta$도 분해 가능한 완비거리공간이므로 셀 수 있는 기저 $B_0$가 존재한다. 모든 $B_i \in B_0$에 대해 $\Pi_n(B_i|X^n(\omega)) \rightarrow f_{B_i}(\omega)$ $\lambda_\infty-a.s.$, 즉, $\lambda_\infty(C_i)=1$이고 $\omega \in C_i$에 대해 $\Pi_n(B_i|X^n(\omega)) \rightarrow f_{B_i}(\omega)$을 만족하는 적당한 $C_i \subset \sfield{X}^\infty$가 존재한다. 이때, $$P_\theta(C_i) \leq 1~\forall \theta, \quad \lambda_\infty(C_i) = \int P_\theta(C_i) \Pi(d\theta) = 1$$ 에서 $P_\theta(C_i) = 1,~\Pi-a.s.$이다. 즉, $\Pi(D_i)=1$이고 $\theta \in D_i$에 대해 $P_\theta(C_i) =1$인 적당한 $D_i \subset \Theta$가 존재한다. 이제 $D = \cap_i D_i$, $C = \cap_i C_i$라 하자. 그러면, 모든 $\theta \in D$에 대해 $f_{\Set{\theta}}(\omega) = P_\theta^\infty(C \cap E_\theta) =1$이 성립한다. $B_0$가 $\Theta$의 기저이므로 $\theta$를 포함하는 모든 열린집합 $B$에 대하여, $B = \cup B_i$인 적당한 $B_i \in B_0$들을 잡을 수 있고, 이러한 $B_i$에 대해 $$1 = f_{\Set{\theta}}(\omega) \leq f_{B_i}(\omega) \leq f_B(\omega) \leq 1$$ 에서 $f_{B}(\omega)=1$임을 알 수 있다. 즉, $\theta \in D$에서 사후분포는 일치성을 가지며 $\Pi(D)=1$에서 사후분포는 $\Pi-a.s.$하게 일치성을 가진다.

Doob의 정리는 실제 어떤 분포가 사후일치성을 갖는 지에 대한 정보는 알려주지 않는다.

약한 일치성과 강한 일치성

이제부터는 $\pop{X}$는 폴란드 공간, $\sfield{X}$는 보렐 $\sigma$-대수, $\mu$는 잴 수 있는 공간 ($\pop{X},\sfield{X}$)위의 $\sigma$-유한 측도, $\sfield{F}$는 $\pop{X}$위에 정의된 확률밀도함수들의 부분공간, $\displaystyle P_f(B) = \int_B f d\mu, \quad \forall B \in \sfield{X}$ : $f\in\sfield{F}$에 의해 정의된 $\pop{X}$위의 확률측도, $\Pi(\cdot)$는 $\sfield{F}$위의 사전분포인 경우만 다루기로 한다. 베이즈 정리로부터 사후분포 $\Pi_n(\cdot \vert X^n)$는 다음과 같이 계산된다. $$ \begin{equation} \Pi_n(B \vert X^n) = \frac{\int_{B} \prod_{i=1}^n f(X_i) d\Pi(f)}{\int_\sfield{F} \prod_{i=1}^n f(X_i) d\Pi(f)} \end{equation} $$ $\sfield{F}$에는 다양한 거리들을 정의할 수 있고, 이로부터 근방(neighborhood)들을 정의할 수 있다. 예를 들어, 다음과 같이 밀도함수들의 공간에서의 $L_1$ 거리로부터 $L_1$ 근방을, 약한 거리로부터 약한 근방을 정의할 수 있다. 이제 다음과 같이 $f_0 \in \sfield{F}$의 근방들을 정의하자.

  • 강한 또는 $L_1$ 근방(strong or $L_1$ neighborhood)은 다음과 같이 정의된다. $$\begin{equation}\label{eqn:strong_nbd} S_\epsilon (f_0) := {f : \Vert f-f_0 \Vert_1 < \epsilon } \end{equation}$$
  • 약한 근방(weak neighborhood)은 다음과 같이 정의된다. $$\begin{equation}\label{eqn:weak_nbd} W_\epsilon (f_0) := \Set{f : \abs{\int \phi f d\mu- \int \phi f_0 d\mu} < \epsilon, ; \phi \in C_b(\pop{X}) } \end{equation}$$

$\sfield{F}$에 $L_1$거리 또는 약한 거리가 주어진 경우, 이로부터 유도되는 위상공간(강한 또는 약한 위상공간)은 폴란드 공간이 됨이 알려져 있다. 이로부터 Doob의 정리에 의해 사후 일치성을 가짐이 보장되고, 강한 일치성(strong consistency)과 약한 일치성(weak consistency)을 위의 근방들을 통해 다음과 같이 정의할 수 있다.

(강한 일치성과 약한 일치성)

  • Strongly or $L_1$ consistent at $f_0$ $$\begin{equation}\label{strong_consistency} \Pi_n(S_\epsilon (f_0) \vert X^n) \rightarrow 1 \quad P_{f_0}^{\infty}-a.s. \end{equation}$$ 을 만족하면 사후분포 $\Pi_n(\cdot \vert X^n)$이 $f_0$에서 강한 일치성을 갖는다고 한다.
  • Weakly consistent at $f_0$ $$\begin{equation}\label{weak_consistency} \Pi_n(W_\epsilon (f_0)) \vert X^n) \rightarrow 1 \quad \quad P_{f_0}^{\infty}-a.s. \end{equation}$$ 을 만족하면 사후분포 $\Pi_n(\cdot \vert X^n)$이 $f_0$에서 약한 일치성을 갖는다고 한다.


  1. 어떤 위상공간이 first countable이라는 것은 각 원소의 근방에 대해 countable base가 존재함을 뜻한다. ↩︎


comments powered by Disqus