Posted by
Kyeongwon Lee
on
Saturday, January 8, 2022
모수의 추정량의 일치성(consistency)은 “표본의 크기를 무한히 크게 함에 따라 모수의 추정량을 모수의 참값에 충분히 가깝게 할 수 있는 성질"로 다분히 빈도론적인 개념이라고 볼 수 있다. 그러나 이는 베이즈 접근에서도 매우 중요한 성질이다. 베이지안의 일치성이라고 볼 수 있는 사후 일치성(posterior consistency)은 표본의 크기를 무한히 크게 했을 때 나타나는 사후분포의 성질이다. 사후 일치성은 서로 다른 사전분포에서 출발한 사후분포들을 결합(merge)하고, 객관적 베이지안(objective Bayesian)들에게는 표본의 크기를 무한히 크게 함에 따라 미지의 실제 모형을 추론할 수 있음을 보장한다. 여기서는 사후 일치성의 정의를 살펴보고, 사후 일치성의 존재성을 보장하기 위한 Doob의 정리와 약한/강한 사후 일치성에 대해 살펴본다.
\newcommand{bx}{\mathbf{x}}
Preliminaries
거리 공간
거리 공간 (S,ρ)을 생각하자. 이 거리공간이 셀 수 있는 조밀한 부분집합(countable dense subset)을 가질 때, 즉, Sˉ0=S를 만족하는 적당한 셀 수 있는 부분집합 S0가 존재할 때, 이 거리공간이 분해 가능(seperable)하다고 한다.
거리공간의 분해 가능성은 다음과 같이 정의되는 확률분포의 받침(support)이 잘 정의되기 위해 필요하다.
(받침) P가 잴 수 있는(measurable) 공간 (S,S)의 확률측도라 하자. P(A)=1을 만족하는 가장 작은 닫힌 집합 A를 확률측도 P의 (위상수학적) 받침이라 한다.
S가 분해 가능하면 P의 받침이 항상 존재함을 보일 수 있다.
U0={U:U open,P(U)=0},
U0=⋃U∈U0U라 정의하면 U0는 열린집합이다.
이때 U0는 셀 수 있는 집합이어야 하므로 (아니라면 S가 분해 가능함에 모순이 생긴다) P(U0)=0이다. 이제 F=U0c라 하면 F는 P의 받침이 된다.
거리 공간 S가 분해 가능할 필요충분조건은 S가 제2 가산 공간(second countable space), 즉, S의 위상을 생성하는 셀 수 있는 기저(base)가 존재하는 것임이 알려져 있다.
약한 수렴성
확률 측도의 수렴성 중 약한 수렴성(weak convergence)에 대해 생각하자. 거리공간 S와 이 위의 보렐 σ-대수 S를 생각하자. C(S)를 S위의 유계 연속함수(bounded continuous function)의 집합이라고 했을 때, S 위의 확률 측도의 약한 수렴성은 다음과 같이 정의된다.
확률 측도열 Pn이 임의의 f∈C(S)에 대해
∫fdPn→∫fdP
를 만족할 때, P로 약하게 수렴한다(converge weakly)고 하고 Pn→wP로 쓴다.
다음 정리는 확률 측도열의 약한 수렴과 동치인 조건들을 다룬 것으로 매우 유용하게 사용된다.
(Portmanteau) 다음은 동치이다.
{Pn}→wP;
모든 유계이고 균등연속(uniformly continuous) 함수 f에 대하여 ∫fdPn→∫fdP;
모든 닫힌 집합 F에 대하여 limsupPn(F)≤P(F);
모든 열린 집합 U에 대하여 liminfPn(U)≥P(U);
P(∂B)=0인 모든 B∈S에 대하여 limPn(B)=P(B).
많은 경우에 확률 측도 Pn은 거리공간 S의 값을 갖는 확률변수 Xn에 의해 정의된다. 만일 S가 분해 가능하지 않다면 Pn은 S보다 작은 σ-대수를 갖게되어 수렴성에 대한 논의가 어렵다.
다음 정리는 분해 가능한 완비거리공간(complete metric space)에서 확률 측도 공간이 relative compact이기 위한 필요충분조건을 다룬다.
(Prohorov) 분해 가능한 완비 거리공간 S의 임의의 확률 측도열 Pn이 수렴하는 부분 확률 측도열을 가지는 것은 Pn이 tight, 즉, 임의의 양수 ϵ>0에 대하여 모든 n에 대해 Pn(K)>1−ϵ이 성립하는 적당한 옹골집합(compact set) K가 존재한다는 것과 필요충분조건이다.
(Polish space) 거리를 줄 수 있는 공간(metrizable space)이 분해 가능한 완비거리공간으로 거리화될 때, 이 공간을 폴란드 공간(polish space)이라 한다.
분해 가능한 완비 거리공간 S에서 S위의 확률 측도의 공간 M(S)은 약한 수렴성을 생성(generate)하는 폴란드 공간이 된다. 즉, 다음을 만족하는 적당한 완비거리 ρ가 존재한다
Pn→wP⟺ρ(Pn,P)→0.(polish)
[Total Variation of L1] ∥P−Q∥1=2supB∣P(B)−Q(B)∣. p, q를 각각 P, Q의 밀도함수라 하면 ∥P−Q∥1=∫∣p−q∣dμ가 성립한다;
[Hellinger 거리] H(p,q)=[∫(p−q)2dμ]1/2.
Hellinger 거리와 L1 거리는 서로 동등(equivalent)함이 알려져 있다.
마지막으로 다음과 같이 통계량 Tn(X1,⋯,Xn):Ω↦M(Θ), Ω=(X∞,A∞) with a measure P0∞의 약한 수렴성을 정의하자.
다음을 만족할 때, P0에 대해 거의 확실하게(almost surely) Tn→wT 라 한다
P0∞{ω:Tn(ω)→wT(ω)}=1;
다음을 만족할 때, P0-확률수렴(convegence in probability) Tn→wT 라 한다
P0∞{ω:ρ(Tn(ω),T(ω))>ϵ}→0.
여기서 ρ는 약한 수렴성을 생성하는 거리이다.
비슷하게 통계량의 L1 수렴성을 정의할 수 있다.
사후 분포와 사후 일치성
사후 분포
다음과 같은 모형을 생각하자.
X : 자료 공간(data space)
X : X상의 σ-대수(σ-algebra)
Θ : 폴란드 공간인 모수 공간(parameter space)
B : Θ위의 보렐 σ-대수(Borel σ-field)
Π(⋅) : 잴 수 있는 공간 (Θ,B)에서의 사전분포(prior distribution)
Pθ(⋅) : 모수 θ가 주어져 있을 때, 자료 X의 정칙조건부분포(regular conditional distribution)
그러면 각 자연수 n∈N에 대하여
Xn=(X1,X2,⋯,Xn),Xi∼i.i.d.Pθ
잴 수 있는 공간 (Xn,Xn,Pθn)위의 확률변수가 된다.
이때, 모수 공간 Θ가 폴란드 공간, B가 보렐 σ-대수이면 (Θ×Xn,B⊗Xn)위의 결합분포
λn,Π(B×A)=∫BPθn(A)dΠ(θ),A∈Xn,B∈B,
(Xn,Xn)위의 주변확률분포
λn(A)=λn,Π(Θ×A),A∈Xn
이 잘 정의되고, 다음 세 가지 조건을 만족하는 사후분포(Posterior distribution) Πn(⋅∣Xn)이 유일(λn-a.s. 관점에서)하게 존재함이 알려져 있다.
(사후 일치성)
각 n∈N에 대하여 Πn(⋅∣Xn)을 Xn이 주어졌을 때의 사후분포라 하자. 이때 θ0∈Θ의 모든 근방 U에 대하여
Πn(U∣Xn)→1Pθ0∞−a.s.
를 만족하면 사후분포열 Πn(⋅∣Xn)이 θ0에서 사후 일치성을 갖는다고 한다.
portmanteau 정리로부터 사후분포열 {Π(⋅∣Xn)}이 θ0에서 사후 일치성을 가질 필요충분조건이 {Π(⋅∣Xn)}→wδθ0Pθ0−a.s. 임을 알 수 있다. 즉, 사후분포열 {Πn(⋅∣Xn)}이 θ0에서 사후 일치성을 가진다는 것은 n이 커질수록 사후분포가 거의 확실히 θ0에 집중되는 것으로 이해할 수 있다.
Doob의 정리
다음 정리는 특정 조건이 만족되면 사전분포의 관점에서 측도가 0인 집합을 제외하면 사후 일치성을 가짐을 알려준다.
(Doob, 1949) X, Θ가 모두 분해 가능한 완비거리공간이고, X, B가 각 공간 위에 정의된 보렐 σ-대수, 확률 측도가 식별 가능(identifiable), 즉, θ↦Pθ가 1-1이라 하자. Π를 사전분포, Πn(⋅∣Xn)을 사후분포라 하면 사후분포열
{Πn(⋅∣Xn):n≥1}
은 Π−a.s.하게 일치성을 가진다.
먼저, 각 ω∈X∞에 대해 사후분포열 {Πn(⋅∣Xn(ω)):n≥1}은 슈퍼마팅게일(supermartingale)이고 0≤Πn(⋅∣Xn(ω))≤1이므로 마팅게일 수렴 정리(martingale convergence theorem)에 의해 사후분포열의 극한 Π(⋅∣X∞(ω))이 λ∞−a.s.하게 존재한다. 이러한 극한이 실제 일치성을 갖는 사후분포임을 보이면 충분하다. X가 분해 가능한 완비거리공간이므로 제2 가산 공간이다. σ(A0)=X를 만족하는 X의 셀 수 있는 기저 A0를 생각하자.
Eθ,A:={ω∈X∞:n1i=1∑nδXi(ω)(A)→Pθ(A)},Eθ:=A∈A0⋂Eθ,A
라 하면, 각 Eθ,A이 잴 수 있는 집합이므로 셀 수 있는 교집합 Eθ는 잴 수 있는 집합이다. 이때, 강한 대수의 법칙으로부터 각 A에 대해 Pθ∞(Eθ,A)=1이므로 Pθ∞(Eθ)=1이고, 식별 가능성에 의해 θ=θ′일 때 Eθ∩Eθ′=∅, Pθ∞(Eθ′)=0이다.
각 B∈B에 대해 E(B)=∪θ∈BEθ,
fB(ω)={I(ω∈E(B))Π(B)ω∈E=E(Θ)o.w.
라 하자. 그러면,
E와 E(B)는 모두 잴 수 있는 집합이므로 fB는 잴 수 있는 함수;
0≤fB(ω)≤1=fΘ(ω);
ω∈E일 때 Eθ∩Eθ’=∅ for θ=θ’이므로 가산가법성이 성립
하므로 모든 ω∈X∞에 대해 B↦fB(ω)는 확률측도이다. 또한
λ∞(E)=∫I(E)λ∞(dω)=∫∫I(E)Pθ∞(dω)Π(dθ)=∫Π(dθ)=1,∫AfB(ω)λ∞(dω)=∫I(E∩A)fB(ω)λ∞(dω)=λ∞(E∩A∩E(B))=λ∞(E(B)∩A)=∫Pθ∞I(A∩E(B))Π(dθ)=∫BPθ∞(A)Π(dθ)=λ∞,Π(A×B)
이므로, 사후분포의 유일성으로부터 f⋅(ω)는 사후분포 Π(⋅∣X∞(ω))임을 알 수 있다.
이제 사후분포 f⋅(ω)가 사후일치성을 가짐을 보이면 증명이 끝난다. Θ도 분해 가능한 완비거리공간이므로 셀 수 있는 기저 B0가 존재한다. 모든 Bi∈B0에 대해 Πn(Bi∣Xn(ω))→fBi(ω)λ∞−a.s., 즉, λ∞(Ci)=1이고 ω∈Ci에 대해 Πn(Bi∣Xn(ω))→fBi(ω)을 만족하는 적당한 Ci⊂X∞가 존재한다. 이때,
Pθ(Ci)≤1∀θ,λ∞(Ci)=∫Pθ(Ci)Π(dθ)=1
에서 Pθ(Ci)=1,Π−a.s.이다. 즉, Π(Di)=1이고 θ∈Di에 대해 Pθ(Ci)=1인 적당한 Di⊂Θ가 존재한다. 이제 D=∩iDi, C=∩iCi라 하자. 그러면, 모든 θ∈D에 대해 f{θ}(ω)=Pθ∞(C∩Eθ)=1이 성립한다.
B0가 Θ의 기저이므로 θ를 포함하는 모든 열린집합 B에 대하여, B=∪Bi인 적당한 Bi∈B0들을 잡을 수 있고, 이러한 Bi에 대해
1=f{θ}(ω)≤fBi(ω)≤fB(ω)≤1
에서 fB(ω)=1임을 알 수 있다. 즉, θ∈D에서 사후분포는 일치성을 가지며 Π(D)=1에서 사후분포는 Π−a.s.하게 일치성을 가진다.
이제부터는 X는 폴란드 공간, X는 보렐 σ-대수, μ는 잴 수 있는 공간 (X,X)위의 σ-유한 측도, F는 X위에 정의된 확률밀도함수들의 부분공간, Pf(B)=∫Bfdμ,∀B∈X : f∈F에 의해 정의된 X위의 확률측도, Π(⋅)는 F위의 사전분포인 경우만 다루기로 한다.
베이즈 정리로부터 사후분포 Πn(⋅∣Xn)는 다음과 같이 계산된다.
Πn(B∣Xn)=∫F∏i=1nf(Xi)dΠ(f)∫B∏i=1nf(Xi)dΠ(f)F에는 다양한 거리들을 정의할 수 있고, 이로부터 근방(neighborhood)들을 정의할 수 있다. 예를 들어, 다음과 같이 밀도함수들의 공간에서의 L1 거리로부터 L1 근방을, 약한 거리로부터 약한 근방을 정의할 수 있다.
이제 다음과 같이 f0∈F의 근방들을 정의하자.
강한 또는 L1 근방(strong or L1 neighborhood)은 다음과 같이 정의된다.
Sϵ(f0):=f:∥f−f0∥1<ϵ
약한 근방(weak neighborhood)은 다음과 같이 정의된다.
Wϵ(f0):={f:∣∣∫ϕfdμ−∫ϕf0dμ∣∣<ϵ,;ϕ∈Cb(X)}
F에 L1거리 또는 약한 거리가 주어진 경우, 이로부터 유도되는 위상공간(강한 또는 약한 위상공간)은 폴란드 공간이 됨이 알려져 있다. 이로부터 Doob의 정리에 의해 사후 일치성을 가짐이 보장되고, 강한 일치성(strong consistency)과 약한 일치성(weak consistency)을 위의 근방들을 통해 다음과 같이 정의할 수 있다.
(강한 일치성과 약한 일치성)
Strongly or L1 consistent at f0Πn(Sϵ(f0)∣Xn)→1Pf0∞−a.s.
을 만족하면 사후분포 Πn(⋅∣Xn)이 f0에서 강한 일치성을 갖는다고 한다.
Weakly consistent at f0Πn(Wϵ(f0))∣Xn)→1Pf0∞−a.s.
을 만족하면 사후분포 Πn(⋅∣Xn)이 f0에서 약한 일치성을 갖는다고 한다.
어떤 위상공간이 first countable이라는 것은 각 원소의 근방에 대해 countable base가 존재함을 뜻한다. ↩︎