Probability concepts explained: Marginalisation
Probability concepts explained: Marginalisation
Introduction
이 글에서는 marginallization(or marginallisation, 주변화?)의 개념을 알아보고 꽤 간단한 최대 우도(maximum likelihood) 문제를 푸는 예제로 진행한다.
주변화(marginallization)란?
marginallization는 또 다른 것의 한계 기여(marginal contribution, 한계 수익?)을 결정하기 위해 한 변수에 대한 가능한 값을 더하는것이 필요한 방법이다. 이 정의가 추상적으로 들릴 수 있기 때문에 예제로 이를 도식화해 보자.
영국에서 날씨가 누군가의 행복에 얼마나 영향을 미치는가에 관심이 있다고 해보자. 우리는 이것을 수학적으로 $P(행복|날씨)$로써 나타낼 수 있다. 즉, 어떤 날씨가 주어지면 누군가의 행복 수순의 가능성은 무엇인가이다.
누군가의 행복을 측정하기 위해 필요한 장비와 정의를 가지고 있고 또한 영국의 누군가와 스코틀랜드의 누군가에 대한 날씨가 기록되어있다고 하자. 이제 대체로 스코틀랜드 사람이 영국 사람보다 보통 더 행복하다. 문제는 사람은 항상 국적이 있고 이를 측정에서 단순히 제거할 수 없다는 것이다. 그래서 실제로 측정하는 것은 $P(행복, 국적|날씨)$이다. 즉, 동시에 행복과 국가를 본다.
Marginallization은 국가의 모든 가능성(영국은 3개의 국가로 이루어진다. 영국, 스코틀랜드, 웨일즈)을 합할 수 있으면 우리가 원하는 수량을 계산할 수 있다는 것을 말한다. 즉,
$P(행복|날씨) = P(행복, 국가=영국|날씨) + P(행복|날씨) + P(행복, 국가=스코틀랜드|날씨) + P(행복|날씨) + P(행복, 국가=웨일즈|날씨)$
이다.
Marginallization은 희망하는 확률적 수량(probabilistic quantity)를 얻기 위해 단지 몇몇 확률을 더하는 것을 말한다. 답을 계산한 후(답은 단일 값 또는 단일 분포가 될 수 있다.) 우리가 원하는 어떤 속성이라도 얻을 수 있다.
관련 정의(Related definitions)
이 개념이 유사하게 들린다면 아직 여러분은 marginalization을 전에 들어보지 못했다. 왜냐하면 다른 이름으로 불리는 것을 들었을 수 있기 때문이다. 때때로 그 방법은 성가신 변수 통합(integrating out the nuisance variable)으로 불린다. 통합(Integration, 적분을 말하는 것으로 보인다.) 근본적으로 변수를 '더하는 것'에 대한 또다른 말이고 더하는 변수가 '성가신 변수(nuisance variable)'로 알려져 있다. 따라서 위 예제에서 '국가'변수가 nuisance variable이다.
만약 확률적 그래픽 모델(probabilistic graphical models)로 작업한다면 marginalization은 정확한 추론을 수행할 수 있는 방법이다.(즉, 예를 들면 분포로부터 정확하게 평균이 계산되어질 수 있는 것같이 여러분이 흥미를 갖는 분포로부터 정확한 수량을 기록할 수 있다.) 이 맥락에서 marginalization은 변수 제거(variable elimination)에 대한 방법이고 때때로 동의어로 사용된다.
Example: A game of dice with unknown dice.
세계 최고의 수학과 전산 결정학자중 한명인 Airlie J. McCoy이 쓴 환상적인 Liking likelihood 논문에서 제시한 예제를 통해 진행해 보자. 만약 주사위를 사용해 다양한 최대 우도(maximum likilihood)를 (예를 들면, log likelihood, 중심극한정리 등) 훌륭하게 소개하는 것으 찾는다면 이 논문을 강력히 추천한다.
아래 그림과 같이 4면, 6면, 8면, 10면인 4개의 주사위가 있다고 하자.
The game
- 6면과 8면 주사위를 빨강 박스에 4면과 10면 주사위를 파랑 박스에 넣는다.
- 무작위로 빨강과 파랑 박스 각각에서 주사위를 선택하고 이를 노랑 박스에 넣는다.
- 노랑 박스에서 무작위로 주사위를 선택하여 굴린 후 결과를 이야기 한다.
게임 진행 후 결과가 3인 것을 이야기 했다. 우리가 대답하고자 하는 질문은 "원래 주사위는 빨강 또는 파알 박스로부터 올 가능성이 가장 높은가? 이다.
게임에 대한 설명
Approaching the solution
이 질문에 접근하기 위해 3이 주어지면 빨강 박스로부터 주사위가 선택되는 가능성(likelihood), $L(상자=빨강|주사위=3)$를 알아야 한다. 그리고 3이 주어지면 파랑 박스로부터 선택되는 가능성, $L(상자=파랑|주사위=3)$도 알아야 한다. 확률이 가장 높은 것이 우리가 제시하는 답이다.
그러면 $L(상자=빨강|주사위=3)$과 $L(상자=파랑|주사위=3)$은 어떻게 계산하는가?
우선, 알아야 것은 가능성과 확률이 다음 수식을 통해 관련된다는 것이다.
위 식에 대한 설명은 이 글의 끝부분을 참조하자.
이것이 의미하는 것은 가능성 $L(상자=빨강|주사위=3)$이 주사위가 빵강 박스에서 나온 것이 주어지면 3이 나오는 확률 즉 $P(주사위=3|상자=빨강)$과 같다는 것이다. 유사하게 $L(상자=파랑|주사위=3) = P(주사위=3|상자=파랑)$이다.
선택한 주사위가 빨강 상자에서 나온것이라고 하자. 주사위는 6면 또는 8면 주사위일 것이다. 두 주사위중 하나를 뽑는 것은 50/50 확률이다. 6면 주사위를 뽑았다고 가정하면 그것은 노란색 박스에서 6면 주사위를 뽑아야고 3이 나와야 한다는 의미이다. 따라서 이런 경우 확률은 다음과 같다.
"1/2"은 6면과 8면 주사위가 있는 빨강 상자에서 6면 주사위를 뽑을 확률이 50%인 것에서 나온다. "1/6"은 6면 주사위에서 3이 나올 확률에서 나온다.
대답이 노랑 상자로부터 6면 주사위를 뽑는 확률에 대해 아무것도 포함하지 않는다는 것에 주의하자. 이는 노랑 상자에서 6면 주사위를 뽑는 확률이 이 경우에는 1이기 때문이다.(여러분은 노랑 상자가 6면 주사위와 파알 상자로부터 선택된 주사위를 포함하고 있기 때문에 1/2이라고 생각할 수도 있다.) 이는 빨강 상자에서 뽑은 주사위가 주어졌을 때 6면 주사위에서 3이 나올 조건부 확률이기 때문이다. 따라서 노랑 상자에서 다른 주사위를 뽑는 시나리오는 다른 주사위가 원래 파랑 상자에 있었기 때문에 불가능하다. 그래서 빨강 상자에서 선택된 조건이 주어지면 노랑 박스에서는 오직 6면 주사위만을 선택할 수 있다. 따라서 노랑 박스에서 6면 주사위를 선택하는 확률은 1이다.
비슷한 방법으로 결과가 3이고 실제 빨강 상자에서 8면 주사위를 뽑는 확률을 계산할 수 있다. 이번 가능성은 다음과 같다.
이제 빨강 박스에서 주사위가 나오는 확류을 계산하기 위해 필요한 작업은 거의 다 마쳤다. 빨강 박스는 오직 6면과 8면 주사위만이 포함되어 해야할 모든 작업은 주사위가 6면 또는 8면 중 하나인 확률을 찾는 것임을 기억하자. "또는 (or)"인 경우 확률을 더해야 한다는 것을 알고 있다. 따라서 빨강 상자제서 주사위가 나올 확률은 다음과 같다.
위 식에서 "wavey" equal($\approx$) 기호는 "거의 같다"는 의미로 실제 답은 0.14583333...이다.(3이 계속 반복되고 이를 3 recurring이라고 한다.)
파랑 상자에 대해서도 동일한 계산을 할 수 있다.
원래 주사위가 파랑 상자에서 나온 확률이 더 높다. 따라서 최대 우도(maximum likelihood)를 사용하여 파랑 상자에서 주사위가 나올 가능성이 가장 높은 것으로 결론지을 수 있다.
Where’s the marginalisation in that example?
관찰력이 매우 좋은 사람들은 예제에서 "marginalization'을 한번도 사용하지 않은 것을 눈치챘을 것이다. 이는 상자에서 주사위를 뽑는 확률을 어떻게 계산하는지에 대한 직관적인 이해를 원했기 때문이다.
파랑 상자에 대한 위 수식을 보면 모든 확률 즉 4면과 10면을 선택에 대한 확률을 더한 것을 알 수 있다. 이것이 marginalization이다. 우리는 nuisance variable(주사위)를 더했다. 게임에서 뽑은 주사위를 전혀 관찰하지 않았고 그럴 필요도 없었다는 것에 주의하자. 알아야 할 모든 것은 결과(주사위 3)와 주사위의 모든 가능한 값이었다. 우리는 전에 관찰하지 않았던 것에 대한 확률을 계산할 수 있다. 우리가 nuisance variable에 대한 가능한 값을 아는 동안 marginalization을 수행하고 다른 변수에 대한 분포를 계산하기 위해 항상 이를 사용할 수 있다.
Notation
여기는 여러분이 몇몇 더 무서운 수식을 써야하는 부분이다.
예제에서 우리가 완료한 것에 대해 생각해 보자. 우리는 결합 확률(joint probability), $P(주사위 결과, 주사위 | 상자)$ (즉, 주사위 결과는 3, 주사위는 굴리기 위해 뽑은 주사위, 상자는 빨강 또는 파랑으로 주사위를 뽑은 원래 상자였다.)로 사작했다. Marginalization이 수행된 후 결국 조건부 확률(conditional probability), $P(주사위 굴림|상자)$이 된다. 이는 marginalization의 주요 이점중 하나이다. 우리는 결합 합률에서 조건부 확률로 이동할 수 있다.
사실 우리는 또한 결합 확률에서 주변 확률(marginal probability)로도 움질일 수 있다. Maginalization의 수학적 정의를 보면 일반적인 형식이다.
$\sum$은 "모든 것을 더한다"에 대한 수학적 표현이고 아래 $"y"$는 더해야 할 것을 나타낸다. 따라서 수식은 "만약 X(좌항)에 대한 주변 확률(marginal probability)을 구하려면 Y의 가능한 모든 결과에 대해 X와 Y의 결합 확률(joint probability)을 더해야 한다."는 의미이다.
결합 확률은 때때로 작업하기 힘들기 때문에 확률로 일반 곱셈 법칙을 사용하여 우변에 결합확률을 다시 적는다.
가장 오른쪽 식은 조건부 분포의 marginal 분포의 곱으로 표시되었다. 이는 때때로 계산하기 더 쉽다.
$\sum$이 "모든 것을 더한다"라는 의미인 것을 이야기 했다. 이번에는 변수가 "개별(discrete, 이산)"일때만 사용되는 특정 기호를 알아보자. 이것이 의미하는 것은 제한된 수의 값을 갖는 변수이다. 앞선 예제에서 별개(discrete)의 nuisance variable(예를 들면, 영국은 잉글랜드, 웨일즈 또는 스코틀랜드만 될 수 있고 주사위는 제한된 수의 결과만을 갖는다.)를 더했다. 별개(이산) 값이 유한한 값 유한해야만 하는 것은 아니다. 예를 들면, 1,2,3,..등과 같이 양의 전체 수(즉, 양의 정수)가 될 수 있다.
그러나, 주어진 범위에서 무한히 많은 가능한 값을 갖는 변수(예를 들면, 0에서 10미터사이를 측정한 거리는 5, 5.1, 5.01처럼 무한히 많은 수의 값을 갖을 수 있다.)로 작업할 때 이를 "연속 변수(continuous variable)"이라고 한고 $\sum$ 기호를 사용하지 않고 대신 $\int$을 사용한다. 이 기호는 여전히 오든 것을 더해야 한다는 것을 말하지만 대신 nuisance variable이 연속이라는 것을 알고 다음과 같이 marginalizatiop을 표시한다.
이 수식은 위에서 이산 변수(discrete variable)인 경우에서의 marginalization 식과 동일한 것을 의미한다. 끝에 $"dy"$는 적분(integrate) 해야하는 것을 나타낸다. ("적분"은 연속변수로 작업할 때 "합하기"위해 사용하는 이름이다.)
$"dy"$가 필요한 이유는 만약 표시하지 않으면 적분하는 것이 분명하지 않기 때문이다. nuisance variable이 원의 각도인 경우를 생각해 보자. 우리는 각도가 0도에서 360도 사이에서 움직이는 것을 알고 있다. 또는 기술적으로 도(degree) 대신 각도가 0에서 $2\pi$에서 움직이는 라디안(radian)으로 작업하려고 한다.
Source: Wikipedia. Radians in a circle
그러면 아래와 같이 유도될 수 있다.
우리는 0에서 $2\pi$까지 값을 적분해야 한다는 것을 알지만 X에 대한 값 또는 Y에 대한 값을 적분할 수 있을까? 세계의 수학자들이 위의 잔혹행위에 대해 저자를 때리고 싶어한다.
이를 고치려면 우리가 0에서 $2\pi$사이 Y값을 적분한다는 것을 명확하게 하기 위해 끝에 $"dy"$를 붙힌다. 이것은 또한 우리가 답이 (아래) X에 대한 주변 분포(marginal distribution)이라는 것을 안다는 것을 의미한다.
흥미를 느끼는 사람들을 위해 0에서 $2\pi$까지 각도 적분은 위상 문제(phase prlblem)로 불려지는 것 때문에 저자의 분야, X레이 결정학에서 해야하는 것이다. 이는 실험으로 "위상(phase)"를 측정할 수 없고 위상은 수학적으로 각도처럼 다루어질 수 있다는 기본적인 이슈이다. 따라서 우리가 관측한 데이터의 이론적 분포를 계산하려면 위상에 대해 marginalize를 해야 한다.
adam kelleher는 그의 causality package에서 혼란스러운 변수의 영향을 제거하기 위해 marginalization을 사용한다. 또한 일반 법셈 법칙이 조건부 분포와 주변 분포를 곱하여 marginalization을 작성했다. 자세한 내용은 여기를 참조하자.
Concluding remarks
Chain Rule for probability
위 계산에서 꽤 일반적인 통계학적 절차를 사용했다. 우리가 사용한 결과는 확률에 대한 연쇄법칙(chain rule)이다.(미분(differentiation)에 대한 연쇄법칙과 혼동하지 말자.) 이는 다름과 같이 표시한다.
위 식은 조건부 확률과 주변 확률의 곱으로 결합확률을 나타낸다.
이는 조건부 확률과 주변확률을 결젛하는 것이 더 쉬울 수 있기 때문에 결합 확률을 계산하기 위갷 많이 사용된다.
위의 결과가 사용된 곳을 보기 위해 아래 식이 사용되었다.
수식과 비교하여 A=주사위 결과, B=주사위, C=상자라고 할 수 있다. 그러면 위 식의 좌항을 다므과 같이 쓸 수 있다.
이제 이것을 이해해 보자.
- $P(주사위 결과=3|주사위=6면, 상자=빨강)$는 6면 주사위를 선택하고 이것이 빨강 상자에 있었다는 것이 주어지면 우리가 3을 굴릴 확률로 1/6과 같다.
- $P(주사위=6면|상자=빨강)$은 주사위가 빨강 상자에 있는 것이 주어지면 6면 주사위를 뽑는 확률로 1/2과 같다.
따라서 직관적 예제에서 보았던 결과와 정확하게 일치하는 $1/2 \times 1/6$을 얻는다.
여기서 3개의 변수를 사용하여 연쇄법칙(chain rule)을 보았다. chain rule on Wikipedia](https://en.wikipedia.org/wiki/Chain_rule_(probability))의 정의를 본다면 4개의 변수와 무한히 많은 변수에 대해 어떻게 보이는지 볼 것이다.
이는 공포스러울 수 있으나 동일한 아이디어 이다. 좌항에 조합확률 분포를 놓고 이를 우항에 조겁부 확률과 주변확률의 곱으로써 작성한다.
Use in Bayesian inference
Bayesian inference글을 읽었다면 보이즈 정리의 모델 형식이 다음과 같이 표시된다는 것을 알 것이다.
종종 분모 정규화 상수(normalisation constant)로도 알려진 $P(data)$를 계산하지 않는다고 하였다. 왜냐하면 많은 경우에서 이를 게산하기 힘들고 항상 필요한 것이 아니기 때문이다.
몇몇 경우에 이를 정확하게 게산할 수 있고 marginalization이 도움이 될 수 있다. "Notation"에서 연속 변수와 동일한 형식으로 marginalization 등식을 작성하면 아래와 같다.
분명하게 파라미터의 모든 가능한 값으로 우항을 적분하고 있다. 몇몇 경우 정규화된 사후분포를 얻을 수 있도록 이 식을 정확하게 또는 근사치로 평가할 수 있다.