반응형

원본 링크



Probability concepts explained: Introduction

확률이론의 다른 면에 대한 많은 글과 기사를 읽었고 각각이 무엇이 진행되는지를 이해하기 위한 다른 수준의 사전지식이 필요해 보였다. 이 분야의 전문가는 아지지만 확률에서 다양한 개념을 설명하는 접근가능한 일련의 글을 작성하여 기여할 수 있을 것이라고 느꼈다. 이 글은 그 첫번째로 몇몇 기본적인 정의를 소개한다.



Definitions and Notation(정의와 표기법)

확률(probability)은 때때로 적어도 하나의 이벤트와 관련이 있다. 이 이벤트는 어떠한 것이라도 될 수 있다. 이벤트의 장난감 예제는 주사위 굴리기, 색깔 공 뽑기를 포함한다. 이들 예제에서 이벤트의 결과는 무작위이다.(여러분은 주사위를 굴릴때 볼 값을 확실할 수 없다.) 따라서 이러한 이벤트의 결과를 표현하는 변수를 '확률 변수(random variable)'라고 부른다. (때때로 RV로 줄여쓴다.)

우리는 종종 특정 값을 갖는 확률 변수의 확률에 관심을 갖는다. 예를 들면, 균일한(fair)6면을 가진 주사위를 굴렸을 때 3이 나올 확률이 무엇인가? 여기서 '균일한(fair)' 낱말이 중요하다. 왜냐하면 이것은 주사위의 6면 - 1, 2, 3, 4, 5, 6이 모두 나올 확률이 같다는 것을 나타내기 때문이다. 직관적으로 올바르게 1/6대답 할 것이다. 그러나 이를 수학적으로 어떻게 표현할까? 우선 여기서 확률변수가 주사위 굴리기와 관련된 이벤트의 결과인 것을 이해해야 한다. 전형적으로 확률변수는 대분자로 표기된다. 여기서는 X로 표시한다. 따라서 $X=3$인 확률이 무엇인가를 알기 원하는 것이다. 그러나 수학자들은 글을 쓸때 게으르기 때문에 '확률이 무엇인가'에 대한 약칭으로 문자 P를 사용하는 것이다. 따라서 '균일한 6면을 가진 주사위를 굴릴때 3이 나올 확률은 무엇인가?'를 수학적으로 $P(X=3)$으로 쓸 수 있다.



The 3 types of probability(확률의 3가지 형태)

위에서 확률에서 확률변수의 개념과 몇가지 표기법을 알아보았다. 그러나, 확률은 꽤 복잡해질 수 있다. 아마도 이해하기 위한 첫번째는 확률의 다른 형태이다. 확률은 marginal(주변), joint(결합), conditional(조건부)이 될 수 있다.

  • Marginal Probability(주변확률) : A가 이벤트라면 주변확률은 그 이벤트가 발생하는 확률 $P(A)$ 이다.

    예를 들면, 포커카드 1팩이 있다고 하자. 주변확률의 예는 팩에서 뽑은 카드가 빨강인 확률 $P(red)=0.5$가 될 수 있다.

  • Joint Probability(결합확률) : 두개 이상의 이벤트의 교차(intersection) 확률이다. 시각적으로 이것은 벤다이어그램(아래 그림을 보자)에서 두 이벤트의 원의 교차점이다. 만약 A와 B가 이벤트이고 이 두 이벤트의 결합확률은 $P(A \cap B)$로 나타낼 수 있다.

    예를 들면, 팩에서 뽑은 카드가 빨강이고 4인 확률은 $P(red and 4) = 2 / 52 = 1 / 26$이다. (카드 1팩은 52장이다.)

    이 예제는 이후에 좀 더 자세히 다룰 것이다.

  • Conditional Probability(조건부확률) : 조건부 확률은 이미 발생한 다른 이벤트가 주어지면 몇몇 이벤트가 발생하는 확률이다. 만약 A와 B가 이벤트이고 이미 발생한 이벤트 B가 주어지면 A가 발생하는 확률로 $P(A|B)$로 나타낸다.

    예를 들면, 뽑은 카드가 빨강으로 주어지면 카드가 4인 확률은 $P(4|red) = 2 / 26 = 1 / 13$이다.(카드 한팩은 빵강 26, 검정 26 총 52장이다. 이미 빨강 카드를 뽑았기 때문에 선택할 수 있는 카드가 26장 뿐이라는 것을 안다. 이것이 첫번째 분모가 26인 이유이다.)

    
    두 이벤트 A와 B의 결과에 대한 공간을 보여주는 벤다이어 그램.
    두 이벤트가 겹치는 다이어그램에서 이 겹침이 결합확률을 나타낸다. 즉 이벤트 A와 이벤트 B가 모두 발생하는 확률이다. 만약 이벤트간 겹치는 공간이 없다면 결합확률은 0이 된다.
    



Linking the probability types: The general multiplication rule(일반 곱셈법칙)

일반적인 곱셈법칙은 모든 3가지 형태의 확률을 연결하는 아름다운 등식이다.




예제에 대한 추가적인 설명

때때로 결합확률과 조건부확률을 구분하는 것이 꽤 혼란스러울 수 있다. 따라서 카드팩에서 카드를 선택하는 예제를 사용하여 차이점을 찾아보자.

빵강이고 4인 카드를 뽑는 확률 즉, 결합확률 $P(red and 4)$를 찾는 경우 52장의 카드를 모두 앞에 놓고 무작위로 하나의 카드를 뽑는것을 상상한다. 이 52장의 카드중 2개가 빨강이고 4이다.(빨강 다이어몬드 4, 빨강 하트 4) 따라서 결합확률은 $2 / 52 = 1 / 26$이다.

카드가 이미 빨강이라면 뽑는 카드가 4인 확률을 찾는 경우 즉 $P(4|red)$인 경우는 모든 52장의 카드를 갖고 있지만 카드를 무작위로 뽑기 전에 카드를 정리하여 26갖의 빨강 카드 모드를 선택한다. 이제 이 26장의 카드를 앞에 놓고 무작위로 카드를 선택한다. 이 빨강 카드 중 2개가 4이다. 따라서 조건부확률은 $2 / 26 = 1 / 13$이다.

다른 방법으로 수학을 좋아한다면 결합확률을 계산하기 위해 위에서 정의한 일반 곱셈규칙을 사용할 수 있다. 우선 결합확률 $P(A \cap B)$로 만들기 위해 수식을 바꾼다.(즉, 등식의 좌항에 $P(A \cap B)$를 놓고 나머지를 우항에 놓는다.)

$P(A \cap B) = P(A|B) \times P(B)$

A는 카드가 4인 이벤트이고 B는 카드가 빨강인 이벤트이다. 위에서 미 알아본 바와 같이 $P(A|B) = 1 / 13$이고 $P(B) = 1 / 2$이다. 따라서 $P(A \cap B) = 1 / 13 \times 1 /2 = 1 / 26$이다.



Probability rules: ‘and’ and ‘or’

'and' 규칙

이미 결합확류로 변장한 'and' 시나리오를 보았다. 그러나 아직 'and'시나리오에서 확률을 계산하는 방법을 알지 못한다. 따라서 예제를 통해 진행해 보자. 동전을 던지는 이벤트 A와 균일한 주사위를 굴리는 이벤트 B가 있다고 하자. 주사위가 6이 나오고 동전이 앞면일 확률을 구하려고 한다. 주사위 6과 동전 앞면의 결합확률을 계산하려면 $P(A \cap B) = P(A|B) \times P(B)$를 얻기 위해 위 일반 곱셈 법칙을 변형한다. 우리는 이벤트 A가 동전을 던지는 것이고 B가 주사위를 굴리는 것임을 안다. 따라서 $P(A|B)$ 용어는 "주사위가 6이 나왔을 때 돋전이 앞면일 확률은 무엇인가?"라는 물음이다. 이는 동전 던지기의 결과가 주사위를 굴리는 것에 종속되지 않는 다는 것을 직관적으로 알 수 있다. 이러한 이벤트를 독립(independent)이라고 한다. 이 시나리오에서 동전 던지기의 결과는 우리가 주사위를 굴리더라도 동일할 수 있다. 수학적으로 이를 $P(A|B) = P(A)$로 표현한다. 그러므로 이벤트가 독립이면 결합확률은 오직 그 이벤트의 개별적인 주변확률(marginal probability)의 곱인 $P(A \cap B) = P(A) \times P(B)$이다. 따라서 P(동전이 앞면 and 주사위가 6) = P(A=앞면, B=6) = $1/2 \times 1 / 6 = 1 / 12$이다.

여기서 P(A=앞면, B=6)으로 쓴 것에 주의하자. 이벤트 사이의 콤마(,)는 결합확률의 약칭이다.

많은 실제 시나리오에서 이벤트는 실제로 그렇지 않은 경우에도 독립으로 간주된다. 이는 주로 수학을 훨씬 더 쉽게 만들기 때문이다. 게다가 결과가 종종 매우 유용하기도 하다. 나이브 베이즈(Niave Bayes) 방법은 데이터 과학에서 아마도 가장 일반적인 예제이고 보통 text classification 문제에서 상당히 괜찮은 결과를 보인다.



'or' 규칙

'and' 규칙과 함께 각각의 활률을 곱해야 한다. 'or' 시나리오라면 '각각의 확률을 더하고 교차점을 빼야한다. 수학적으로 이를 $P(A \cup B) = P(A) + P(B) - P(A \cap B)$로 나타낸다. 위의 벤다이어 그램으로 되돌아가 보자. 원 A와 원 B를 더하면 교차점이 두번 더해진다. 따라서 교차점을 빼야한다.

그러면 주사위가 6이거나 동전이 앞면일 확률을 찾기 위해 예제를 변경해 보자. 이것은 P(동전이 앞면 or 주사위 6) = P(A=앞면 $\cup$ B=6) = $1 / 2 + 1 / 6 - 1 / 12 = 6 / 12 + 2 / 12 - 1 / 12 = 7 / 12$이다.

$\cup$ 기호는 'union'으로 알려져있고 'or' 시나리오에서 사용된다는 것에 주목하자.

우리가 교차점을 빼지말아야 활 때가 있다. 이는 벤타이어 그램에서 두 원이 교차하지 않을 때 발생한다. 두 이벤트의 원이 겹치지 않는 이러한 이벤트를 '상호 배타작(mutually exclusive)'라고 한다. 이는 교차점이 0이라는 뜻 즉, $P(A \cap B) = 0$을 포함한다. 이러한 경우를 다루는 예제를 보자. 우리가 주사위를 굴리고 5 또는 6이 나올 확률을 알기 원한다고 해보자. 이러한 이벤트는 5와 6이 동시에 나올 수 없기 때문에 상호 배타적이다. 따라서 벤다이어그램내 원은 겹치지 않는다. 따라서 5 또는 6이 나올 확률은 $1 / 6 + 1 / 6 = 2 / 6 = 2 / 3$이다.

반응형

+ Recent posts