Probability concepts explained: probability distributions
Probability concepts explained: probability distributions (introduction part 3)
앞선 글에서는 표기법, 확률과 공리에 대한 기본적인 법칙을 알아보았다. 이것들이 수학자들을 흥분시키는 것들이다. 하지만, 확률이론은 종종 확률분포를 사용할때 실제 유용하다.확률분포(probability distribution)은 많은 분야에서 사용되지만 그것이 무엇인지 거의 설명하지 않는다. 때때로 독자가 이미 알고 있다고 가정한다. 그래서 이 글에서는 확률분포가 무엇인지를 다룬다.
확률분포(probability distribution)란 무엇인가?
확률변수(random variable)은 값이 임의의 이벤트에 대한 결과인 변수인 것을 기억하자. 예를 들면 확률변수는 주사위 굴리기 또는 동전 던지기의 결과일 수 있다.
확률분포는 해당 확률(probability) 값과 함께 확률변수의 모든 가능한 결과의 목록이다.
구체적인 예제로 균일한 6면 주사위의 확률분포가 있다.
균일한 6면 주사위에 대한 확률 분포
명시적으로 유한한 지지집합(finite support)를 갖는 이산(discrete) 단변량(univariate) 확률분포이다. 이는 좀 길고 복잡하다. 그래서 문장을 쪼개어 이해해 보자.
이산(discrete) : 어떤 두개의 연이은 결과를 선택한다면 범위내에 있는 결과를 얻을 수 없다는 의미이다. 예를 들면, 6면 주사위를 굴린 결과로 1과 2를 고려하고 있다면 그 사이의 결과(결과가 1.5인 것과 같은)를 갖을 수 없다. 수학적으로 결과의 목록이 셀 수 있다고 말할 수 있다. 여러분은 아마도 연속 확률분포에 도달하면 더이상 이산이 아니다라고 추축할 수 있다.
단변량(univariate) :오직 하나의 (무작위의) 변수를 갖는다는 것을 의미한다. 이런 경우, 오직 주사위의 결과만을 갖는다. 반대로 하나 이상의 변수를 갖는다면 다변량 분포(multivariate distribution)을 갖는다고 한다. 2개의 변수를 갖는 특별한 경우에는 종종 이변량 분포(bivariate distribution)이라고 한다.
유한한 지지집합(finite support) : 제한된 결과의 수가 있다는 의미이다. 지지집합(support)는 근본적으로 확률분포가 정의된것에 대한 결과이다. 따라서 예제에서 지지집합은 1, 2, 3, 4, 5, 6이고 무한한 값이 아니기 때문에 지지집합은 유한하다.
함수 소개 : Introduction to functions
왜 함수에 대해 이야기하는가?
위의 6면 주사위를 굴리는 예제에서는 단지 6개의 가능한 결과만 있기 때문에 표로 전체 확률분포를 작성할 수 있었다. 많은 시나리오에서 결과의 수는 훨씬 더 클 수 있고 따라서 표를 작성하기에 지루해질 수 있다. 더 나쁘게 가능한 결과의 수가 무한할 수 있다.
모든 분포에 대한 표를 작성하는 문제를 해결하기 위해 대신 함수를 정의할 수 있다. 함수는 간결하게 확률분포를 정의할 수 있게 한다.
그럼 우선 함수가 일반적으로 무엇인지를 정의하고 확률분포에 사용될 함수를 알아보자.
함수란 무엇인가?
매우 추상적인 수준에서 함수는 입력을 받아 출력을 반환하는 상자이다. 대부분의 경우, 함순느 실제 출력이 유용하게 되기 위해 입력으로 무엇인가를 해야 한다.
함수를 정의해 보자. 이 함수는 입력으로 숫자를 받아 입력에 2을 더하고 출력으로 새로운 수를 반환한다고 하자. 그림으로 이 함수는 아래와 같이 (상자처럼) 보인다.
입력을 받아 출력을 반환하는 상자로 함수의 추상적인 묘사. 이 경우, 함수는 입력에 2을 더한다.
만약 입력이 5이면 우리가 정의한 함수는 입력에 2을 더해 5 + 2 = 7인 출력을 반환한다.
함수 표기법
이제 우리가 만드는 모든 함수에 대해 위의 그림을 그리는 것은 지루할 것이다. 대신, 이를 간결하게 만들기 위해 다이어그램을 나타내기 위한 기호(symbol)/문자(latters)를 사용한다. "입력" 대신 "x", "함수"대신 "f", "출력"대신 "f(x)"를 사용하면 아래 그림과 같다.
더 간결하게 하기 우해 낱말대신 기호로 표시된 함수
더 낫다. 그러나 여전히 함수가 하는 것을 이해하기 위해 그림을 그려야하는 문제가 있다. 따라서 어떤 그림을 그맆 필요없는 함수를 작성하는 더 나은 방법을 제시한다. 수학적으로 예를 든 함수는 다음과 같이 표시된다.
위 표현은 함수 f로 입력이 x인것, 함수 f, 함수가 입력에 2를 더하고 x + 2를 출력으로 반환하는 것을 명시적으로 볼 수 있다.
함수와 입력에 대한 문자 선택은 임의적이다. "a"는 입력이라고 할 수있고 "add_two"함수를 호출할 수 있다. 그러면 위 함수는 다음과 같을 것이다.
동일 함수를 작성하는 다른 방법
위 두 표현은 완벽하게 동일하다.
이것으로부터의 주요점중 하나는 우리가 볼 수 있는 함수로 어떻게 입력을 변환할 수 잇는가이다. 함수 $f(x) = x + 2$로 우리는 입력이 $x=10$ 또는 $x=10000$일때 무엇을 하는지를 아았다. 따라서 이 글의 앞에서처럼 표를 작성할 필요가 없다.
다른 포인트는 우리가 사용하는 함수는 입력과 출룍 모두를 숫자로 동작하고 있다는 것이다. 그러나 함수는 입력과 출력으로 무엇이든지 사용할 수 있다.(출력이 없을 수도 있다.) 예를 들면, 입력으로 텍스트 문자열을 받아 그 문자열을 첫번째 문자를 출력하는 함수를 프로그래밍 언어로 작성할 수 있다. 다음은 파이썬으로 이 함수를 작성한 예이다.
그래프로 함수 표현
함수의 주요 이점 중 하나가 입력을 어떻게 변환하는지를 아는것이 주어지면 명시적으로 함수를 시각화하기 위해 이 지식을 사용할 수 있다. 예제 $f(x) = x + 2$의 그래프는 아래와 같다.
입력으로 x축을 읽을 수 있고 x축의 수에 일치하는 y축은 $f(x) = x + 2$ 출력값이다. 예를 들면, x=1에서 수직(흰색) 선이 수평(흰색) 선을 교차하는 지점을 지나는 함수 f(x)=3을 나타내는 파랑 선을 볼 수 있다. 이는 도표로 $f(1) = 1 + 2 = 3$을 보여준다.
함수의 파라미터
함수의 가장 중요한 특성중 중 하나는 파라미터(parameter)이다. 파라미터는 필수로 입력으로 전달하지 않는 함수내부에서 찾는 수이다. 우리의 예제 $f(x) = x + 2$에서 "2"가 함수를 정의하기 위해 필요하지만 입력으로써 함수에 포함시키지 않기 때문에 파라미터이다.
파라미터가 중요한 이유는 출력을 결정하는 것에서 직접적인 역할을 하는 것이다. 예를 들면, 다른 함수 $h(x) = x + 3$을 정의해 보자. 함수 $f(x) = x + 2$와의 유일한 차이점은 파라미터의 값이다.("2"대신 3을 갖는다.) 이 차이는 동일한 입력에 대해 완전히 다른 결과임을 의미한다. 이를 그래프로 보자.
파라미터는 임의의 절차에서 특정 결과에 대한 가능성(likelihood)을 말한느 함수의 결과를 정의하기 때문에 확률(분포) 함수의 가장 중요한 특성이라 할 수 있다. 이것은 종종 데이터 과학에서 생기는 문제에서 추정하려고 하는 파라미터이다.
이제 함수의 언어로 확률분포에 대한 이야기를 할 준비가 되었다.
확률 질량 함수(probability mass function) : 이산(discrete) 확률 분포
이산 확률분포를 설명하기 위해 확률 함수를 사용하면 이를 확률 질량 함수(probability mass function)라고 한다. (보통 줄여서 pmf로 나타낸다.)
대문자 X로 표시하고 소문자 x로 표시된 값을 취하는 확률변수(random variable)의 확률은 $P(X=x)$로 나타낸다. 따라서 예제 확률변수로 주사위 굴리기를 사용하면 3이 나올 확률을 $P(X=3) = 1/6$으로 표시할 수 있다.
확률질량함수 "f"는 결과의 확률을 반환한다. 따라서 확률질량 함수는 다음과 같이 표시된다.
위 식은 확률질량함수 "f"가 결과 x의 확률을 반환한다는 것을 의미한다.
그러면 균등한 6면 주사위에 대한 예제로 돌아가서 확률질량함수 f는 단지 결과의 확률을 반환할 뿐이다. 따라서 3이 나올 확률은 $f(3) = 1/6$이다.
확률밀도함수가 확률을 반환하기 때문에 이는 확률 법칙(공리)를 따른다. 즉, 확률밀도함수는 0과 1사이 값을 출력하고 전체 pmf의 합은 1이다. 수학적으로 이 두가지 조건은 다음과 같이 나타낼 수 있다.
이산 확률분포를 표와 함수로 표시할 수 있다는 것을 보았다. 또한 도표로 주사위 굴리기 예제를 표현할 수도 있다.
균등한 6면 주사위 굴리기의 결과에 대한 확률분포
이산 확률 분포 예제 : 베르누이 분포(The Bernoulli distribution)
몇몇 확률분포는 너무자주 나타나 대규모로 연구되고 이름도 있다. 많이 나타나는 이산 분포 한가지는 베르누이 분포라고 불린다. 이 분포는 두가지 가능한 결과를 갖는 절차에 대한 확률분포를 설명한다. 이 분포의 예제로는 결과가 앞면 또는 뒷면인 동전 던지기가 있다.
베르누이 분포에 대한 확률질량함수는 다음과 같다.
여기서,
- x는 결과로 0 또는 1값을 갖는다. 따라서 앞면=1, 뒷면=0으로 할 수 있다.
- p는 결과가 1인 확률을 표현하는 파라미터
그래서 앞면 또는 뒷면이 나올 확률이 0.5인 균일한 동정인 경우 p=0.5이다.
종종 확률질량함수에 포함된 파라미터에 대해 명시적이길 바란다. 따라서 다음과 같이 나타낼 수도 있다.
파라미터에서 입력 변수를 구분하기 위해 세미콜론(;)을 사용한 것에 주의하자.
확률밀도함수(Probability density functions): 연속 확률 분포(Continuous probability distributions)
때때로 연속적인 결과를 갖는 확률변수에 대한 확률이 관련된다. 예로는 인구에서 무작위로 선택된 성인의 키 또는 다음 승객이 오기까지 택시기사가 기다려야하는 총 시간을 포함된다. 이 예제들에 대해서는 확률변수가 연속 확률 분포로 더 잘 설명된다.
연속 확률분포를 설명하기 위한 확률함수를 사용할 때 이 함수는 확률밀도함수(probability density function)라고 부른다.(보통 줄여서 pdf)
확률밀도함수는 확휼질량함수에 비해 개념적으로 약간 더 복잡해진다. 연속 확률분포에 대한 예제로 시작하고 그로부터 속성을 다뤄보자.
연속 확률분포(continuous probability distribution) 예제 : 정규분포(The Normal distribution)
정규분포는 아마도 모든 확률과 통계에서 가장 일반적인 분포일 것이다. 이 분포가 아주 많이 나타나는 주요 이유중 하나는 중심극한정리(Central Limit Theorem)때문이다. 이 글에서는 이에 대해 다루지 않지만 “The Only Theorem Data Scientists Need To Know”에서 정리(theorem)가 무엇인지와 어떻게 정규분포와 관련되는지를 설명한다.
정규분포에 대한 확률밀도함수는 다음과 같이 정의된다.
여기서 파라미터(세미콜론 다음의 기호)는
- $\mu$ : 평균(mean), 분포의 중심인 지점.
- $\sigma$ : 모집단(population)의 표준편차(standard deviation), 분포가 얼마나 퍼져있는가
평균을 0($\mu = 0$), 표준편차를 1($\sigma = 1$)로 설정하면 분포는 다음과 같다.
평균 0, 표준편차 1인 정규분포
표준편차는 무한한 지지집단을 가진 연속적인 단변량 확률분포(continuous univariate probability distribution with infinite support)에 대한 예이다. 무한한 지지집단으로 음의 무한대에서 양의 무한대까지 모든 결과에 대한 확률밀도함수의 값을 계산할 수 있다. 수학에서 때때로 전체 실수 라인(whole real line)에서 지원된다고 한다.
Properties of a continuous probability distribution
주의할 첫번째는 y축(수직축)의 숫자가 0에서 시작하고 증가한다는 것이다. 이는 확률밀도함수가 따라야하는 규칙이다. 확률밀도함수로부터의 어떤 결과값은 0보다 크거나 같다. 수학적 용어로 출력은 음수가 아니다라고 하거나 다음과 같이 나타낸다.
그러나, 확률질량함수와 다르게 확률밀도함수의 출력은 확률값이 아니다. 이것은 믿기 힘든 중요한 차이이다.
확률밀도함수에서 확률을 얻으려면 곡선아래 영역을 구해야 한다. 따라서 평균 3, 표준편차 1인 분포를 예제로 하여 아래 그림에서 보이는 영역을 구해 결과가 0과 1사이인 확률을 구할 수 있다.
수학적으로 다음과 같이 표시한다.
위 식은 "0과 1사이(좌변) 확률밀도함수에 대한 적분은 확률변수의 결과가 0과 1인 확률과 같다.(우변)"을 나타낸다.
지금 확률밀도함수의 또 다른 속성을 보았다. 즉, 두 결과('a'와 'b'라고 하자)사이의 확률은 이 지점간 확률밀도함수의 적분이다.(지점 'a'와 지점 'b'간 확률밀도함수로 만들어진 곡선 아래 영역을 구하는 것과 같다.) 수학적으로는 다음과 같이 나타낸다.
여전히 확률 분포에 대한 규칙을 따라야한다는 것을 기억하자. 즉, 모든 가능한 출력의 합은 1인 규칙을 말한다. 범위를 음의 무한대에서 양의 무한대로 설정하면 모든 가능한 값을 다룰 수 있다. 따라서 다음 함수가 확률밀도 함수가 되는 것이 참이어야 한다.
위 식은 음의 무한대와 양의 무한대 사이의 곡선아래 영역은 1이라는 것을 나타낸다.
연속 확률분포에 대해 알야하할 주용한 것(그리고 개념적으로 용어를 사용하기에는 정말 이상 할 수있는 것)은 확률변수가 특정 결과와 같은 확률이 0이라는 것이다. 예를 들면, 결과가 숫자 2인 확률을 구한다면 아래와 같을 것이다.
위 식은 개념적으로 이상할 수 있지만 미적분학(calculus)을 이해하면 좀 더 나아진다. 이 글에서는 미적분학을 다루지 않는다. 대신 이 사실에서 여러분이 얻길 바라는 것은 우리는 오직 두 값 사이에 발생하는 확률에 대해서만 이야기한다는 것이다. 또는 우리는 결과가 특정값보다 크거나 작은 확률에 대해서만 요청할 수 있다. 결과가 특정값과 같은 확률에 대해서는 요청할 수 없다.
날카로운 독자는 "작거나 같은($\le$)$"과 "크거나 같은($\ge$)"이 아닌 "작은($<$)"과 "큰($>$)"을 사용한 것을 눈치챘을 것이다. 연속확률분포에서 아래와 같이 실제로 둘이 동일하기 때문에 실제로 중요하지 않다.
따라서 확률변수가 a와 b사이를 제외한 값을 갖는 확률은 a와 b사이를 포함한 값과 동일하다.
The importance of parameters
파라미터값이 함수의 출력값을 바꿀 수 있고 확률분포도 다르지 않다는 것을 보았다.
다른 파라미터를 갖는 두개의 정규분포는 완전히 다른 확률 결과를 제공한다.
위 그림은 두개의 정규분포에 대한 확률밀도함수이다. 파란색 분포는 평균 0, 표준편차 1인 반면 빨강 분포는 평균 2, 표준편차 0.5이다.
이 그림은 잘못된 파라미터 값을 사용하는 것이 예한한 걸과에서 크게 다른 결과를 제공할 수 있는 이유를 더 명확하게 보여준다.
Summary
주요 포인트를 요약해 보자.
- 확률분포(probability distribution) : 결과와 그에 관련된 확률의 목록
- 표로 소규모 분포를 작성할 수 있지만 함수로 대규모 분폴르 요약하는 것이 더 쉽다.
- 확률질량함수(probability mass function) : 이산(discrete) 확률 분포를 표현하는 함수
- 확률밀도함수(probability mass function) : 연속(continuous) 확률 분포를 표현하는 함수
- 확률분포를 표현하는 함수 역시 확률 법칙(rules of probability)을 따라야 한다.
- 확률질량함수의 출력은 확률인 반면 확률밀도함수로 만들어진 곡석 아래 영역이 확률을 나타낸다.
- 확률함수의 파리미터는 확률변수(random variable)의 결과에 대한 확률 정의에서 중심적인 역할을 한다.