Common Probability Distributions: The Data Scientist’s Crib Sheet
데이터 과학자들은 선택할 수 있는 수백가지 확률분포를 가지고 있다. 어디서 시작할까?
(** 가장 앞 문단 해석은 넘어간다. 사실 잘 이해가 되지 않아 해석을 잘 못하겠다.)
확률분포는 데이터 구조가 컴퓨터과학을 위한 것 처럼 통계의 기본이다. 확률분포는 데이터 과학자처럼 대화하는 것을 의미한다면 학습을 시작하기 위한 공간이다. 여러분은 때때로 hash 함수를 이해하지 않고 자바프로그램을 관리할 수 있는 것처럼 분포에 대한 이해없이 R이나 scikit-learn을 사용하여 간단한 분석에서 도망칠 수 있다. 그러나 이는 곧 눈물, 버그, 가짜 결과 또는 잘못으로 끝날 것이다.
수백가지 확률분포가 있고 몇몇은 Muth나 Lomax 처럼 중세 전설의 괴물 같은 소리이다. 단지 대략 15개의 분포가 실제로 지속적으로 나타난다. 그것들은 무엇이고 각각에 대한 어던 현명한 통찰을 기억해야 하는가?
확률분포란 무엇인가?
- 항상 일어나는 일 : 주사위 굴리기, 비옴, 버스도착
- 사건 발생 후 결과는 명확하다 : 주사위가 3과 4가 나옴. 0.5인치 강수량, 버스 도착까지 3분 걸림.
- 사건 발생 전에는 결과가 나올 가능성이 얼마나 있는지에 대해서만 이야기 할 수 있다.
확률분포는 우리가 각 결과의 확률이 무엇인지를 생각하는 것을 설명한다. 확률분포를 아는 것은 때때로 단순히 단일 결과가 나올 가능성있는지보다 더 흥미롭다. 확률분포는 많은 형태로 제공되지만 오직 한가지 크기이다. : 분포내 확률은 항상 합이 1이다.
예를 들면, 균일한 동전 던지기는 두가지 결과, 앞면과 뒷면이 있다. 던지기 전에 우리는 앞면이 2번중 한번의 기회 또는 0.5 확률이라고 믿는다. 뒷면에 대해서도 동일하다. 이것이 동전 던지기의 두가지 결과에 대한 확률분포이다. 그리고 여러분이 이 문장을 이해했다면 여러부는 이미 베르누이 분포(Bernoulli distribution)를 마스터한 것이다.
이국적인 이름에도 불구하고 보통 분포는 기억하기 쉽고 권위있는 분위기로 말하는 직관적이고 흥미로운 방법으로 서로 관련있다. 몇몇은 베르누이 분포를 자연스럽게 따른다. 관계에 대한 지도를 보자.
일반 확률분포와 몇몇 핵심 관계
각각의 분포는 분포의 확률밀도함수(probability density function (PDF))의 예로 설명되었다. 이 글에서는 단일 숫자인 출력의 분포을 가진 것만 다룬다. 따라서 각 박스의 수평축은 가능한 수치 결과의 셋이다. 수직축은 결과의 확률을 나타낸다. 몇몇 분포는 0 또는 5와 같은 정수여야 하는 결과에 대해 이산(discrete)이다. 이는 각각의 결과에 대해 하나인 희소선(sparse line)으로 나나타며 여기서 선 높이는 그 결과의 확률이다. 몇몇은 -1.32 또는 0.005같은 실수값을 갖을 수 있는 결과에 대해 연속적이다. 이는 밀집곡선(dense curve)로 나타나며 곡선의 단면 아래 면적이 확률이다. 선 높이의 합과 곡선애래 면적은 항상 1이다.
Bernoulli(베르누이) and Uniform(균등)
여러분은 앞면 또는 뒷면인 두가지 이산 결과에 대한 베르누이 분포를 위에서 보았다. 이를 0과 1에 대한 분포로 생각하자. 위에서 두가지 결과는 동일한 가능성이었고 그것이 다이어그램에서 표시된 것이다. 베르누이 PDF는 양쪽 끝에서 0과 1의 두가지 동일한 가능한 결과를 표현하는 같은 높이의 두 선이 있다.
베르누이 분포는 균일하지 않은 동전던지기에 대한 결과 처럼 동일하지 않은 가능성인 결과를 표현할 수 있다. 그러면 앞면의 가능성은 0.5가 아닌 약간 다른 값 p와 윗면의 확률은 1-p이다. 많은 분포들 처럼 실제로 여기서 p같은 파라미터로 정의되는 분포 제품군이다. "베르누이(Bernoulli)"를 생각할 땐 단지 "(가능한 불균일한) 동전 던지기"를 생각한다.
이는 많은 동일 가능성을 갖는 결과에 대한 분포, 평평한 PDF로 특징이 나타나는 균등분포(uniform distribution)를 상상하기 위한 짧은 도약이다. 균등한 주사위를 굴리는 것을 상장하자. 1에서 6까지 결과는 동일한 가능성이다. 이는 n개의 출력 또는 연속적인 분포에 대해서도 정의될 수 있다.
"균등한 주사위 굴리기"로 균등 분포를 연상하자.
Binomial(이항) and Hypergeometric(초기하)
이항분포(binomial distribution)는 베루누이 분포를 따르는 것의 결과의합으로써 생각될 수 있다. 동전 던지기 20회; 앞면이 나올 횟수는? 이 횟수는 이항 분포를 따르는 결과이다. 이것의 파라미터는 시도 횟수인 n과 "성공"(여기서는 앞면 또는 1)의 확률 p이다. 각 동전 던지기는 베르누이 분포를 따르는 결과 또는 시행이다. 동전 던지기같이 동작하는 것에서 성공의 횟수를 카운팅할 때 이항 분포에 도달한다.여기서 각 동전 던지기는 독립적이고 동일한 성공 확률을 갖는다.
또는 동일한 수의 흰색과 검정색 공이 있는 항아리를 생각해 보자. 눈을 감고 공을 뽑은 다음
검정인지 확인하고 다시 항아리에 되돌려 놓는다. 이를 반복한다. 얼마나 많이 검정색 공을 뽑았는가? 검정색 공을 뽑은 이 횟수 또한 이항 분포를 따른다.
이런 이상한 상황을 상상하는 것이 요점이다. 왜냐하면 이것이 초기하 분포(hypergeometric distribution)를 설명하는 것을 간단하게 하기 때문이다. 초기하 분포는 항아리로 되돌려지지 않고 공이 뽑히는 동일한 횟수의 분포이다. 명백히 이는 이항분포의 사촌이지만 동일하지는 않다. 왜냐하면 성공 확률이 공이 제거되어 바뀌기 때문이다. 뽑힌 수에 비해 공의 수가 크다면 성공의 기회가 매번 뽑기마다 덜 변하기 때문에 분포가 유사하다.
항아리에 되돌리는 것 없이 공을 뽑는 것에 대해 이야기 할 때 "초기하 분포, 맞다"라고 끼어드는 것은 거의 대부분 안전하다. 왜냐하면 실제 항아리를 공으로 채우고 뽑고 교체하는 사람을 본적이 없기 때문이다. 더 넓게 샘플로 인구의 상당 부분 하위셋을 선택할 때 염두해야 한다.
푸아송(Poisson)
매분 고객센터에 전화하는 고객의 수는 어떨까? 여러분이 고객이 전화를 하지 않거나(0) 전화를 하는(1) 베르누이 시행으로써 매포를 생각한다면 분포가 이항아라는 결과이다. 그러나 전력회사가 아는 것처럼 정전시 동일한 시간에 2명 또는 수백명의 사람이 전화할 수 있다. 60,000미리 규모인 시도로써 이를 보는 것은 여전히 문제를 해결하지 못한다. 더 많은 시행일 수록 2회는 커녕, 1회 전화의 확률이 더 작아지지만 여전히 기술적으로 베르누이 시행은 아니다. 그러나 이를 무한으로 가져가면 논리적으로 결론을 내릴 수 있다. n이 무한으로 p가 0으로 간다면 np는 동일하다. 이는 전화에 대한 확률이 극소인 아주 극소로 작은 시간 조각을 향하는 것과 같다. 극한 결과(limiting result)는 푸아송 분포(Poisson distribution)이다.
이항 분포처럼 푸아송 분포는 셀수 있는 수에 대한 분포이다. - 무엇인가 발생된 횟수. 푸아송 분포는 확률 p와 시행 횟수 n에 의해 파라미터화되지 않지만 평균비율(average rate, $\lambda$)로 파라미터화 된다. 이 비유에서 람다($\lambda$)는 단수히 np의 상수값이다. 푸아송 분포는 이벤트가 발생하는 것에 대한 연속적인 비율이 주어지고 전체 시간에 대한 이벤트를 카운트하려 할 때 여러분이 반드시 생각해야 하는 것이다.
라우터에 도착하는 패킷, 가게에 도착하는 고객, 몇몇 큐(queue)에서 대기하는 것 같은 것일 때 "푸아송(Poisson)"을 생각하자.
Geometric(기하) and Negative Binomial(음이항)
간단한 베르누이 분포가 다른 분포에서 다른 분포가 생긴다. 동전 던지기에서 처음 앞면이 나오기 전에 얼마나 많이 뒷면이 나올까? 뒷면이 나온 횟수는 기하분포(geometric distribution)을 따른다. 베르누이 분포처럼 최종 성공에 대한 확률 p로 파리미터화 된지만 새행 또는 던진 횟수 n으로는 파라미터화 되지 않는다. 왜냐하면 실패한 시행의 횟수는 결과 그 자신이기 때문이다.
이항분포가 "얼마나 많이 성공했는가"라면 기하분포는 "성공할 때까지 얼마나 많이 실패했는가?"이다.<ㅠㄱ>
음이항 분포(negative binomial distribution)는 단순 일반화(gerneralization)이다. 이는 단순히 1회가 아니라 r회 성공이 일어날때까지 실패한 횟수이다. 따라서 r로도 파라미터화 된다. 때때로 음이항 분포는 4회 실패시까지 성공한 횟수로도 표현된다. 성공과 실패는 당신이 정의하는 것이다. 따라서 여러분이 p가 성공 또는 실패에 대한 확률인지를 유지하는 한 이 둘은 동일하다.
이항과 초기하 분포는 분명하게 쌍(pair)이라는 것을 지적할 수 있지만 기하와 음이항 분도 또한 꽤 유사하다.
Exponential(지수) and Weibull(와이블)
고객지원 전화로 되돌아가면 다음 고객 전화까지 얼마나 오래 걸리는가? 이 대기 시간에 대한 분포는 기하 분포가 될 수 있을 것 같아 보인다. 왜냐하면 최종 고객이 전화하는 시간까지 아무도 전화하지 않는 매 초가 실패처럼 들리기 때문이다. 실패의 회수는 아무도 전화하지 않은 시간이고 다음 전화까지 대부분 기다리는 시간이지만 대부분 충분히 가깝지 않다. 이번에는 합이 항상 전체 초가 되지만 이는 고객이 마지막으로 전화할 때까지 그 시간내 대기에 대한 것을 고려하지 못한다.
전과 같이 기하분포를 아주 작은 시간 분할로 극한을 취하면 동작한다. 여러분은 기하분포(exponential distribution)을 얻는다. 이는 정확하게 통화때까지 시간의 분포를 나타내며 이곳에서 처음으로 마주친 연속적인 분포이다. 왜냐하면 결과 시간이 전체 시간일 필요가 없기 때문이다. 푸아송 분포처럼 기하분포는 비율 람다($\lambda$)로 파라미터화 된다.
이항-기하 관계를 그대로 따라가면 푸아송의 '시간당 얼마나 많은 이벤트가 있는가?'는 지수(exponential)의 '이벤트까지 얼마나 오래 걸리는가?'와 관련이 있다. 시간당 횟수가 푸아송 분포를 따르는 이벤트가 주어지면 이벤트간 시간은 동일한 비율 파라미터 $\lambda$를 갖는 지수분포를 따른다. 이 두 분포간 관련성은 이들 중 어느하나에 대해 이야기할 때 이름을 확인하기 위해 필수적이다.
지수 분포는 "이벤트까지 시간" 혹은 "실패까지 시간"에 대한 것일 때 고려되어야 한다. 사실 와이블 분포(weibull distribution)같은 실패시간(time-to-failure)을 설명하기 위한 좀 더 일반적인 분포가 존재하는 것이 중요하다. 지수분포가 비율-인스턴스에 대한 사용 또는 실패-이 상수일때 적합한데 반해 와이블 분포는 시간에 대해 실패의 증가(또는 감소) 비융를 모델링할 수 있다. 지수는 단지 특별한 경우이다.
대화가 실패시간이 되면 "와이블"을 생각하자.
Normal, Log-Normal, Student’s t, and Chi-squared
정규분포(normal distributtion), 또는 가우시안(Gaussian) 분포는 아마도 가장 종요할 것이다. 정규분포의 종모양(bell shape)은 바로 알아볼 수 있다. e처럼 겉보기에 간단한 소스로부터 곳곳에 나타나는 특이한 존재이다. 동일 분포 - 어떤 분포라도-를 따르는 많은 값을 취하고 이를 더한다. 이 합의 분포는 (거의) 정규분포를 따른다. 더해진 것이 많을 수록 합의 분포는 더욱 정규분포와 일치한다.(주의사항 : 잘 동작하는 분포가 되어야 하고 독립적이여야 하며 정규분포로만 향해야 한다.) 기반 분포에 관계없이 이것이 참이라는 사실은 놀랍다.
이를 중심극한정리(central limit theorem)라고 하며 이것이 이름과 의미를 알아야 한다.
이런 의미에서 모든 분포와 관련이 있다. 그러나 특히 어떤것을 더하는 분포와 관련이 있다. 베르누이 시행의 합은 이항분포를 따르고 시행의 수가 증가하면 이항 분포는 좀더 정규분포처럼 된다. 사촌인 초기하분포도 역시 그렇다. 푸아송 분포 - 이항 분포의 극단적 형태 - 또한 비률 파라미터가 증가하면 정규분포에 접근한다.
로그-정규분포(log-normal distribution)를 따르는 결과는 로그(logarithm)가 정규분포를 따르는 값을 갖는다. 또는 정규분포를 따르는 값의 지수는 로그-정규분포를 따른다. 어떤것의 합이 정규분포를 따른다면 그 곱은 로그-정규분포를 따른다는 것을 기억하자.
Student's t 분포는 다른 과학분야에서 통계학자가 아닌 많은 사람이 배우는 t-검정(t-test)의 기초이다. 정규분포의 평균을 추정하는데 사용되고 또한 파라미터가 증가하면 정규분포에 접근한다. t-분포의 구분되는 특성은 꼬리부분으로 정규분포의 꼬리보다 더 두껍다.
뚱뚱한 꼬리 일화가 이웃을 놀라게 할 정도로 뜨겁지 않다면 맥주에 관한 약간 흥미로운 배경 이야기로 가보자. 100년이상 전에 가네스(Guinness)는 더 나은 stout를 만들기 위해 통계를 사용했다. 그곳의 William Sealy Gosset은 단지 더 나은 보리를 자라게 하기 위해 몇가지 완전 새로운 통계를 개발했다. Gosset은 사장에게 다른 맥주제조업자가 어떻게 이 아이디어를 사용하는지 알아내지 못한 것을 설득했고 공표(publish)하기 위한 권한을 얻었지만 'Student'라는 필명만 사용했다. Gosset의 가장 알려진 결과가 이 t-분포로 그의 이름에서 왔다.
마지막으로 카이제곱분포(chi-squared distribution)는 정규분포를 따르는 값의 제곱의 합에 대한 분포이다. 이것은 차이의 제곱의 합을 기반으로하는 카이제곱 검정(chi-squared test)를 뒷받침하는 분포로 정규분포를 따른다고 가정한다.
Gamma and Beta
이 시점에서 여러분이 카이제곱된 어떤것에 대한 이야기를 하고 있다면 그 대화는 진지해 진다. 여러분이 실제 통계학자들과 대화하고 있을 가능성이 있고 이 시점에서 스스로를 변명하길 원할 것이다. 왜냐하면 감마분포(gammar distribution)같은 것들이 나올 수 있기 때문이다. 감마분포는 지수분포와 카이제곱 분포 모두의 일반화이다. 좀 더 지수분포 같고 대기시간에 대한 세련된 모델로 사용된다. 예를 들면, 감마분포는 다음 n번의 이벤트가 발생할 때까지 시간을 모델링할 때 나타난다. 이는 머신러닝에서 "사전 결합(conjugate prior)"으로 몇가지 분포에 나타난다.
사전결합에 대한 대화에는 참여하지 말자. 만약 참여한다면 베타분포(beta distribution)에 대한 이야기하는지 확인단다. 왜냐하면 베타분포가 여기서 언급된 거의 모든 다른 분포에 사전결합이기 때문이다.
The Beginning of Wisdom
확률분포는 여러분이 아주 많이 알수 없는 어떤것이다. 정말로 관심있는 사람은 incredibly detailed map of all univariate distributions을 확인해보자.