Getting to know probability distributions
Getting to know probability distributions
확률변수(Random variable)
확률변수(R.V.)는 현실을 숫자로 바꾸는 수학적 함수이다. 실제로 이벤트가 발생한 후 여러분의 데이터셋에 어떤 숫자를 기록해야하는지 결정하기 위한 규칙으로써 이를 생각하자.
확률변수는 현실을 단순화하기 위한 규칙이다.
예를 들면, 6면 주사위를 굴리는것에 관심이 있다면 우리는 {1, 2, 3, 4, 5, 6}인 숫자들 중 하나에 실제 주사위 값의 경험을 매핑하는 확률변수로 X를 정의할 수 있다. 또는 단지 홀수/짝수를 위해 {0, 1}만을 기록할 수도 있다. 이 모든 것은 어떻게 확률변수를 정의하는가에 따라 달라진다.
Image:SOURCE
(너무 기술적이라면 결과를 표시하는 방법으로 확률변수를 생각하자. X가 주사위에 대한 것이라면 X=4는 4가 나오는 것을 표현하는 방법이다.)
임의 변량(Random Variate)
많은 사람들이 확률변수와 임의변량을 혼동한다. 가볍게 읽고 있는 독자라면 이 부분을 건너 뛰어도 되지만 아니라면 다음을 기억하자. 임의 변량(random variate)은 {1, 2, 3, 4, 5, 6}같은 결과 값(value)인 반면 확률변수는 현시을 숫자로 매핑하는 함수(function)이다. 확률변수는 대문자로 임의 변량은 소문자로 표시한다.
확률(Probability)
$P(X=4)$는 "주사위가 4가 나오는 확률"이라고 읽을 수 있다. 균일한 6면 주사위의 경우 $P(X=4) = 1/6"$이다.
분포(Distribution)
분포는 X가 취할 수 있는 값의 전체 집합에 대한 확률을 표현하는 방법이다.
분포는 인기 콘테스트 결과를 그래프 형태로 제공한다.
확률밀도함수(PDF, Probability Density Function)
분포를 호출하는 가장 좋은 방법은 이것의 진짜 이름 - 확률밀도함수 -을 부르는 것이다. 그같은 함수가 의미하는 것은 무엇일까? x축에 X를 놓으면 y축에 높이는 각 결과의 확률을 나타낸다.
PDF는 전체 모집단에 대해 인기 컨테스트 결과를 제공한다. 분포는 기본적으로 모집단 히스토그램이다. 수평축 : 모집단 데이터 값, 수직축 : 상대적 인기
누적밀도함수(CDF, Cumulative Density Function)
확률밀도함수의 적분(integral)이다. X의 각 값이 얼마나 가능성이 있는지를 보여주는 대신 이 함수는 모든 X와 그 이하에 대한 누적된 확률을 보여준다. 여러분이 백분위(percentile)를 생각하고 있디면 굉장하다. 백분위는 x축에 있는 것이고 백분율(percentage)은 y축에 있는 것이다.
- 확률(probability) : 6면 주사위에서 3이 나옴. 1/6
- 누적(cumulative) : 3또는 그 이하를 얻음. 3/6
- 50번째 백분위는 3이다. 3은 x축에 있고 50%는 y축에 있다.
분포 선택하기
통계학자들이 선호하는 두가지 접근방법이 있다.
- 히스토그램을 사용한 실증적 분포 추론(estimate empirical distributions)
- 데이터 원본이 동작하는 방식과 가장 유사한 분포를 유명 분포 카달로그에서 찾음.
카달로그를 보면 다양한 분포가 "Normal", "chi-squared", "cauchy"같은 이름을 갖고 있는것을 알 수 있다. 이것은 학생들에게 유일한 옵션이라는 잘못된 인상을 준다. 그것들은 유일한 옵션이 아니다. 단지 유명한 것들이다.
사람들처럼 분포는 모든 잘못된 이유로 유명할 수 있다.
긍정적인 면으로 이름있는 분포는 깔끔한 PDFs(확률밀도함수)와 여러분을 위한 완료된 많은 계산이 함께 나온다.
부정적인 면으로 여러분의 응용분야가 카탈로그의 어떤것에도 적합하지 않을 수 있다. 이런 경우, 경험적(empirical) 옵션을 사용한다.
Parameters
다음은 아주 유명한 분포인 정규분포(별칭은 가우시안(Gaussian) 또는 종모양 곡선(bell-shaped curve))에 대한 확률밀도함수이다.
솔직해지자 - 통찰력이 정확하게 페이지에서 튀어나오지 않는다. 그것은 우리가 흥미가 있는 특정 파라미터에 대한 질문을 하는 것을 좋아햐는 경향이 있기 때문이다. 통계에서 파라미터는 모집단 또는 분포를 요약한다. 예를 들면, 분포가 0에서 정점에 도달하는지를 묻는다면 여러분은 이것의 최빈값(mode, 파라미터)의 위치에 대해 묻고 있는 것이다. 분포가 얼마나 두꺼운지(fat)를 묻는다면 여러분은 분포의 분산(variance, 또다른 파라미터)에 대해 묻고 있는 것이다. 잠시동안, 몇가지 관심있는 파라미터에 관해 알아보자.
위 함수를 보면 몇가지 그리스 문자($\mu, \sigma$)를 볼 수 있다. 이것들은 이 분포에 대한 특별한 파라미터이다. 이를 숫자로 치환할때까지 어떠한것도 그래프로 그릴 준비가 되지 않았다. 이것들 없이 우리가 할 수 있는 모든 것은 아래 그림처럼 그 분포의 추상적인 모양에 대한 모호한 느낌을 갖는것이다.
image: SOURCE
그리스 문자가 있는 곳에 숫자를 넣어보자. 예를 들면, 다음은 $\mu = 0$ vs. $\mu = 5$ vs. $\mu = 10$과 $\sigma = 1$로 얻는 것이다.
Pink μ = 0, Blue μ = 5, Green μ = 10
다른 붙포들은 분포의 특별한 양을 위해 다른 문자를 사용한다. 결국, 여러분은 질려서 분포 모두에 대해 $\theta_1, \theta_2, \theta_3$ 등을 사용하기 시작할 것이다.
분포와 분포의 파라미터는 여러분이 모든 정보를 갖지 못한 모집단에 대한 가정을 포함시키는 이록적 목적이 있는 반면 히스토그램은 여러분이 가진 샘플 데이터를 요약하는 좀 더 현실적인 목적이 있다는 것은 기억할 만한 가치가 있다. 여러분이 샘플과 모집단으로 하는 일의 개념을 구분하고 있다면 많은 혼란을 피할 것이다.
You can find my explanations here.