ML/Articles

he Only Theorem Data Scientists Need To Know

a292run 2021. 3. 15. 08:31
반응형

원본 링크



The Only Theorem Data Scientists Need To Know


일반적으로 데이터 과학자의 기술력에 아마도 아주 많은 중요성이 있다고 본다. 즉 과학자가 정말로 전문이어야 하는 몇몇 기술 영역이 있고 이 분야들의 가설 검정(hyphothesis testing)은 상위에 있다.

그리고 가설검정은 중심극한정리(central limit theorem)에 따른다. 왜 이것이 중요한가? 중심극한정리는 통계학에서 아이디어를 평가하기 위해 불완전한 정보가 있더라도 데이터를 사용할 수 있게하는 핵심 아이디어이다.



중심극한정리(central limit theorem)가 말하는 것

중심극한정리(central limit theorem)는 간단하다. 중심극한정리는 단지 대규모 샘플 크기를 갖는 샘플 평균은 정규분포를 따른다는 것을 나타낸다.

분명히 이 용어의 몇몇은 조건 또는 설명이 필요하다. 끝에서 시작하여 거꾸로 작업해보자.

정규분포를 따른다.(normal distributed)는 것은 숫자의 그룹이 종모양(bell-shaped) 곡선을 따른다는 것을 의미한다. 대부분의 숫자가 평균주변 중간에 모이고 훨씬 작은 숫자가 좌우 끝단에 있다. 다음과 같이 보인다.


정규분포

샘플 평균(sample mean)은 더 큰 그룹의 무작위 하위셋의 평균이다. 그럼 만약 100명중 10명을 무작위로 선태갛고 그들의 키를 기록했다면 이들 10명의 평균이 샘플 평균이 될 것이다. 여러분은 이 작업을 여러번 할 수 있다. 무작위 선택이기 때문에 샘플 평균은 매번 다를 수 있다.

대규모 샘플(large sample)을 구성하는 것은 물론 주관적이다. 하지만 여기서 빈번하게 인용되는 숫자는 샘플 크가기 30보다 더 커야한다는 것이다. 실제 여러분의 샘플은 몇몇 요인에 따라 꽤 더 커야할 수도 있다.

종합하면 CLT는 단지 여러분의 샘플에서 대략 30개 이상의 관측(obervation - dataset에서 row로 생각해도 된다.)을 갖을 때 이들 수의 평균은 종모양 곡선의 일부인 것을 나타낸다. 따라서 30개 이상 크기인 샘플을 가지고 있고 이를 그린다면 위 그림인 정규분포처럼 보일 것이다. 평균의 대부분은 중앙에 떨어지지만 몇몇 관측치는 끝단에 있을 것이다.

CLT는 여러분의 데이터에 기반한 분포에 대한 추론을 하지 않는다. 사람들의 키에 대한 분포는 키의 샘플 평균이 정규분포를 따르는지 알기 위해 정규분포일 필요가 없다.



왜 중요한가?

여러분은 정리(theorem)가 무엇을 말하는지 알았다. 이제 왜 중요한지 다루어 보자. 가설검정(hypothesis testing)은 아이디어를 검증하기 위해 사용하는 방법론 과학이다. 가설검증의 틀은 항상 소유한 데이터가 아이디어를 지원하거나 데이터가 단지 우연(chance)때문일 수 있는가?이다.

과학자들이 우연 때문을 수량화하는 방법은 그들의 아이디어가 잘못되었다고 주어지면 데이터를 관찰하는 것에 대한 가능성(likelihood)을 측정하는 것에 의해서이다. 따라서 비록 여러분의 아이디어가 잘못되었더라도 수집된 데이터를 볼 가능성이 있다면 그 데이터는 아이디어를 뒷받침하지 않는다.

이제 까다로운 부분이다. 가설이 잘못되었을때 몇몇 데이터가 얼마나 존재할 가능성이 있는지를 어떻게 이해하였는가? 이를 수행하기 위해 가설이 잘못되었다고 주어지면 여러분이 볼 수 있는 값의 범위를 구성해야 한다. 그리고 그 맥락에서 여러분의 관측된 값의 가능성을 측정한다. 운좋게도 이것은 정확하게 CLT가 할 수 있는 것이다.



예제

여러분이 소프트웨어 회사의 데이터 과학자이고 여러분의 홈페이지가 얼마나 매력직인지 수량화하는 것을 요청받았다고 하자. 이 질문에 대답하기 위해 1주의 시간이 있다. 여러분은 이 아이디어를 포착하는 지표로써 홈페이지에 머무른 평균시간을 사용하기로 결정한다. 그리고 여러분의 홈페이지가 매력적이라면 실제 홈페이지에 머무르는 시간이 5분 이상이어야 한다고 생각한다.

항상 모든 사용자가 홈페이지에서 머무른 평균사간을 측정할 수 있어도 그것은 정확하게 일주일안에 질문에 대답하는 것에 효과적이거나 도움이 되지 않을 수 있다.

따라서 대신에 7일동안 사용자의 10%에 대한 샘플을 취하고 그들이 머무른 평균시간을 측정한다. 이 샘플사이에서 홈페이지에 머무른 평균시간은 6.2분이다. 그러나 위에서 언급했던 무작위 그룹에 대한 키를 갖는 것처럼 여러분의 추정에 변동이 있을 것이다. 이는 여러분이 관심있는 사용자의 하위셋만을 측정했기 때문이다.

전체 사용자에 비교해 여러분의 샘플이 홈페이지에 머문 평균시간에 약간 차이가 있을 수 있기때문에 결과가 우연때문인 가능성을 측정해야 한다. 즉 실제 홈페이지에 머문 시간이 5분이하지만 무작위 변형 때문에 여러분이 측정한 사용자의 하위셋은 6.2의 평균을 갖는다면?

운 좋게도 여러분의 샘플 크기가 30보다 더 큰만큼 여러분의 가설이 틀렸다면 여러분의 홈페이지에 머룬 시간의 분포가 어떻게 보이는지 구성하기 위해 중심극한정리를 사용할 수 있다. 즉, 실제 머문시간이 5분보다 더 크지않으면 귀무가설(null hypothesis)하의 분포 또는 귀무 분포(null distribution)이라고 한다.

CLT는 귀무분포가 정규분포(즉 종모양)일 것이고 또한 샘플로부터의 값으로 귀무분포를 구성해야하는 값을 근사(approximate)할 수 있다는 것을 나타낸다. 귀무분포의 중앙(middle)은 귀무가설의 평균(mean)이고 귀무분포의 표준편차(즉, 산포(spread))는 샘플크기의 제곱근으로 나눈 샘플의 표준편차로 표준 오류(standard error)이다. 이것이 귀무가설아래에서 샘플 평균의 분포를 구성하귀해 필요한 모든것이다.

여러분은 이 분포가 가설이 틀렸을때라도 값을 관측할 가능성을 측정하는 것에 대해 관측한 6.2값을 도표로 그릴 수 있다. 결과는 다음과 같다.


홈페이지에 머문 샘플 평균의 분포

따라서 실제 평균값이 5일때 6.2의 평균 머문 시간을 관측하는 것에 대한 확률은 파란색 선의 오른쪽에 녹색 분포의 영역으로 표현된다. 이는 귀무분포로부터 빼낸 10% 무작위 샘플이 얼마나 자주 6.2보다 크가나 같을지이다. 충분히 가능성이 낮으면(이런 경우 가능성은 1/100보다 작다.) 여러분은 홈페이지에 머문시간이 5분보다 더 크다는 증거가 있다고 말할 수 있다.



What About Bayes?

아마도 알아야하는 하나 이상의 정리가 있다. 베이즈 정리(Bayes’ Theorem)

베이즈 정리는 또한 증거로써 데이터를 사용할 수 있게 한다. 그러나 과학자가 그들의 데이터가 특정 가설을 지지하는지를 묻게하는 것 대신 베이즈 정리는 가벼운 일부 증거의 조각에서 가능성있는 값의 범위를 설명하는 것에 대한 것이다. 베이즈에 대해 굉장한 것은 계속 증거를 수집하고 무엇이 가능성있는지에 대한 아이지어를 계속 갱신할 수 있다는 것이다.

반응형