이글은 www.analyticsvidhya.com의 내용임. (링크)
Statistics for Data Science: What is Skewness and Why is it Important?
Skewness : 왜도, 뒤틀림, 비대칭도
Overview
- 왜도(skewness)는 데이터 과학과 분석 분야에서 이해해야만하는 중요 통계 개념이다.
- 왜도가 무엇인지 그리고 데이터 과학에서 왜 중요한지 배운다.
Introduction
왜도의 개념은 우리의 사고방식대로 다루어진다. 우리가 시각화를 볼 때, 우리는 직관적으로 차트내 패턴을 알아차린다.
알려진바와 같이, 인도는 인구의 50%이상이 25세 이하이고 65%이상이 35세 이하이다. 만약 인도 인구에 대한 연령의 분포를 그린다면, 분포의 좌측이 솟아아로고 오른쪽은 비교적 평면인 것을 알 수 있다. 다른말로, 끝쪽으로 기울었다(a skew forward the end)고 할 수 있다.
따라서 비록 데이터 사이언스 또는 분석 전문가로써 왜도를 읽지 않더라도 일상적인 메로로 개념과 상호작용한다. 그리고 이는 실제로 통계에서 꽤 쉬운 주제이다. - 그리고 아직 많은 사람들이 다른 복잡해보이는 데이터 과학 개념을 혐오하면서 이를 훑어본다.
왜도는 데이터 과학과 분석에서 모두가 알아야 하는 기본적인 통계 개념이다. 이는 우리가 여기서 간단히 도망칠 수 있는 것이 아니다.
여기서는 가능한 가장 쉬운 방법으로 왜도의 개념을 이야기 한다. 왜도, 타입 그리고 데이터 과학 분야에서의 중요도를 배운다.
Table of Contents
- 왜도(Skewness)란?
- 왜도(Skewness)가 왜 중요한가?
- 대칭/정규분포(Symmtric/Normal Distribution)란?
- 양으로 치우친 분포(Positively Skewed Distribution) 이해
- 음으루 치우친 분포(Negatively Skewed Distribution) 이해
왜도(Skewness)란?
왜도는 이상적으로 대칭인 확률 분포(Probability distribution)의 비댕칭 척도이고 세번째 표준화되는 순간(third standardized moment [참고-wiki])에 주어진다. 너무 복잡하게 들려도 걱정하지 말자.
간단하게, 왜도는 임의의 변수에 대한 확률 분포가 정규분포로부터 얼마나 벗어났는냐의 척도이다. 여거서 왜 여기서 정규분포에 대해 이야기하고 있을까?
정규분포는 왜도가 없는 확률분포이다. 아래 그림에서 기본적으로 좌우대잋을 보이는 것을 볼 수 있고 점선을 기준으로 양쪽으로 대칭인 것을 볼 수 있다. 이것으로 부터 두가지 형태(type)의 왜도가 존재한다.
- 양성인 왜도(Positive Skewness)
- 음성인 왜도(Negative Skewness)
Mean : 평균, Median : 중앙값, Mode : 최빈값
오른쪽에 꼬리를 갖는 확률분포는 양성으로 치우쳐진 분포이고 왼쪽에 꼬리가 있는 것은 음성으로 치우친 분포이다.
왜도(Skewness)가 왜 중요한가?
이제 왜도가 비대칭의 척도이고 이것의 형태는 확률 분포 란인의 꼬리의 위치로 구분된다는 것을 알았다. 하지만 데이터의 왜도를 아는 것이 왜 중요할까?
우선 선형모델은 독립 변수(Independent variable)의 분포와 목표 변수(target variable)이 유사한가를 추정하는 것으로 동작한다. 그러므로 데이터의 왜도에 대해 아는 것은 더 나은 선형 모델을 만드는데 도움이 된다.
두번째로 아래 분포를 보자. 이것은 차량의 마력의 분포이다.
위 분포가 양성으로 치우친것을 볼 수 있다. 이제 차량의 연비(mpg - miles per gallon)을 예측하는 모델을 위한 특성으로 사용한다고 가정하자.
여기서는 데이터가 양성으로 치우쳐져있기 때문에 낮은 값을 갖는 데이터 포인트 즉 낮은 마력의 차량의 수가 더 높다는 것을 나타낸다. 따라서 이 데이터로 모델을 훈련할 때, 더 높은 마력의 차량에 비해 더 낮은 마력의 차량의 연비를 더 잘 예측할 것이다.
왜도는 특이치(outlier)의 방향 또한 나타낸다. 데이터의 분포가 양성으로 치우쳐있어 대부분의 이상치가 분포의 오른쪽에 존재함을 볼 수 있다.
Note : 왜도는 이상치의 수는 나타내지 않고 오로지 방향만을 나타낸다.
이제 앞서 보았던 분포에 대해 이해해 보자.
대칭/정규분포(Symmtric/Normal Distribution)란?
다시 정규분포이다. 정규분포는 분포의 왜도를 측정하기 위한 참조(reference)로써 사용된다. 이전에 언급되었듯, 이상적인 정규분포는 거의 왜도가 없는 확률분포이다. 이는 거의 완벽한 대칭이다. 이 때문에 정규분포의 왜도값은 0(zero)이다.
하지만, 왜 거의 완벽하게 대칭이고 절대적으로 대칭이 아닐까?
그건 실제로 실제 데이터가 완벽하게 정규분포를 갖지 않기 때문이다. 따라서 왜도값이 정확하게 0이 아니고 거의 0이다 비록 0의 값이 분포의 왜도를 측정하기 위함 참조로 사용되더라도 말이다.
위 이미지에서 동일한 선이 평균, 중간값, 최빈값을 나타내는 것을 볼 수 있다. 이는 완벽하게 정규분포의 평균, 중간값, 최빈값이 동일하기 때문이다.
지금까지 확률(Probability)또는 빈도(Frequency) 분포를 사용한 정규분포의 왜도를 이해했다. 이제 박스그림(boxplot)으로 이해해 보자. 이는 데이터 과학 분야에서 분포를 보는 가장 일반적인 방법이기 때문이다.
위 이미지는 대칭 분포의 박스그림이다. 여기서 Q1, Q2, Q3, Q4사이의 거리가 동일하다는 것을 알 수 있다. 즉, 아래와 같다.
하지만, 이것은 분포가 치우쳐있는지 아닌지 결론내리기 위해 충분하지 않다. 여기서 꼬리(원문에서는 수염-whisker-로 표기)의 길이 또한 본다. 양쪽 꼬리가 같으면 분포가 대칭 즉 치우치지 않았다고 할 수 있다.
양으로 치우친 분포(Positively Skewed Distribution) 이해
양으로 치우친 분포는 오픈쪽에 꼬리를 가진 분포이다. 양으로 치우친 분포에 대한 왜도 값은 0보다 크다. 그림으로 이해한 것처럼 평균값이 가장 크고 다음으로 중간값 그리고 최친값이 온다.
왜 이런 현상이 발생할까?
그 대답은 분포의 왜도가 오른쪽에 있는 것에 있다. 이는 평균이 중간값보다 더 커지고 결국 오른쪽으로 움직이게 된다. 또한 최빈값은 중간값의 왼쪽인 분초의 가장 높은 빈도에서 나타난다. 그러므로 최빈값 < 중간값 < 평균이다.
위 박스그림에서 Q2가 Q1에 더 가까이 있는 것을 볼 수 있다. 이는 양성으로 치우친 분포를 나타낸다. 사분위수면세서는 아래와 같이 볼 수 있다.
이 경우, 데이터가 치우쳐있는지에 대해 말하기 쉽지만, 아래와 같은 경우라면 어떨까?
여기서 $Q1 - Q1$와 $Q3 - Q2$는 같고 분포는 양성으로 치우쳐져 있다. 예리한 사람은 오른쪽 꼬리가 왼쪽 꼬리보다 더 크다는 것을 알아차릴 것이다. 이것으로부터 데이터가 양성으로 치우쳤다고 결론지을 수 있다.
따라서 첫번째 단계는 항상 $Q2 - Q1$과 $Q3 - Q2$가 같은지를 보는 것이다. 만약 같으면 꼬리의 길이를 본다.
음으루 치우친 분포(Negatively Skewed Distribution) 이해
음으로 치우친 분포는 왼쪽에 꼬리가 있는 분포이다. 음으로 치우친 분포에 대한 왜도값은 0보다 작다. 위 그림에서 평균 < 중간값 < 최빈값인 특징을 볼 수 있다.
박스그림에서 음의 왜도에 대한 사분위수간의 관계는 아래와 같다.
이전과 비슷하게 만약 $Q3 - Q2$와 $Q2 - Q1$이 같으면, 꼬리의 길이를 본다. 그리고 왼쪽 꼬리의 길이가 오른쪽보다 크면 데이터가 음으로 치우쳤다고 할 수 있다.
어떻게 치우쳐진 데이터를 변환할 수 있을까?
치우쳐진 데이터가 얼마나 많이 ML 모델의 예측 능력에 영향을 미칠 수 있는지 알기 때문에 치우쳐진 데이터를 정규 분포 데이터로 변환하는 것이 좋다. 아래는 치우친 데이터를 변환할 수 있는 몇가지 방법이다.
- Power Transformation
- Log Transformation
- Exponential Transformation
변환 방법의 선택은 데이터의 통계적 특성에 따라 달라진다.