Pearson and Spearman Rank Correlation Coefficient — Explained
Pearson and Spearman Rank Correlation Coefficient — Explained
확률변수(random variables)간 관계성
상관계수(Correlation Coefficient)는 두 확률변수간 관계를 찾기 위한 통계적 측정이다. 두 확률변수간 상관성(correlation)은 두 변수간 관계를 비교하기 위해 사용될 수 있다. 상관계수를 곽측하는 것으로 관계의 강도(strength)가 측정될 수 있다.
상관계수의 범위값은 -1에서 1까지이다.
- +1에 근접하는 값은 높은 선형(linear) 관계를 나타내며 하나의 확률변수가 증가하면 두번째 확률변수 또한 증가한다.
- -1에 근접하는 값은 높은 선형 관계를 나타내며 하나의 확률변수가 증가하면 두번째 확률변수는 감소한다.
- 0과 같거나 0에 가까운 값은 두 확률변수간 관계가 없음을 나타낸다.
Some prerequisites — Covariance(공분산):
공분산(Covariance)은 각각의 평균(mean)으로 두 확률변수가 얼마나 차이가 있는지 측정하기 위해 사용된다. 이는 규모(scale)가 변하는 것에 영향을 받는다. 공분산계수의 값은 $-\infin$에서 $+\infin$사이에 있다.
- X, Y : 확률변수
- $\overline{X}$ : 확률변수 X의 평균
- $\overline(Y)$ : 확률변수 Y의 평균
- $n$ : 확률변수 X, Y의 길이(개수)
예를 들면, 키 vs. 몸무게의 공분산이 0보다 큰 114.24면 이는 키가, 증가하면 몸무게도 증가한다는 의미이다.
공분산은 평균값으로부터의 편차로 두 값을 비교한다.
공분산은 값의 범위가 $-\infin$에서 $+\infin$이라는 한가지 제약이 있다.
Pearson Correlation Coefficient (PCC, 피어슨 상관계수):
피어슨 상관성은 두 확률변수간 관계의 정도(degree)를 측정하는 계수이다. 계수값은 +1에서 -1사이이다. 피어슨 상관성은 각 확률변수의 표준편차에 의한 공분산의 정규화이다.
- X , Y : 확률변수
- COV() : 공분산 (Covariance)
- SD : 표준편차(Standard Deviation)
PCC의 제약 사항은 다음과 같다.
- 두 변수 모두 정규분포를 따라야한다.
- 변수는 선형이면서 등분산성(homoscedasticity)이어야 한다.
Spearman Rank Correlation Coefficient (SRCC, 스피어만 상관계수):
SRCC는 PCC의 몇몇 제한사항을 보완한다. SRCC는 데이터 분포엗 해한 어떠한 추정도 하지 않는다. SRCC는 각 확률변수의 값에 순위를 매기고 여기에서 PCC를 계산하여 두 변수간 관계의 정도를 측정하기 위해 사용되는 테스트이다.
두 확률변수 X, Y가 주어지면 최소값이 순위1이 되도록 각 확률변수의 순위를 계산한다. 그리고 SRCC를 계산하기 위해 Rank(X), Rank(Y)에 피어슨 상관계수를 적용한다.
SRCC는 -1에서 +1사이이고 단조(monotonically) 증가 또는 감소함수와 잘 동작한다.
Conclusion
SRCC는 PCC의 몇몇 약점을 능가하기 때문에 두 확률변수간 관계성을 계산하기 위해 PCC를 통해 사용되어야만 한다. PCC와 SRCC 모두 확률변수가 연속적일때만 동작한다.