ML/Articles

Pearson and Spearman Rank Correlation Coefficient — Explained

a292run 2021. 4. 7. 08:48
반응형

원본 링크



Pearson and Spearman Rank Correlation Coefficient — Explained

확률변수(random variables)간 관계성
상관계수(Correlation Coefficient)는 두 확률변수간 관계를 찾기 위한 통계적 측정이다. 두 확률변수간 상관성(correlation)은 두 변수간 관계를 비교하기 위해 사용될 수 있다. 상관계수를 곽측하는 것으로 관계의 강도(strength)가 측정될 수 있다.

상관계수의 범위값은 -1에서 1까지이다.

  • +1에 근접하는 값은 높은 선형(linear) 관계를 나타내며 하나의 확률변수가 증가하면 두번째 확률변수 또한 증가한다.
  • -1에 근접하는 값은 높은 선형 관계를 나타내며 하나의 확률변수가 증가하면 두번째 확률변수는 감소한다.
  • 0과 같거나 0에 가까운 값은 두 확률변수간 관계가 없음을 나타낸다.



Some prerequisites — Covariance(공분산):

공분산(Covariance)은 각각의 평균(mean)으로 두 확률변수가 얼마나 차이가 있는지 측정하기 위해 사용된다. 이는 규모(scale)가 변하는 것에 영향을 받는다. 공분산계수의 값은 $-\infin$에서 $+\infin$사이에 있다.


  • X, Y : 확률변수
  • $\overline{X}$ : 확률변수 X의 평균
  • $\overline(Y)$ : 확률변수 Y의 평균
  • $n$ : 확률변수 X, Y의 길이(개수)

예를 들면, 키 vs. 몸무게의 공분산이 0보다 큰 114.24면 이는 키가, 증가하면 몸무게도 증가한다는 의미이다.

공분산은 평균값으로부터의 편차로 두 값을 비교한다.

공분산은 값의 범위가 $-\infin$에서 $+\infin$이라는 한가지 제약이 있다.



Pearson Correlation Coefficient (PCC, 피어슨 상관계수):

피어슨 상관성은 두 확률변수간 관계의 정도(degree)를 측정하는 계수이다. 계수값은 +1에서 -1사이이다. 피어슨 상관성은 각 확률변수의 표준편차에 의한 공분산의 정규화이다.


  • X , Y : 확률변수
  • COV() : 공분산 (Covariance)
  • SD : 표준편차(Standard Deviation)

PCC의 제약 사항은 다음과 같다.

  • 두 변수 모두 정규분포를 따라야한다.
  • 변수는 선형이면서 등분산성(homoscedasticity)이어야 한다.



Spearman Rank Correlation Coefficient (SRCC, 스피어만 상관계수):

SRCC는 PCC의 몇몇 제한사항을 보완한다. SRCC는 데이터 분포엗 해한 어떠한 추정도 하지 않는다. SRCC는 각 확률변수의 값에 순위를 매기고 여기에서 PCC를 계산하여 두 변수간 관계의 정도를 측정하기 위해 사용되는 테스트이다.


두 확률변수 X, Y가 주어지면 최소값이 순위1이 되도록 각 확률변수의 순위를 계산한다. 그리고 SRCC를 계산하기 위해 Rank(X), Rank(Y)에 피어슨 상관계수를 적용한다.


SRCC는 -1에서 +1사이이고 단조(monotonically) 증가 또는 감소함수와 잘 동작한다.



Conclusion

SRCC는 PCC의 몇몇 약점을 능가하기 때문에 두 확률변수간 관계성을 계산하기 위해 PCC를 통해 사용되어야만 한다. PCC와 SRCC 모두 확률변수가 연속적일때만 동작한다.

반응형