공부일기/통계

상관 분석(Correlation Analysis)

pipiiiiii 2024. 8. 19. 13:15

상관 분석

확률론과 통계학에서 두 변수 간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법으로 상관계수를 이용해 측정한다. 

 

좀 더 쉽게 이야기하면, 서로 관련된다고 예측되는 두 변수(구간, 비율척도)들 간에 얼마나 연관성이 있는지 알아보는 것이다. 두 변수 간의 관련성은 산점도 그래프를 통해 한눈에 확인할 수 있고, pearson의 상관계수를 통해 두 변수간 연관성이 어느 정도인지, 유의미한 상관관계가 있는지 검정할 수 있다. 

 

 

 

 

상관 계수

상관관계를 분석하는 데 있어서 가장 직관적인 방법은 산점도를 그려 직선의 형태와 가까운지 확인하는 것이다. 

상관계수는 비교하고자 하는 두 확률 변수 X와 Y가 함께 변하는 정도를 의미하며 r이라고 표현한다. 

 

X가 증가할 때 Y도 같은 방향으로 증가하면 상관계수(r)는 1, 반대 방향으로 증가하면 r = -1이다. 

 

위의 그래프를 통해 세 가지의 경우를 알 수 있다. 

  • r이 양의 값을 가지는 경우
    • 두 변수가 동시에 증가하는 경우다(비례)
    • r이 1에 가까울수록 두 변수간 상관관계가 강하다. 
  • r이 음의 값을 가지는 경우
    • 한 변수가 감소할 때 다른 변수가 증가하는 경우다(반비례)
    • r이 -1에 가까울수록 두 변수간 상관관계가 강하다. 
  • 둘 다 아닌 경우
    • r이 0에 가까워지는 경우를 말한다.
    • r이 0에 가까워진다고 해서 상관관계가 없다는 것은 아니므로 선형적인 상관관계가 아니라고 말하는 것이 적절하다. 

 

공분산

두 확률 변수 X, Y들이 어떻게 퍼져있는지 나타내는 선형 관계에 대한 정보를 알려주는 값이다. 

공분산이 양수이면 두 확률 변수는 서로 양의 선형 관계가 있고, 음수라면 서로 음의 선형 관계가 있음을 의미한다. 여기까지 보면 상관계수와 같은 의미지만 차이점이 있다. 

 

공분산은 두 변수의 크기에 따라 값이 달라지기 때문에 공분산이 더 크다고 해서 선형관계가 강하다고 할 수 없다. 예를 들어 X, Y의 공분산이 10이고 W, V의 공분산이 100이라고 할 때 W, V가 더 강한 선형적 관계라고 표현할 수 없다는 것이다. 이런 단점을 보완하기 위해 상관계수를 사용한다. 

 

 

상관관계

두 변수 간의 연관성을 나타내는 통계적 개념이다. 

두 변수 사이의 관계를 측정하는 방법으로, 한 변수가 변할 때 다른 변수가 어떻게 변하는지를 나타낸다. 

 

상관관계에 영향을 주는 요인

  • 선형 관계
    상관계수는 선형적인 관계를 나타내는 값이기 때문에 직선이 아닌 다른 형태의 데이터들은 0이 되어 관계가 없다고 생각할 수 있다. 하지만 비선형의 관계가 있을 수 있기 때문에 반드시 산점도를 같이 확인해서 데이터의 패턴을 확인해야 한다.

  • 관측치들의 충분한 변량
    두 변수의 상관관계를 충분히 나타내기 위해서는 한 변수가 다른 변수에 대해 충분한 변량(데이터)을 가지고 있어야 한다.  

 

 

상관 계수의 종류

  • pearson(피어슨 상관계수)
    두 변수 사이의 선형 관계의 강도와 방향을 측정하는 통계적인 척도다. 
    피어슨 상관계수를 진행할 때 두 변수 모두 정규성을 따른다는 가정이 꼭 필요하다. 따라서 피어슨 상관계수는 모수적 방법이라고 지칭할 수 있다. 
    두 변수가 선형적인 관계를 가정하고 있으며, 비선형적인 관계를 갖는 경우에는 상관계수의 해석이 제한될 수 있다.
    상관계수를 해석할 때 주의해야 할 점은 상관계수는 두 변수 사이의 인과 관계를 나타내지 않으며, 단지 관련성을 측정하는 방법이라고 봐야 한다. 

  • spearman(스피어만 순위 상관계수)
    두 변수가 정규성을 따르지 않을 때 피어슨 상관계수를 사용할 수 없기 때문에 스피어만 순위 상관계수 방법을 사용한다. 
    스피어만 상관계수는 두 변수 사이의 순위 관계의 강도와 방향을 측정하는 비모수적인 통계적 방법이다. 
    연속형 변수뿐만 아니라 순위형 변수에도 적용 가능하다는 장점이 있다. 
    피어슨 상관계수와 달리, 변수 간 선형관계를 가정하지도 않는다는 장점을 가지고 있다. 

  • kendall tau(켄달 tau)
    스피어만 순위 상관계수와 거의 비슷한 개념으로 단조성을 판단하기 위해 사용된다. 
    두 연속형 변수 간의 순위 관계의 강도와 방향을 측정하는 비모수적인 통계 방법이다. 
    켄달과 스피어만 모두 피어슨 상관계수와 달리 상관관계에 대한 값을 추출한다. 
    샘플 사이즈가 작거나 데이터의 동률이 높을 때 유용하며, 순서형 데이터 또는 순위 척도로 측정된 데이터의 관계를 분석하는 데 사용된다. 

  • point-biserial(점 양분 상관계수)
    하나의 변수가 이분형 변수이고 다른 변수가 연속형이면 사용하는 상관계수 측정 방법이다. 

  • phi(파이 계수)
    독립변수와 종속변수가 모두 이분형 변수일 때 두 변수의 상관관계 정도를 파악하기 위하여 쓰이는 계수다.
    변수들의 비교 대상 개수 또한 명목형일 때 중요하다. 
    비교 대상 범주 대상이 2개인 경우 사용되며, 비교 대상 범주 대상이 3개 이상이면 cramer's v를 권장한다. 
    빠르고 간단하게 계산된다는 장점이 있으며, 이진 변수의 상관성을 파악하는데 유용한 지표이다. 

 

 

상관 분석 방법

1. 연속형 vs 연속형

  • 피어슨(pearson correlation)
    • 연속형 자료인 두 변수 간의 선형 상관관계를 계량화한 수치로 -1에서 1 사이의 범위를 가진다. 
    • 일반적으로 상관관계는 피어슨 상관관계를 의미한다.
    • 두 변수가 정규분포를 가정하는 경우 사용하는 방법으로 모수적 방법이라고 하며, 연속형인 경우 외에도 등간척도(간격척도)나 비례척도인 변수들 간의 분석에서도 피어슨 상관 계수가 사용된다. 
  • 스피어만(spearman correlation)
    • 두 변수가 연속형 자료이나 정규성을 만족하지 않는 경우, 순서 척도인 경우 사용한다. 
    • 값에 순위를 매겨 순위에 대한 상관계수 값을 구하기 때문에 비모수적 방법이라고 한다.
    • 순위를 이용하기 때문에 연속형 변수가 아닌 순서형 변수인 경우에도 사용할 수 있다. 
    • 상관계수 값은 -1에서 1 사이의 범위를 가진다. 
  • 켄달(kendall's Tau)
    • 켄달의 타우는 두 변수들 간의 순위를 비교해서 연관성을 계산하는 방법이다. 
    • 스피어만과 유사하며 계수 값은 조금 다르지만 p값과는 거의 비슷한 값을 가진다. 
    • 처리 방법에 따라 kendall' tau-b, tau-c가 있다. 
    • 켄달의 타우는 상관계수(상관의 정도)를 보기보다는 X변수가 증가할 때 Y변수가 증가하는지 또는 감소하는지 여부 정도로만 확인한다. 
    • 데이터 샘플 수가 적거나 순위에서 동률이 많은 경우 유용하게 사용할 수 있다.
    • 상관계수 값은 -1에서 1 사이의 범위를 가진다. 

 

2. 연속형 vs 범주형

  • point biserial correlation
    • 점이연 상관계수라고 부르며 X변수가 연속형이고, Y변수는 이분변수일 때 사용하는 상관계수다. 
    • 이분변수는 네/아니요, 있음/없음 등의 형태를 말하며 이를 0과 1로 코딩한 다음 pearson 상관계수를 계산한 것을 말한다. 

  • biserial correlation
    • point biserial correlation처럼  X변수가 연속형이고, Y변수는 이분변수일 때 사용한다.
    • 차이점은 연속형 변수를 이분화해 이분변수가 된 경우 사용한다는 점이다. 

  • polyserial correlation
    • X변수가 연속형이고 Y변수의 범주화가 3개 이상인 경우 사용된다.

 

3. 범주형 vs 범주형

  • 파이 계수(phi coefficient)
    • X, Y 변수 모두 이분변수일 때 두 변수 간의 상관분석을 하는 방법이다. 
    • 파이 계수 대신 L, C, Lambda 등을 이용하기도 한다. 
    • 파이 계수의 상관 계수 값은 0에서 1 사이의 범위를 가지고, 0에 가까울수록 상관관계가 낮으며 1에 가까울수록 높다고 해석된다. 

  • 크래머 V계수(cramer's V)
    • X, Y 변수의 범주가 3개 이상인 경우 상관분석을 하는 방법으로 사용한다. 
    • 상관계수 값은 0에서 1 사이의 범위를 가진다. 

 

 

상관 분석 코드 공부

< 추후 추가 예정 >

 

 

 

 

 

 

 

참고 자료