공부일기/통계

분산 분석(ANOVA)

pipiiiiii 2024. 8. 21. 11:10

분산 분석

세 집단 이상의 비교에는 ANOVA를 사용한다. 

ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다. 

 

두 집단이든 세 집단이든 각 집단의 평균을 비교해, 어디가 제일 높고 낮은지 확인하면 충분하다. 그런데 표본 데이터에서의 차이가 통계적으로 유의한 지 검증해야 표본의 결과를 일반화할 수 있는데 이때 분산을 이용해 통계적 유의성을 검증하기 때문에 분산분석이라고 부른다. 

 

두 집단 비교에서는 평균 차이를 이용했지만 세 집단 이상에서는 분산으로 통계정 유의성을 확인한다는 것에 유의해야 한다. 

 

총분산의 분해

분산 분석을 이해하는 첫 번째 단계는 총분산의 분해다. 

총분산이란 집단을 구분하지 않고 모든 표본 데이터에서 구한 분산을 말한다. 

총분산은 '총 분산 = 집단내 분산 + 집단 간 분산'으로 분해된다. 

 

표본 데이터를 집단별로 나누었을 때, 총분산은 집단내에서의 분산과 집단끼리의 분산으로 분리될 수 있다. 결론적으로 방정식에서 집단 간 분산 값이 크면 집단 간 평균에 차이가 있을 가능성이 커지게 된다. 

 

집단내 분산과 집단 간 분산

집단내 분산은 각 집단을 구성하는 개별 데이터 간에 변동성이 있는데, 이 변동성의 평균을 구하는 것이다. 

집단 간 집단 간 분산은 각 집단끼리 평균의 차이 즉, 변동성이 있는데 이 집단 간 변동성의 평균을 알아보는 것이다. 

실험 데이터에서는 집단을 처치로 바꿔 처치 간 분산, 처치 내 분산이라고 표현한다. 

 

위 그림은 집단내 분산과 집단 간 분산을 그림으로 표현한 것이다. 

빨간색 집단과 파란색 집단은 표본 분포로 두 집단의 평균은 확연히 다르다는 것을 알 수 있다. 만약 집단을 구분하지 않는다면 전체 데이터의 평균은 검은색 세로선쯤 될 것이다. 

전체 평균과 집단을 구분했을 때 각 집단의 평균 차이로 집단 간 분선을 계산한다. 

 

검은색 화살표는 집단 간 분산의 크기를 만드는 값이고, 아래 녹색 화살표는 집단내 분산의 크기를 만드는 값이다. 

검은색 화살표를 더한 값이 녹색 화살표를 더한 값보다 더 크다. 즉, 집단 간 분산이 더 크다. 

 

세 집단에서의 분산 분석

위 그림은 세 집단에서 보라색 집단의 평균이 나머지와 다른 경우다. 

분산 분석의 원리가 집단 간 분산과 집단내 분산의 크기를 비교하는 것이므로 집단 간 분산이 많이 크기 때문에 하나 이상의 집단이 다른 집단과 많이 떨어져 있다는 것은 알 수 있어도 구체적으로 어떤 집단이 어떻게 다른지는 분산 분석 값 자체로는 모른다. 

 

 

분산 분석에 사용되는 변수 종류

독립 변수

논리적 인과관계에서 원인이 되는 변수로 예측 변수 또는 설명 변수라고 불리기도 한다. 

 

종속 변수

연구자 혹은 조사자가 독립 변수의 변화에 따라 어떻게 변하는지 알고 싶은 변수로 반응 변수 또는 결과 변수라고 불리기도 한다. 

 

통제 변수

연구 혹은 조사의 주된 관심사가 되는 변수가 아닌 경우다.

주된 관심사에서 벗어난 독립 변수로 독립 변수 이외에 종속 변수에 영향을 미치는 독립 변수다. 

 

 

분산 분석 종류

일원 분산 분석

가장 기본적인 형식이다. 

독립 변수 1개, 종속 변수 1개일 때 집단 간 유의미한 차이를 검정한다. 

여기서 독립 변수는 3개 이상의 카테고리 또는 범주를 가진다. 예를 들어 도시별 노동자의 평균 임금을 분석할 때 독립 변수 도시를 대도시, 중도시, 소도시로 나눈다. 또는 가구 소득에 따른 식표품비 차이를 분석할 때 독립 변수 가구소득은 저소득, 중소득, 고소득층으로 나눈다. 

 

이원 분산 분석

독립 변수 2개, 종속 변수 1개일 때 집단 간 유의미한 차이를 검정한다.

예를 들어 학력 및  성별에 따른 휴대폰 요금의 차이를 분석한다면 독립 변수는 학력, 성별로 학력은 중졸, 고졸, 대졸로 범주를 나눌 수 있고 성별은 남성과 여성으로 나눌 수 있다. 

 

다원변량분산분석

독립 변수 1개, 종속 변수 2개 일 때 또는 독립 변수 2개, 종속 변수 2개일 때 집단 간 유의미한 차이를 검정한다. 

단순 분산분석을 확장하여 두 개 이상의 종속 변수에 대한 차이를 검정하는 것이다. 

 

공분산분석

특정한 독립 변수를 중점에 두고 나머지 독립 변수는 공변량으로 분석하는 방법이다. 

다원변량 분석에서 특정 독립 변수에 초점을 맞추고 다른 독립 변수를 통제 변수로 하여 분석하는 것이다. 

 

반복측정분산분석

동일한 실험 단위에서 반복 측정된 연속형 종속 변수의 차이를 검정하는 방법이다. 

예를 들어, 동일한 사람들이 여러 번 다른 시점에 성적 테스트를 수행했을 때 그 성적 차이를 검정하기 위해 사용할 수 있다. 

 

 

분산 분석의 가정

분산 분석을 수행하기 전에 아래와 같은 가정들이 충족되어야 한다. 

  • 정규성
    각 집단은 종속 변수가 정규 분포를 따른다는 가정이다. 
    이를 검증하기 위해 샤피로-월크 검정 등의 정규성 검정을 수행할 수 있다. 

  • 등분산성
    모든 집단의 종속 변수에 대한 분산이 동일하다는 가정이다. 
    이를 검증하기 위해 레빈 검정이나 바틀렛 검정 등의 등분산성 검정을 수행할 수 있다. 

  • 독립성
    각 실험 개체는 독립적이어야 한다는 가정이다.
    이 가정은 실험 설계나 데이터 수집 과정에서 충족되어야 한다. 

 

 

분산 분석 검정

분산 분석을 통한 결과가 대립 가설을 채택해 유의하다는 결과가 나오면 분산 분석의 결과만으로는 어떤 그룹이 다른지 알 수 없기 때문에 사후 검정을 진행한다. 

 

사후 검정은 일종의 여러 다발로 된 T-TEST라고 볼 수 있다. 

각 그룹의 평균이 다른 그룹의 평균과 같은지, 다른지 개별 비교가 가능하다. 

 

 

분산 분석 코드 공부

< 추후 추가 예정 >

 

 

 

 

 

 

 

참고 자료