공부일기/통계

신뢰 구간(Confidence Interval)

pipiiiiii 2024. 8. 16. 17:41

신뢰 구간

모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법이다. 

집단 전체를 연구하는 것은 불가능하므로, 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용된다. 따라서, 신뢰 구간은 샘플링된 표본이 연구 중인 모집단을 얼마나 잘 대표하는지 측정하는 방법이다. 

 

신뢰 구간에 모집단 실제 평균값이 포함될 확률을 'CI의 신뢰 수준(Confidence Level)'이라고 한다. 

 

신뢰구간은 좁을수록 모집단 평균 추정치가 정확해진다. 

일반적으로 관측 개수가 클수록 신뢰 구간이 좁아지므로 표본이 클수록 더 정확하게 모집단 평균을 추정할 수 있게 된다. 

 

신뢰 구간의 '신뢰'는

'평균값'이 등장했다고 믿을 수 있다는 뜻이다. 

 

평균값은 t분포나 정규 분포를 따르는데, 평균값이 신뢰 구간 안에 들어온다면 현재의 t분포 혹은 정규 분포에 비추어볼 때 충분히 신뢰할 수 있는 또는 측정될 수 있는 값이라는 의미이고 평균값이 신뢰 구간 밖에 있다면 현재의 t분포 또는 정규 분포에 비추어볼 때 거의 기적에 가까운 측정값 즉, 일어날법하지 않다는 의미이다. 

 

쉽게 말하자면 평균값이 신뢰 구간에 들어오면 신뢰할 수 있는 납득할 상황이라는 것이고 신뢰 구간 밖에 있다면 일어나지 않을 법한 일인 기적이 일어났다고 볼 수 있다. 

 

신뢰 구간의 '구간'은

모수의 범위를 한정하는 구간을 의미한다. 

모수는 확률 분포를 결정하는 독립변수를 의미하는데, 정규 분포에서는 평균과 표준 편차가 여기에 해당된다. 

 

확률에서는 확률 분포와 모수를 모두 안다고 생각하고 시작하지만, 통계는 확률 분포와 모수를 모르는 상태에서 표본만 보고 추측하는 상황과 마주하게 된다. 이때 모수가 어디에서 어디까지인지 아는 것만으로도 많은 정보를 얻을 수 있게 되어 중요하다. 

 

 

신뢰 수준(Confidence Level)

신뢰 구간을 구하기 위해서는 한 가지 변수가 주어져야 한다. 

이 변수는 어디까지가 있을 법한 구간이고, 어디까지가 기적인지 나타내 줄 잣대인데 이를 신뢰 수준이라고 부른다. 

 

신뢰 수준은 1 -α라는 식으로 표현이 가능하며, 90%, 95%, 99%로 선택하는 편이다.

신뢰 수준은 높아지면 높아질수록 더 많은 측정값들을 관대하게 바라보게 된다. 

 

 

신뢰 구간 코드 공부

< 추후 추가 예정 >

 

 

 

 

 

 

 

참고 자료