공부일기/통계

기술 통계 vs 추론 통계(Descriptive statistics vs Inferential statistics)

pipiiiiii 2024. 8. 11. 21:01

기술 통계

수집한 데이터를 요약 묘사 설명하는 통계 기법이다. 

대량의 데이터를 다루기 쉽도록 간결하고 정확하게 표현하는 데 중점을 두며, 이를 위해 다양한 통계적 방법과 기법들을 사용한다. 

 

기술 통계의 중요성은 아래와 같다. 

  • 데이터의 전반적인 특성을 이해하는 데 도움이 된다. 
    평균, 중앙값, 최댓값, 최솟값, 범위, 표준 편차 등 통계치를 통해 데이터의 중심 경향, 분산, 분포 형태 등을 파악할 수 있다. 
  • 대량의 데이터를 요약하고 정리하는 데 사용된다. 이를 통해 복잡한 데이터를 간략히 표현하고, 주요 특징을 쉽게 이해할 수 있다.
  • 서로 다른 데이터 그룹을 비교하는 데 사용할 수 있다 
  • 데이터 이상치를 탐지할 수 있다. 
  • 데이터 분석의 첫 단계로 이후의 분석 방법을 선택하고 결과를 해석하는 데 중요한 기초를 제공한다 

 

기술 통계량

데이터 집합의 주요 특성을 요약하여 나타내는 수치를 말한다. 

  • 중심 경향성
    데이터의 중심이 어디에 위치하는지를 나타내는 통계적 척도로 데이터의 대푯값이라고도 할 수 있다.
    어떤 척도를 사용할지는 데이터의 특성과 분석 목적에 따라 달라진다. 이상치가 많거나 데이터가 왜곡된 경우 중앙값을, 범주형 데이터를 다루는 경우는 최빈값을, 일반적인 경우에는 평균을 사용하는 편이다. 
    • 평균 
      데이터의 합을 데이터의 개수로 나눈 값이다. 모든 데이터를 균등하게 고려하기 때문에 가장 널리 사용되는 중심 경향의 척도이다. 하지만 이상치에 영향을 크게 받는다는 단점이 있다. 

    • 중앙값
      데이터를 크기 순으로 나열했을 때 가장 가운데 위치하는 값이다. 데이터의 개수가 홀수일 경우 중앙의 값이고, 짝수일 경우 중앙 두 값의 평균이 된다. 이상치에 대해 강건하기 때문에 평균보다 이상치의 영향을 덜 받는다. 

    • 최빈값
      데이터 집합에서 가장 자주 등장하는 값이다. 범주형 데이터나 이산형 데이터에서 중심 경향을 나타내는 데 주로 사용된다. 연속형 데이터에서는 특정 값이 정확히 동일하게 반복될 확률이 적기 때문에 최빈값을 구하는 것이 어려울 수 있다. 

  • 산포도
    산포도의 척도는 데이터가 얼마나 퍼져있는지를 나타내는 통계적 척도다. 
    기본적으로 데이터가 한곳에 집중되어 있으면 산포도가 작고, 넓게 퍼져있으면 산포도가 크다. 
    • 범위 
      데이터의 최댓값과 최솟값의 차이를 나타낸다. 계산이 간단하고 이해하기 쉽지만, 이상치에 매우 민감하다는 단점이 있다. 

    • 분산
      각 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도다. 각 데이터와 평균의 차이를 제곱하여 평균 낸 값이다. 제곱을 하기 때문에 데이터가 평균을 중심으로 얼마나 넓게 분포하는지를 나타낸다 하지만 단위가 원래의 데이터 단위의 제곱이므로 해석하기 어렵다는 단점이 있다. 

    • 표준편차 
      분산의 제곱근으로, 데이터가 평균 주변에 얼마나 퍼져 있는지를 나타낸다. 분산과 마찬가지로 데이터의 퍼짐 정도를 나타내지만, 분산과 달리 원래의 데이터 단위와 동일해 해석하기가 쉽다. 

  • 분포
    데이터의 분포 형태를 설명하는 척도다. 
    왜도와 척도는 데이터의 대칭성과 뾰족함에 대한 중요한 정보를 제공하며, 이를 통해 데이터의 분포 형태를 이해하는 데 도움을 준다. 이러한 정보는 데이터의 특성을 파악하거나, 데이터가 특정 분포에 근접하는지 확인하는 데 유용한다. 
    • 왜도 
      데이터의 분포가 어느 쪽으로 치우쳐져 있는지를 나타내는 척도다. 왜도가 0이면 분포가 완벽하게 대칭을 이룬다. 왜도가 0보다 크면 오른쪽으로 긴 꼬리를 가진 분포를 나타내고, 왜도가 0보다 작으면 왼쪽으로 긴 꼬리를 가진 분포를 나타낸다. 

    • 첨도
      데이터의 분포가 얼마나 뾰족한지, 꼬리 부분이 얼마나 두꺼운지를 나타내는 척도다. 첨도가 0이면 정규분포와 같은 첨도를 가진다는 것을 의미한다. 첨도가 0보다 크면 정규분포보다 뾰족하고 꼬리가 두꺼운 분포를 나타내고, 첨도가 0보다 작으면 정규분포보다 완만하고 꼬리가 얇은 분포를 나타낸다. 

 

 

추론 통계

수집한 데이터를 바탕으로 추론 예측하는 통계 기법이다. 

표본 데이터를 분석하여 모집단에 대한 결론을 도출하는 통계학의 한 분야로, 표본 데이터를 바탕으로 모집단의 특성이나 모수를 추정하거나 가설을 검정하는 등의 과정을 포함한다. 

 

추론 통계의 중요성은 아래와 같다. 

  • 불완전한 데이터로부터 신뢰성 있는 결론을 도출하는 데 필요한 도구를 제공한다. 
  • 불완전한 정보로부터 유의미한 통찰력을 얻을 수 있다.
  • 통찰력을 바탕으로 신뢰성 있는 결론을 도출할 수 있다. 

 

추론 통계 이론 

  • 확률 이론 
    개념들을 바탕으로 불확실성을 수치적으로 표현하고 분석한다. 이를 통해 불확실한 상황에서 의사결정을 내리거나, 미래의 불확실한 사건에 대해 추론을 할 수 있게 된다. 이런 이유로 확률 이론은 추론 통계의 핵심적인 부분이다.
  • 표본 추출 방법과 표본 분포
    통계학의 핵심적인 개념이다. 표본 추출 방법은 모집단을 대표하는 표본을 얻는 것을 목표로 하며, 표본 분포와 중심극한정리는 이 표본을 바탕으로 모집단의 특성을 추정하는 데 사용되는 기본 원리이다. 
    • 표본추출 방법 
      모집단의 특성을 잘 대표할 수 있는 표본을 선택하는 과정이다. 
      • 확률 표본추출법
        모든 개체가 표본으로 선택될 확률을 알 수 있다. 
        단순 무작위 표본추출, 계통 표본추출, 층화 표본추출, 군집 표본추출 등이 있다. 

      • 비확률 표본 추출법 
        표본이 무작위로 선택되지 않는 방법이다.
        편의 표본추출, 판단 표본추출, 할당 표본추출, 눈덩이 표본추출 등이 있다. 

    • 표본 분포
      표본 통계량의 확률 분포를 의미한다. 예를 들어, 표본 평균의 분포는 여러 번 표본을 추출하여 각 표본의 평균을 계산했을 때 그 평균들이 이루는 분포를 말한다. 

    • 중심극한정리
      표본 분포에 관한 중요한 이론으로 표본의 크기가 충분히 크다면(일반적으로 30 이상), 모집단의 분포 형태와 상관없이 표본 평균의 분포는 정규분포에 가까워진다는 내용이다. 

추정

추정은 모집단의 특성(예를 들어 평균, 분산 등)을 나타내는 모수를 표본 데이터를 통해 추측하는 과정이다. 

표본 데이터만을 가지고 모집단의 모수를 완벽하게 알아내는 것은 불가능하지만, 추정을 통해 그 모수가 어떤 구간 안에 있을 확률을 높일 수 있다. 이런 이유로 추정은 추론 통계의 핵심적인 부분이라고 할 수 있다. 

  • 점 추정
    모수의 값을 하나의 숫자로 추정하는 방법이다. 
    예를 들어, 학생들의 키의 평균을 추정하기 위해 학생들의 키 데이터를 수집하고, 그 키의 평균을 계산하는 것이 점 추정이다. 점추정은 추정치가 구체적이지만, 추정의 불확실성을 전달하지 않는다는 단점이 있다. 

  • 구간 추정
    모수가 존재할 것으로 예상되는 구간을 제공하는 추정 방법이다. 이 구간은 일반적으로 신뢰 수준을 가지며, 이는 동일한 모집단에서 동일한 방법으로 여러 번 표본을 추출하여 구간을 추정했을 때, 그 구간이 모수를 포함할 확률을 의미한다. 구간 추정은 추정의 불확실성을 표현할 수 있다는 장점이 있다.  

 

가설 검정

특정 가설이 사실일 확률을 평가하는 과정이다. 이는 모집단의 특성에 대한 주장이나 가설이 유의미한지 평가하는 데 사용된다. 즉, 가설 검정은 표본 데이터를 통해 귀무가설을 기각할 충분한 증거가 있는지 평가하는 과정이다. 

 

가설 검정은 귀무가설과 대립가설을 설정한다. 

귀무가설은 검증하고자 하는 가설이며, 대립가설은 귀무가설이 거짓일 경우 받아들여지는 가설이다. 

 

가설 검정의 과정은 아래와 같다. 

  1. 귀무가설과 대립가설 설정
    예를 들어 어떤 약의 효과를 검증하려고 할 때, 귀무가설은 '약이 효과가 없다', 대립가설은 '약이 효과가 있다'로 설정할 수 있다. 

  2. 검정 통계량 결정
    가설 검정에 사용될 통계량을 결정한다. 이 통계량은 귀무가설이 참일 때의 확률 분포를 가지며, 표본 데이터를 통해 계산된다. 

  3. 검정 통계량 계산 및 p-값 결정
    표본 데이터를 통해 검정 통계량을 계산하고, 이를 바탕으로 p-값을 결정한다. p-값은 귀무가설이 참일 경우, 관찰된 검정 통계량 이상의 극단적인 결과를 얻을 확률을 의미한다. 

  4. 결론 도출 
    p-값이 특정 임계값보다 작으면 귀무가설을 기각하고 대립가설을 받아들인다. 그렇지 않으면 귀무가설을 기각하지 않는다. 

 

 

기술 통계와 추론 통계 차이점

적용 범위

  • 기술 통계 : 주어진 데이터의 특성을 계산하고 설명하는 간단한 통계적 계산을 수행한다. 
  • 추론 통계 : 표본의 통계량을 사용하여 모집단의 특성에 대한 추론을 수행하는 확률적인 방법을 사용한다. 

 

목적

  • 기술 통계 : 데이터를 정리하고 요약하여 이해하기 쉽게 만들기 위해 사용된다. 
  • 추론 통계 : 표본을 사용하여 모집단에 대한 일반적인 특성을 추론하고 예측하기 위해 사용된다. 

 

데이터 처리 방법

  • 기술 통계 : 데이터의 특성을 계산하고 설명하는 데 중점을 둔다. 
  • 추론 통계 : 표본의 통계량을 사용하여 모집단의 특성에 대한 추론을 수행하는 확률적인 방법을 사용한다. 

 

기술 통계는 데이터를 요약하고 설명하는 방법을 제공하며, 추론 통계는 이러한 데이터를 바탕으로 일반화하고 예측하는 방법을 제공한다. 이 두 분야는 서로 보완적인 관계에 있으며, 데이터 분석에서 모두 중요한 역할을 한다. 

 

 

 

 

기술 통계 vs 추론 통계 코드 공부

< 추후 추가 예정 >

 

 

 

 

 

 

참고 자료