공부일기/통계

확률 분포(Probability Distribution)

pipiiiiii 2024. 8. 11. 19:27

확률 분포

확률 변수가 특정 값을 가질 확률을 나타낸 것이다. 

함수로 표현하기도 하며 도수분포표나 그래프로 나타내는 경우가 많아 직관적으로 이해하기가 좋다. 

통계 모델을 통해 데이터의 유의성을 판단할 때, 데이터의 특정 확률 분포를 가정하기 진행하기 대문에 통계적 모형의 기본 토대라고 할 수 있다. 

 

확률 분포는 확률 변수가 어떤 종류의 값을 가지는가에 따라서 크게 이산 확률 분포와 연속 확률 분포 중 하나에 속하며 둘 중 어디에도 속하지 않는 경우도 존재한다. 

 

 

이산 확률 분포

이산 확률 변수가 가지는 확률 분포를 의미한다. 

여기에서 확률 변수가 이산 확률 변수라는 말은 확률 변수가 가질 수 있는 값의 개수가 가산 개 있다는 의미이다. 

 

이산 확률 분포는 확률 질량 함수를 통해 표현이 가능하며, 누적 분포 함수로 표현할 경우 그 함수는 비약적 불연속으로만 증가한다. 

  • 확률 질량 함수란 각각의 확률 변수에 대한 가능성이 어느 정도인지를 나타내는 함수를 말한다. 이산 확률 변수의 확률 구조를 나타낸다. 
  • 누적 분포 함수란 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수를 말한다. '누적'이라는 이름은 특정 값보다 작은 값들의 확률을 모두 누적해서 구한다는 의미에서 붙여진 이름이다. 

 

이산 확률 분포의 종류는 아래와 같다.

  • 이산균등분포
    유한한 개수의 이산적인 값들이 동일한 확률로 나타낼 때 사용된다. 

  • 푸아송 분포
    단위 시간 또는 단위 공간에서 발생하는 사건의 수를 모델링하는 이산 확률 분포이다. 
    주로 사건이 독립적으로 발생하며, 발생률이 일정한 경우에 사용된다. 
    예를 들어, 단위 시간 동안 도착하는 이메일의 수, 단위 공간에서 발생하는 사고의 수, 특정 기간 동안 인터넷에서의 검색어 등장 횟수 등을 모델링할 때 푸아송 분포를 사용한다. 

  • 베르누이 분포
    단일한 베르누이 시행의 결과를 나타내는 이산 확률 분포이다. 
    베르누이 시행은 매우 단순한 개념으로 두 가지 가능한 결과 중 하나가 나오는 실험을 말한다. 실험 결과는 '성공'과 '실패'로 구분할 수 있으며(배반사건), 각각의 결과가 발생할 확률은 고정되어 있다고 가정한다. 
  • 기하 분포
    베르누이 시행에서 처음으로 성공할 때까지의 시행 횟수를 나타내는 이산 확률 분포다. 
    즉, 각 시행에서 성공할 확률이 P인 경우 기하 분포는 처음 성공할 때까지의 시행 횟수를 확률 변수로 나타낸다. 

  • 초기하 분포
    유한한 크기의 모집단에서 비복원 추출한 표본에서의 성공 횟수를 확률변수로 모델링한 것이다. 즉, N개의 모집단에서 n개를 추출했을 때, k개의 성공집단에서 x개를 뽑을 확률분포다. 

    이항 분포와 초기하 분포는 추출 방식에 차이가 있는데 이항 분포의 경우 복원 추출을 가정하고 초기하 분포는 비복원 추출을 가정한다. 따라서 초기하 분포는 샘플링된 항목이 다음 추출에 영향을 주는 경우에 사용된다.  

  • 이항 분포
    베르누이 시행을 독립적으로 반복하여 결과를 관찰하는 경우에 사용되는 확률 분포다. 
    이진 결과를 가지는 시행에서 성공 횟수의 확률 분포를 나타내는 데 사용된다. 
    베르누이 분포에서 확률 변수 X가 성공 1, 실패 0 두 개의 값만 갖는다면 이항 분포에서 확률 변수 X는 성공의 횟수로 양의 정수를 가진다. 

  • 음의 이항 분포
    기하 분포를 일반화한 분포다. 
    성공 확률이 P인 베르누이 시행에서 r번째 성공까지의 시행 횟수 즉, 성공 전까지의 실패 횟수의 분포를 나타낸다. 음이항분포에서는 x번의 시행에서 처음 r-1번의 성공과 마지막 r번째 성공 사이에 실패가 포함될 수 있다. 

  • 다항 분포
    여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포로, 여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률을 정의한다. 
    다항 분포에서 차원이 2인 경우 이항 분포가 된다. 

 

연속 확률 분포

확률 밀도 함수를 이용해 분포를 표현할 수 있는 경우를 의미하며 연속 확률 분포를 가지는 확률 변수는 연속 확률 변수라고 부른다. 

 

이산형 표본 공간에서 '개수'를 사용한 것과 달리 '측도' 즉, 길이, 면적, 부피 등을 사용하게 되는데 이는 개수로 셀 수 없는 연속량이고 집합의 개념으로 표현하면 원소의 개수가 무한하다. 

 

연속 확률 분포의 종류는 아래와 같다. 

  • 정규 분포
    통계학에서 가장 중요하고 널리 사용되는 확률 분포 중 하나다. 
    실수 전체의 범위에서 정의되는데 두 개의 모수, 평균과 분산을 가지고 있으며 종모양의 대칭적인 형태를 갖추고 있다. 

  • 연속균등분포
    주어진 구간에서 모든 값들이 동일한 확률로 나타날 때 사용된다. 특히 균등 분포는 베이지안 통계에서 사전분포에 대한 정보가 전혀 없을 때, 무정보 사전분포로 사용된다. 

  • 카이제곱 분포
    자유도에 따라 다양한 모양을 가지는 확률 분포다. 주로 관측값의 제곱들을 합하여 구해지며, 분산에 관한 통계적 추론이나 카이제곱 검정 등에서 자주 사용된다. 

    정규 분포에서 추출한 독립적인 표본의 제곱을 합하여 구해지는 분포다. 

    카이제곱 분포의 특징은 아래와 같다. 
    • 항상 양수이며, 오른쪽으로 꼬리가 긴 형태를 가진다. 
    • 자유도에 따라 분포의 형태가 변화한다. 자유도는 표본의 개수에 의해 결정된다.
    • 자유도가 작을수록 분포의 분산이 커지며, 자유도가 증가할수록 분산이 작아진다. 
    • 자유도가 충분히 크면, 카이제곱 분포는 정규 분포에 근사된다. 이는 중심극한정리와 관련이 있다.
    • 주로 분산 추정, 적합도 검정, 교차 분석 등의 통계적 분석에 사용된다. 
  • 감마 분포
    정규분포로도 설명할 수 없는 부분을 보완하기 위해 나온 확률 분포다. 
    간략히 표현하자면 n번째 사건이 일어날 때까지 걸리는 시간에 대한 연속 확률 분포다. 

 

 

확률 분포 코드 공부

< 추후 추가 예정 >

 

 

 

 

 

 

 

참고 자료