공부일기/통계 8

분산 분석(ANOVA)

분산 분석세 집단 이상의 비교에는 ANOVA를 사용한다. ANOVA는 Analysis of Variance의 줄임말이며 우리말로는 분산분석이다.  두 집단이든 세 집단이든 각 집단의 평균을 비교해, 어디가 제일 높고 낮은지 확인하면 충분하다. 그런데 표본 데이터에서의 차이가 통계적으로 유의한 지 검증해야 표본의 결과를 일반화할 수 있는데 이때 분산을 이용해 통계적 유의성을 검증하기 때문에 분산분석이라고 부른다.  두 집단 비교에서는 평균 차이를 이용했지만 세 집단 이상에서는 분산으로 통계정 유의성을 확인한다는 것에 유의해야 한다.  총분산의 분해분산 분석을 이해하는 첫 번째 단계는 총분산의 분해다. 총분산이란 집단을 구분하지 않고 모든 표본 데이터에서 구한 분산을 말한다. 총분산은 '총 분산 = 집단내 ..

공부일기/통계 2024.08.21

상관 분석(Correlation Analysis)

상관 분석확률론과 통계학에서 두 변수 간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법으로 상관계수를 이용해 측정한다.  좀 더 쉽게 이야기하면, 서로 관련된다고 예측되는 두 변수(구간, 비율척도)들 간에 얼마나 연관성이 있는지 알아보는 것이다. 두 변수 간의 관련성은 산점도 그래프를 통해 한눈에 확인할 수 있고, pearson의 상관계수를 통해 두 변수간 연관성이 어느 정도인지, 유의미한 상관관계가 있는지 검정할 수 있다.     상관 계수상관관계를 분석하는 데 있어서 가장 직관적인 방법은 산점도를 그려 직선의 형태와 가까운지 확인하는 것이다. 상관계수는 비교하고자 하는 두 확률 변수 X와 Y가 함께 변하는 정도를 의미하며 r이라고 표현한다.  X가 증가할 때 Y도 같은 방향으로 증가하면 상관계수..

공부일기/통계 2024.08.19

신뢰 구간(Confidence Interval)

신뢰 구간모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법이다. 집단 전체를 연구하는 것은 불가능하므로, 샘플링된 데이터를 기반으로 모수의 범위를 추정하기 위해 사용된다. 따라서, 신뢰 구간은 샘플링된 표본이 연구 중인 모집단을 얼마나 잘 대표하는지 측정하는 방법이다.  신뢰 구간에 모집단 실제 평균값이 포함될 확률을 'CI의 신뢰 수준(Confidence Level)'이라고 한다.  신뢰구간은 좁을수록 모집단 평균 추정치가 정확해진다. 일반적으로 관측 개수가 클수록 신뢰 구간이 좁아지므로 표본이 클수록 더 정확하게 모집단 평균을 추정할 수 있게 된다.  신뢰 구간의 '신뢰'는'평균값'이 등장했다고 믿을 수 있다는 뜻이다.  평균값은 t분포나 정규 분포를 따르는데, 평균값이 신뢰 구간 안에 들어온..

공부일기/통계 2024.08.16

p-값(p-value)과 통계적 유의성(Statistical Significance)

p값귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률이다.  좀 더 풀어서 설명하자면, 통계에서 가정을 검정할 땐 디폴트로 귀무가설이 맞다는 전제하에 진행된다. 그리고 확률이 클수록 샘플의 통계량은 귀무가설을 강하게 지지하기 때문에 귀무가설이 참이 된다. 반면 이 확률이 작을수록 통계량은 귀무가설을 지지하지 않기 때문에 귀무가설은 기각된다. 그러니 귀무가설을 참이라고 가정했을 때, 내가 관측한 데이터의 통계량이 귀무가설을 지지할 확률이라고 할 수 있다.    p값 해석 방법낮은 p값예를 들어 p값 귀무가설이 참일 경우 관측된 결과가 드물게 발생한다는 것을 의미한다.귀무가설을 기각하고, 연구 가설이 타당할 수 있다고 간주한다.  높은 p값귀무가설과 ..

공부일기/통계 2024.08.16

가설 검정(Hypothesis Testing)

가설 검정어떤 추측이나 가설에 대해 타당성을 조사하는 것이다. 통계학에서 가설 검정은 표본통계량으로 모수를 추정할 때 추정한 모수값 또는 확률 분포 등이 얼마나 타당한지 평가하는 통계적 추론이다. 쉽게 설명하자면 증명된 바 없는 주장이나 가설을 표본통계량에 입각하여 주장이나 가설의 진위 여부를 판단, 증명, 검정하는 통계적 추론이다.   가설 검정 단계가설 수립가설 검정의 첫 번째 단계인 가설 수립 단계에서는 귀무가설과 대립 가설을 수립해야 한다. 귀무가설(null hypothesis)직접 검정 대상이 되는 가설이다.표본을 관찰하고 '이 자료들은 이러할 것이다'라고 세운 가설을 말한다.귀무가설은 증명된 바 없는 주장이나 가설이지만 일단 옳다는 가정하에 시작한다. 이것을 반대로 생각하면, 진실일 가능성이 ..

공부일기/통계 2024.08.12

기술 통계 vs 추론 통계(Descriptive statistics vs Inferential statistics)

기술 통계수집한 데이터를 요약 묘사 설명하는 통계 기법이다. 대량의 데이터를 다루기 쉽도록 간결하고 정확하게 표현하는 데 중점을 두며, 이를 위해 다양한 통계적 방법과 기법들을 사용한다.  기술 통계의 중요성은 아래와 같다. 데이터의 전반적인 특성을 이해하는 데 도움이 된다. 평균, 중앙값, 최댓값, 최솟값, 범위, 표준 편차 등 통계치를 통해 데이터의 중심 경향, 분산, 분포 형태 등을 파악할 수 있다. 대량의 데이터를 요약하고 정리하는 데 사용된다. 이를 통해 복잡한 데이터를 간략히 표현하고, 주요 특징을 쉽게 이해할 수 있다.서로 다른 데이터 그룹을 비교하는 데 사용할 수 있다 데이터 이상치를 탐지할 수 있다. 데이터 분석의 첫 단계로 이후의 분석 방법을 선택하고 결과를 해석하는 데 중요한 기초를 ..

공부일기/통계 2024.08.11

확률 분포(Probability Distribution)

확률 분포확률 변수가 특정 값을 가질 확률을 나타낸 것이다. 함수로 표현하기도 하며 도수분포표나 그래프로 나타내는 경우가 많아 직관적으로 이해하기가 좋다. 통계 모델을 통해 데이터의 유의성을 판단할 때, 데이터의 특정 확률 분포를 가정하기 진행하기 대문에 통계적 모형의 기본 토대라고 할 수 있다.  확률 분포는 확률 변수가 어떤 종류의 값을 가지는가에 따라서 크게 이산 확률 분포와 연속 확률 분포 중 하나에 속하며 둘 중 어디에도 속하지 않는 경우도 존재한다.   이산 확률 분포이산 확률 변수가 가지는 확률 분포를 의미한다. 여기에서 확률 변수가 이산 확률 변수라는 말은 확률 변수가 가질 수 있는 값의 개수가 가산 개 있다는 의미이다.  이산 확률 분포는 확률 질량 함수를 통해 표현이 가능하며, 누적 분..

공부일기/통계 2024.08.11

확률 이론 기초(Basic Probability Theory)

확률경험 혹은 실험의 결과로 특정한 사건이나 결과가 발생할 가능성이다.   확률의 기초 개념확률에 대한 기본적인 용어로는 두 가지만 알면 된다.  표본 공간(S, Sample space)표본 공간은 '통계적 조사에서 얻을 수 있는 모든 가능한 결과들의 전체 집합'이다. 영어로는 'The set of possible outcomes'로 해석하면 '가능한 모든 수'이다. 한 상황에 대해 우리가 생각해 볼 수 있는 모든 결과를 표본 공간이라고 한다.  표본 공간은 집합이다. 흔히 앞글자를 따 S라고 표기한다. S = {A, B, C}라고 쓰면 표본 공간을 표기한 것이다. 그러면 표본 공간이라는 집합의 각 원소는 바로 각각의 경우가 되는 것이다.  여기서 중요한 것은 표본 공간의 원소들은 절대 숫자가 될 필요가..

공부일기/통계 2024.08.11