전체 글 147

p-값(p-value)과 통계적 유의성(Statistical Significance)

p값귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률이다.  좀 더 풀어서 설명하자면, 통계에서 가정을 검정할 땐 디폴트로 귀무가설이 맞다는 전제하에 진행된다. 그리고 확률이 클수록 샘플의 통계량은 귀무가설을 강하게 지지하기 때문에 귀무가설이 참이 된다. 반면 이 확률이 작을수록 통계량은 귀무가설을 지지하지 않기 때문에 귀무가설은 기각된다. 그러니 귀무가설을 참이라고 가정했을 때, 내가 관측한 데이터의 통계량이 귀무가설을 지지할 확률이라고 할 수 있다.    p값 해석 방법낮은 p값예를 들어 p값 귀무가설이 참일 경우 관측된 결과가 드물게 발생한다는 것을 의미한다.귀무가설을 기각하고, 연구 가설이 타당할 수 있다고 간주한다.  높은 p값귀무가설과 ..

공부일기/통계 2024.08.16

Article : SI 기업이 인구 절벽에 대비하는 4가지 방법

https://yozm.wishket.com/magazine/detail/2695/ SI 기업이 인구 절벽에 대비하는 4가지 방법 | 요즘IT인구 절벽 시대를 맞아 부정적인 전망이 나오는 요즘이다. 우리 정부는 이를 해결하고자 오랫동안 많은 정책과 공적 자금을 쏟아부었지만, 효과는 미미했다. 이것이 과연 해결할 수 있는 문제가yozm.wishket.com     요약>IT 인력 수급은 왜 점점 어려워질까?인구 구조적 영향1960년과 지금의 인구 피라미드를 비교해 보면 역삼각형으로 가는 변화가 뚜렷하게 나타난다. 다시 말해 나라가 늙어간다는 거다. 우리나라는 이미 70대 이상 인구가 20대 인구를 앞질렀다. 이는 곧 경제활동인구보다 비경제활동인구가 더 많아질 것이라는 전망을 하게 만든다. 현업 인력의 평균..

Article : 한국의 AI 규제, 어디까지 왔나

https://brunch.co.kr/@ressac-n/61 09화 한국의 AI 규제, 어디까지 왔나AI 강국을 향해 뚜벅뚜벅 힘찬 걸음을 걸으려면 | AI 규제는 당신에게 영향을 미친다 한국에는 수많은 규제가 있다. 규제는 대개 분노와 좌절의 대상으로 묘사된다. ‘규제가 발목을 잡는다’, ‘brunch.co.kr      요약>AI 규제는 당신에게 영향을 미친다. 한국은 소문난 얼리어답터 시장이다. 신기술 사용에 망설임이 적고 오히려 서로 먼저 사용하는 데 혈안이 되어 있다. AI에 대해서도 마찬가지다. 기업의 41%가 이미 AI를 활용 중이라 답했고, OECD 회원국 중 한국이 AI, 빅데이터 분석, 사물인터넷 등 신기술 도입률이 1위라는 조사 결과가 나왔다. 기업뿐만 아니라 개개인도 AI 관심이 뜨..

Aricle : '감'이 아니라 '데이터'로 설득하려면

https://brunch.co.kr/@datadriven/13 '감'이 아니라 '데이터'로 설득하려면나는 지금 데이터 기반한 보고를 하고 있는가? | ‘4차 산업혁명’ ‘디지털 트랜스포메이션’ ‘데이터 리터러시’ ‘챗GPT’ ‘생성형 AI’ 등 IT 관련 버즈워드가 넘쳐 나는 시대다. 우리가 살brunch.co.kr   요약>'4차 산업혁명', '디지털 트랜스포메이션', '데이터 리터러시' 등의 다양한 키워드들은 '데이터'와 관련이 있고 최종 목적은 '의사결정'과 연결된다는 공통점이 있다. 기술이 급격하게 진보함에 따라 방대한 데이터에 대한 접근은 가능해졌더라도, 최선의 의사결정을 하기 위해 데이터를 어떻게 가공하고 분석해야 하는지 결정하는 것은 여전히 분석하는 사람의 몫으로 남겨져있다.  또한, HR..

인사이트

인사이트(Insight)인사이트는 '통찰' 즉, '본질을 꿰뚫어 봄'을 의미한다. 통찰은 특정 맥락 내에서 특정 원인과 효과를 이해하는 것을 말한다.  즉, 인사이트는 어떤 사건이 발생했을 때, 그 사건이 일어난 원인을 특정 맥락 속에서 파악하고 그 사건이 미치는 효과를 이해하는 것을 말한다.   인사이트 발견인사이트는 발견할 확률이 높을까, 발견될 확률이 높을까? 발견할 확률이 높다. 그럼 발견하기 위한 필요충분조건은 무엇일까?바로 남다른 가설과 관점이다. 남들과 똑같은 질문을 하면서 유레카를 외치려고 하면 안 되는 것이다.  남다른 가설과 관점은 어떻게 얻을 수 있을까?우선 내가 가진 데이터의 특성과 한계를 정의해야 한다.  데이터로 볼 수 있는 것과 그렇지 않은 것을 구분하기 위해서는 데이터의 생성..

가설 검정(Hypothesis Testing)

가설 검정어떤 추측이나 가설에 대해 타당성을 조사하는 것이다. 통계학에서 가설 검정은 표본통계량으로 모수를 추정할 때 추정한 모수값 또는 확률 분포 등이 얼마나 타당한지 평가하는 통계적 추론이다. 쉽게 설명하자면 증명된 바 없는 주장이나 가설을 표본통계량에 입각하여 주장이나 가설의 진위 여부를 판단, 증명, 검정하는 통계적 추론이다.   가설 검정 단계가설 수립가설 검정의 첫 번째 단계인 가설 수립 단계에서는 귀무가설과 대립 가설을 수립해야 한다. 귀무가설(null hypothesis)직접 검정 대상이 되는 가설이다.표본을 관찰하고 '이 자료들은 이러할 것이다'라고 세운 가설을 말한다.귀무가설은 증명된 바 없는 주장이나 가설이지만 일단 옳다는 가정하에 시작한다. 이것을 반대로 생각하면, 진실일 가능성이 ..

공부일기/통계 2024.08.12

Aricle : 북극성 지표와 인풋 정의하기

https://playinpap.github.io/north-star-metric/ 북극성 지표와 인풋 정의하기오늘의 글은 주니어 기획자 및 PMO를 위해 토스 PO세션 이후 노스 스타 플레이북 을 스터디한 내용…playinpap.github.io     요약>리텐션은 중요하지만, 그 자체로 목적이 되지 않는다.PMF를 찾았다는 근거는 Retention Plateau의 유무를 통해 확인할 수 있다. 그렇다고 제품팀의 목표를 '리텐션 개선'으로 잡기는 어려운데, 그 이유는 리텐션 개선은 제품 개선을 위한 노력이 잘 먹혔는지 결과로서 따라오는 '후행 지표'이기 때문이다. 또한, 리텐션은 특정 기간 이후의 성과 측정을 통해 판단해야 하기에 A/B 테스팅을 통해 리텐션 개선의 유의미한 차이를 보려면 꽤 오랜 시..

기술 통계 vs 추론 통계(Descriptive statistics vs Inferential statistics)

기술 통계수집한 데이터를 요약 묘사 설명하는 통계 기법이다. 대량의 데이터를 다루기 쉽도록 간결하고 정확하게 표현하는 데 중점을 두며, 이를 위해 다양한 통계적 방법과 기법들을 사용한다.  기술 통계의 중요성은 아래와 같다. 데이터의 전반적인 특성을 이해하는 데 도움이 된다. 평균, 중앙값, 최댓값, 최솟값, 범위, 표준 편차 등 통계치를 통해 데이터의 중심 경향, 분산, 분포 형태 등을 파악할 수 있다. 대량의 데이터를 요약하고 정리하는 데 사용된다. 이를 통해 복잡한 데이터를 간략히 표현하고, 주요 특징을 쉽게 이해할 수 있다.서로 다른 데이터 그룹을 비교하는 데 사용할 수 있다 데이터 이상치를 탐지할 수 있다. 데이터 분석의 첫 단계로 이후의 분석 방법을 선택하고 결과를 해석하는 데 중요한 기초를 ..

공부일기/통계 2024.08.11

확률 분포(Probability Distribution)

확률 분포확률 변수가 특정 값을 가질 확률을 나타낸 것이다. 함수로 표현하기도 하며 도수분포표나 그래프로 나타내는 경우가 많아 직관적으로 이해하기가 좋다. 통계 모델을 통해 데이터의 유의성을 판단할 때, 데이터의 특정 확률 분포를 가정하기 진행하기 대문에 통계적 모형의 기본 토대라고 할 수 있다.  확률 분포는 확률 변수가 어떤 종류의 값을 가지는가에 따라서 크게 이산 확률 분포와 연속 확률 분포 중 하나에 속하며 둘 중 어디에도 속하지 않는 경우도 존재한다.   이산 확률 분포이산 확률 변수가 가지는 확률 분포를 의미한다. 여기에서 확률 변수가 이산 확률 변수라는 말은 확률 변수가 가질 수 있는 값의 개수가 가산 개 있다는 의미이다.  이산 확률 분포는 확률 질량 함수를 통해 표현이 가능하며, 누적 분..

공부일기/통계 2024.08.11

확률 이론 기초(Basic Probability Theory)

확률경험 혹은 실험의 결과로 특정한 사건이나 결과가 발생할 가능성이다.   확률의 기초 개념확률에 대한 기본적인 용어로는 두 가지만 알면 된다.  표본 공간(S, Sample space)표본 공간은 '통계적 조사에서 얻을 수 있는 모든 가능한 결과들의 전체 집합'이다. 영어로는 'The set of possible outcomes'로 해석하면 '가능한 모든 수'이다. 한 상황에 대해 우리가 생각해 볼 수 있는 모든 결과를 표본 공간이라고 한다.  표본 공간은 집합이다. 흔히 앞글자를 따 S라고 표기한다. S = {A, B, C}라고 쓰면 표본 공간을 표기한 것이다. 그러면 표본 공간이라는 집합의 각 원소는 바로 각각의 경우가 되는 것이다.  여기서 중요한 것은 표본 공간의 원소들은 절대 숫자가 될 필요가..

공부일기/통계 2024.08.11