분류 전체보기 147

Article : 데이터 파이프라인 개념 정리

https://playinpap.github.io/data-pipeline/ 데이터 파이프라인 개념 정리들어가며 우리는 주로 BI 툴이나 대시보드 툴을 통해 데이터를 확인하고 분석합니다. 하지만 이 데이터, …playinpap.github.io  빅데이터는 무엇일까?빅데이터는 매우 크고 복잡한 데이터셋을 의미한다. 이러한 데이터는 일반적으로 기존 데이터베이스 관리 도구로는 처리하기 어렵거나 불가능한 정도로 방대하며, 여러 컴퓨터로 분산 처리된다.  빅데이터는 일반적으로 3V라고 불리는 특성이 있다. Volume(양)빅데이터는 기존 데이터보다 훨씬 많은  양의 데이터를 다룬다. 대용량의 데이터는 수십 테라바이트에서 시십 페타바이트에 이를 수 있다. Velocity(속도)빅데이터는 높은 속도로 생성되고 처리..

K-최근접 이웃(K-Nearest Neighbors, K-NN)

K-최근접 이웃K-최근접 이웃(K-NN)은 '유유상종'이라는 사자성어에 맞는 머신 러닝이다.K-NN 알고리즘은 지도 학습의 한 종류로 데이터를 가장 가까운 유사 속성에 따라 분류하는 거리기반 분류 분석 모델이다.거리 기반으로 분류하는 클러스터링과 유사한 개념이긴하나, 기존 관측치의 Y값(Class)이 존재한다는 점에서 비지도학습에 해당하는 클러스터링과 차이가 있다.     K-NN 알고리즘은 거리를 측정할 때 유클리디안 거리 계산법을 사용한다. 유클리디안 거리 계산법은 N차원의 공간에서 두 점간의 거리를 알아내는 공식으로 'L2 Distance'라고도 한다.    K-NN 장단점장점단순하고 효율적이다. 기저 데이터 분포에 대한 가정을 하지 않는다훈련 단계가 빠르다수치 기반 데이터 분류 작업에서 성능이 우..

서포트 벡터 머신(Support vector machine)

서포트 벡터 머신이란전통적인 이진 분류를 위한 기법 중 하나이다. '오류율을 최소화'하려는 목적 외에 두 부류 사이에 존재하는 '여백을 최대화'하려는 목적으로 설계되었다.  패턴 인식, 자료 분석을 위한 지도 학습 모델 중 하나이며 주로 분류와 회귀 분석을 위해 사용한다.   위의 그래프를 이용해 예를 들어 서포트 벡터 머신을 설명하고자 한다. 그래프를 통해 짜장면인지 짬뽕인지 구분을 하려면 직선을 그어 국물의 양과 고춧가루의 양이 많으면 짬뽕, 아니면 짜장으로 구분할 수 있다. 이 때, 두 부류사이의 여백이 가장 넓어지면(둘이 가장 떨어져있으면(여유 최대화)) 그 둘을 가장 잘 분류했다고 할 수 있다. 이를 분류하는 과정에서 위의 그래프로 그래프처럼 빨간 직선(선형모델)으로 그 둘을 구분할 수도 있고 ..

Article : 도메인은 모르지만 인과추론은 하고 싶어

https://playinpap.github.io/adjustment-for-confounding/ 도메인은 모르지만 인과추론은 하고 싶어도메인 없이 인과추론이 가능할까? 인과추론은 도메인에 상당 부분 의존할 수 밖에 없는 방법론입니다. 도…playinpap.github.io  도메인 없이 인과추론이 가능할까?인과추론은 도메인에 상당 부분 의존할 수 밖에 없는 방법론이다. 도메인에 대한 지식이 있어야 관심의 대상 Y(결과, outcome)를 정의할 수 있고, 이에 직접적으로 개입할 수 있는 요인 A(처치, treatment)를 선정할 수 있다. 그리고 A가 Y에 주는 영향을 정확하게 파악하기위해서 이 둘에 영향을 미치는 교란변수 X(confounder)들을 알고 있어야 한다. 사실 A와 Y는 상식선에서 ..

랜덤 포레스트(Random forest)

랜덤 포레스트란숲은 나무가 모여 이루어진 것처럼 랜덤 포레스트도 결정 트리가 모여 만들어진 것이다. 물론 결정 트리만으로도 머신 러닝을 할 수 있지만 결정 트리의 단점인 과적합을 랜덤 포레스트로 해결할 수 있다.  예를 들어 건강의 위험도를 예측하기 위해서는 많은 요소를 고려해야하는데 성별, 키, 몸무게, 운동량 등 30개의 수 많은 요소를 기반으로 건강의 위험도를 결정 트리(Decision Tree)를 이용해 예측하면 분명 과적합(overfitting)이 일어날 것이다.그러나 랜덤 포레스트는 수 많은 요소 중 랜덤으로 5개의 요소만 선택해 하나의 결정 트리를 만드는 방식을 반복해 결정 트리 하나마다 예측값을 내놓고 이렇게 내린 예측 값 중 가장 많이 나온 값을 최종 예측값으로 정한다. 다수결의 원칙을 ..

Article : 코호트 분석 Cohort Analysis

https://brunch.co.kr/@datarian/150 코호트 분석 Cohort Analysis고객을 세분화하면 개선이 필요한 고객군을 발견할 수 있습니다. | 안녕하세요. 데이터리안의 윤선미입니다. 지난 글에서 보민님이 RFM 분석을 소개해주셨어요. 고객들을 Recency, Frequency, Monetarybrunch.co.kr  고객 세분화고객들의 공통의 특징을 기준으로 그룹화하는 작업을 고객 세분화(Customer Segmentation)이라고 한다. 고객을 세분화하여 나누고 나면 개선이 필요한 고객군을 발견하기도 하고, 다른 고객군들과 현저하게 다른 성과를 내는 고객군을 발견하기도 한다.   코호트 분석코호트 분석은 고객 세분화를 '시간의 흐름'을 기준으로 하는 것이다.       코호트..

게임 로그 분석

로그란컴퓨터의 처리 내용이나 이용 상황을 시간의 흐름에 따라 기록한 것이다. 개인용 컴퓨터 통신에서 메일등 통신 내용의 기록이며, 그 파일을 로그 파일이라고 한다.통나무 목선 log on, log out에서 유래되었다. 로그 데이터는 JSON, CSV, TSV와 같은 비정형 텍스트로 들어온다. 로그 기록의 목적은 시스템 보안, 유지 보수 목적으로 사용된다. 사고가 발생한 경우 데이터의 복원이나 사고 원인의 규명 등에 도움이 된다.      게임 로그란유저가 게임에 로그인을 한 순간부터 로그 아웃을 할 때까지의 모든 활동이 담긴 기록이다. 게임 로그는 게임에서 실시간으로 진행되고 있는 여러 게임 내 상황들을 나중에 필요할 때 다시 보고, 복기할 수 있도록 육하원칙에 맞춰 자세하게 만들어야 한다. 육하원칙은..

결정 트리(Decision Tree)

결정 트리란의사 결정 트리, 의사 결정 나무라고도한다. 결정 트리는 분류와 회귀 모두 가능한 지도 학습 모델 중 하나이다. 결정 트리 학습법은 지도 분류 학습에서 가장 유용하게 사용되고 있는 기법 중 하나다.  결정 트리는 예 / 아니오 질문을 이어가며 학습하는데 특정 기준(질문)에 따라 데이터를 구분하는 모델을 결정 트리 모델이라고 한다. 입력 데이터에 따라 목표 변수의 값을 예측하는 실행 모델을 만들기 위해 사용한다. 어떤 기준으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 알고리즘의 성능을 크게 좌우한다. 그러나 규칙이 많다는 것은 예측을 위한 학습이 잘된다고 말할 수 있음과 동시에 복잡하다는 의미이며 이는 과적합으로 이어질 수 있다. 즉, 트리의 깊이가 깊어질수록 예측 성능이 저하될 가능성..

로지스틱 회귀(Logistic regression)

로지스틱 회귀란독립 변수의 선형 결함을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법으로 독립 변수의 선형 조합을 로지스틱 함수를 사용해 종속 변수에 대한 확률 점수로 변환한다. 또한, 로지스틱 함수는 시그모이드 함수라고도 하며 'S'자 모양 곡선으로 입력 값을 '0'과 '1' 사이의 값으로 출력한다.  로지스틱 회귀 모델은 독립 변수의 계수(기울기 매개 변수)를 추정한다. 이 계수는 해당 독립 변수의 한 단위 변화에 대한 종속 변수의 로그 오즈 변화를 나타내며, 다른 모든 변수를 일정하게 유지하는 동안 적용된다.  로지스틱 회귀의 목적은 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이다. 이는 선형 회귀 분석과 유사하나, 선형 회귀 분석과 다르게..

Article : AARRR vs RARRA 우리 사업에 맞는 성과 측정 프레임워크 선택하기

https://mokeya.tistory.com/187 AARRR vs. RARRA 우리 사업에 맞는 성과 측정 프레임워크 선택하기해적 지표라고도 불리는 AARRR 프레임은 중요한 사용자 행동을 추적하고 적절한 조치를 취해 제품 주도 성장(product-led growth)을 이루는 데 활용할 수 있는 일군의 지표입니다. 전세계 많은 기업들mokeya.tistory.com  해적 지표라고도 불리는 AARRR 프레임은 중요한 사용자 행동을 추적하고 적절한 조치를 취해 제품 주도 성장을 이루는 데 활용할 수 있는 지표다. AARRR은 수 년간 비즈니스 성장 지표의 황금율이었으나 이를 수정한 RARRA가 등장하게 됐다.  AARRR이란 무엇인가?Dave McClure는 2007년에 해적 지표로 구성된 퍼넬을 ..