PIPI

교차 검증(Cross Validation)

교차 검증데이터를 여러 부분으로 나누고, 각 부분을 훈련과 테스트 용도로 번갈아 사용하여 모델을 평가하는 방법이다. 이를 통해 모델의 일반화 성능을 더 정확하게 측정할 수 있다. 조금 더 쉽게 설명하자면 학습 데이터를 학습 데이터와 검증 데이터로 나눠서 학습 데이터를 가지고 모델의 성능을 1차로 평가하는 검증 데이터를 만든다. 그 다음 테스트 데이터는 최종적으로 모델의 성능을 확인할 때 사용한다. 교차 검증 특징훈련 데이터가 많지 않을 때 사용한다. 훈련 데이터로 학습하고 테스트 데이터로 평가하는 경우, 해당 테스트 데이터에만 과적합되는 모델이 생성되어 일반화 성능이 떨어진다. 훈련 데이터에서 검증 데이터를 떼어내어 모형을 검증하는 과정을 여러번 반복한다. 교차 검증 장단점장점모든 데이터 셋을 ..

공부일기/Machine-Learning 2024.07.25

Article : 서비스 기획자가 '데이터 툴' 활용하는

https://yozm.wishket.com/magazine/detail/2678/ 서비스 기획자가 ‘데이터 툴’ 활용하는 법 | 요즘IT고객의 마음을 이해하기 위해, 고객의 진심을 생각하기 위해 데이터를 사용한다고 하지만 데이터를 활용하는 데까지 여러 단계가 숨어있다. 고객이 남긴 자취들을 여기저기에서 모으는 과정부yozm.wishket.com 데이터로부터 리서치를 시작하다.리서치 단계에서 주로 사용하는 툴은 구글 스프레드시트, 챗GPT다. 고객의 반응을 확인하기 위해 가장 많이 활용하는 것은 바로 '구글 스프레드시트'다. 특정 함수만 넣으면 빠르게 뉴스 기사들을 수집해 살펴볼 수 있다. 함수는 'importfeed'를 사용하는데, 이 함수로 전 세계 뉴스를 한 번에 수집할 수 있다. RSS 서비스가..

데일리 미션/Article 2024.07.25

앙상블 학습 방법(Ensemble Learning)

앙상블 학습여러 개의 개별 모델을 조합하여 최적의 모델로 일반화하는 방법이다. weak classifier(약한 분류)들을 결합하여 strong classifier(강한 분류)를 만드는 것이다. 결정 트리에서 과적합(overfitting)되는 문제를 앙상블에서는 감소시킨다는 장점이 있다. 앙상블 기법에는 보팅(voting), 배깅(bagging), 부스팅(boosting), 스태킹(stacking)이 있다. 보팅(voting)여러 머신러닝 알고리즘을 같은 데이터 세트에 대해 학습하고 예측한 결과를 투표하여 최종 예측 결과를 선정하는 방식이다. 하드 보팅(hard voting)각 분류기가 최종 클래스를 정하면 더 많은 클래스를 최종 클래스로 결정한다. 다수결의 원칙과 비슷하다. 소프트 보팅(soft..

공부일기/Machine-Learning 2024.07.24

Article : AI가 평범한 알고리즘과 다른 점

https://yozm.wishket.com/magazine/detail/949/ AI가 평범한 알고리즘과 다른 점 | 요즘IT최근 엄청난 발전 속도를 보이고 있는 AI는 굉장히 고도화된 알고리즘으로 이루어져 있습니다. 지금 이 순간에도 더 정확한 AI를 만들기 위해 많은 연구자들은 새로운 AI 알고리즘을 개발하고 있yozm.wishket.com AI vs 알고리즘규칙에 기반해 방아쇠를 당기는 알고리즘알고리즘은 특정한 문제를 풀기 위해 거쳐야 하는 일련의 과정들을 묶어 놓은 절차나 방법이라는 사전적 의미를 지니고 있다. 특정한 문제를 푸는 방법을 알고리즘이라는 형태로 구조화하고 이와 똑같은 혹은 유사한 문제를 다음에 또다시 풀어야 할 때, 해당 알고리즘을 그대로 이용할 수 있도록 활용한다. 알고리즘의..

데일리 미션/Article 2024.07.24

나이브 베이즈 분류기(Naive Bayes Classification)

나이브 베이즈 분류기나이브 베이즈 분류기는 지도 학습의 분류 모델에 속하는 기법이다. 텍스트 분류와 같은 분류 작업에 사용되는 감독형 머신 러닝 알고리즘으로, 분류 작업을 수행할 때 확률 원칙을 사용한다. 또한, 나이브 베이즈는 통계 및 컴퓨터 과학 문헌에서 단순 베이즈, 독립 베이즈를 포함한 다양한 이름으로 알려져 있다. 분서를 여러 범주 중 하나로 판단하는 문제에 대한 대중적인 방법으로 남아있으며, 적절한 전처리를 하면 더 진보된 방법들(예 : 서포트 벡터 머신)과도 충분한 경쟁력을 보인다. 나이브 베이즈 분류에 대해 알기 위해서는 베이즈 정리를 먼저 알아야 한다. 베이즈 정리란?추론 대상의 사전 확률과 추가적인 정보를 기반으로 해당 대상의 사후 확률을 추론하는 통계적 방법을 말한다. 조금 더 ..

공부일기/Machine-Learning 2024.07.24

계층적 군집(Hierarchical Clustering)

계층적 군집계층적 군집은 데이터를 가까운 집단부터 순차적이며 계층적으로 군집화하는 방식이다.트리구조를 통해 각 데이터들을 순차적, 계층적으로 비슷한 그룹과 묶어 클러스터링을 진행한다고 이해하면 된다. 계층적 구조로 인해 클러스터 혹은 군집의 개수를 미리 정하지 않아도 되지만 매번 지역 최소값(local minimu)을 찾아가는 방법을 활용하기 때문에 클러스터링의 결과값이 전역 최소값(global minimum)이라고 해석하기는 어렵다. 조금 더 쉽게 이야기하자면 계층적 군집은 가장 처음에 모든 군집이 하나의 데이터만을 가진다. 따라서 최초에는 데이터 개수만큼 군집이 존재하지만 군집을 합치면서 최종적으로 하나의 군집만 남게 되는 방식이다. 이로 인해 합체 군집화라고도 한다. 계층적 군집의 결과는 보통..

공부일기/Machine-Learning 2024.07.23

Article : 피드백을 통해 성장하는 법 6가지

https://yozm.wishket.com/magazine/detail/2526/ 피드백을 통해 성장하는 법 6가지 | 요즘IT메타 인지를 높이는 데 가장 효과적인 방법은 피드백을 이용하는 것이다. 예를 들면 개발자들은 프로그래밍 언어를 배울 때부터 피드백에 익숙해져 있다. 코드를 타이핑하는 순간 컴파일러가yozm.wishket.com 성장하지 못하는 사람들의 공통적인 특징은 내가 무엇을 잘하고 무엇이 부족한지 모른다는 것이다. 이것을 메타 인지라고 부르는데 즉, '나 자신에 대한 이해'가 낮은 것이다. 성장한다는 것은 내가 잘하는 것을 더 보강하여 더욱 잘하고, 부족한 부분을 채워 개선하는 과정이기 때문이다. 메타 인지를 높이는데 가장 효과적인 방법은 피드백을 이용하는 것이지만, 피드백을 있는..

데일리 미션/Article 2024.07.23

K-평균 군집화(k-means clustering, K-Means)

K-평균 군집화K-평균 군집화는 비지도학습에 속하며, 데이터를 K개의 군집(Cluster)으로 묶는(Clusting) 알고리즘이다. 군집이란 비슷한 특성을 지닌 데이터들을 모아놓은 그룹이고, 군집화는 군집으로 묶는 것을 말한다. 그러므로 K-평균 군집화는 군집의 평균을 활용해 K개의 군집으로 묶는다는 것을 의미한다. K-평균 군집화 과정몇 개의 덩어리로 클러스터링(Clustering)을 할 것인지 정한다. 우리가 가장 먼저 해야 할 일은 몇 개의 K로 클러스터링(Clustering)을 할 것인지 결정하는 것이다. 개수는 원하는 수로 정하면 된다.정한 개수만큼 중심점(K값)을 정한다.정한 개수만큼 원하는 아무 값으로 중심점을 정한다. 이때 정하는 중심점을 centroid(중심)이라고 부른다.각 점마..

공부일기/Machine-Learning 2024.07.19

게임 이탈률 분석

이탈률이탈률은 고객이 제품 또는 서비스 사용을 중지하는 비율을 말한다.모바일 앱 세계에서는 사용자가 앱에서 이탈하는 비율을 뜻하며, 게임에서는 유저가 더이상 게임을 하지 않는 것을 의미한다. 이탈 예측은 크게 4가지 단계로 진행된다. 학습 데이터 생성데이터 가공모델 생성성능 평가 첫 과정인 학습 데이터 생성은 이탈 예측에서 체크할 '이탈'이 무엇인지, 체크하고자 하는 이탈자가 누구인지 확실히 정의하는 과정으로 이 과정을 소홀히 할 경우 나머지 과정이 제대로 돼도 의미 없는 결과값을 얻게 된다. 그렇다면 학습 데이터는 어떻게 구성되어 있을까? 아래와 같다.학습 대상개발자가 어떤 유저층을대상으로 '이탈 예측'을 할 것인지 정하는 단계이다.이 단계에서 유저층은 좁고 상세할수록 의미있는 결과를 얻을 수 있..

데일리 미션/미션 2024.07.19

Article : 개발자가 문제 해결 과정에서 겪는 어려움 3가지

https://yozm.wishket.com/magazine/detail/2670/ 개발자가 문제 해결 과정에서 겪는 어려움 3가지 | 요즘IT개발자로 살아가면서 어려움을 겪는 것은 피할 수 없는 일입니다. 기술적 실력이 모자라서 그럴 수도 있고, 개발하고 있는 분야에 대한 도메인 지식이 부족해서 그럴 수도 있죠. 또한 동료와의yozm.wishket.com 문제 해결 과정에서 겪는 어려움에 대해 이야기하고자 한다. 왜냐하면 외부적인 요인은 개발자 개인의 노력과 능력만으로는 통제할 수 없는 상황이 많지만 문제 해결 과정에서 겪는 어려움은 분석한다면 내가 어떤 이유로 인해 혼란스러움을 겪고 있는 상태인지 알 수 있고, 그에 맞는 적절한 해결 방법을 선택할 수 있다. 문제 해결 과정에서 어려움의 유형과 판..

데일리 미션/Article 2024.07.19

PIPI

전체 글 148

티스토리툴바