전체 글 147

Article : 서비스 기획자가 '데이터 툴' 활용하는

https://yozm.wishket.com/magazine/detail/2678/ 서비스 기획자가 ‘데이터 툴’ 활용하는 법 | 요즘IT고객의 마음을 이해하기 위해, 고객의 진심을 생각하기 위해 데이터를 사용한다고 하지만 데이터를 활용하는 데까지 여러 단계가 숨어있다. 고객이 남긴 자취들을 여기저기에서 모으는 과정부yozm.wishket.com  데이터로부터 리서치를 시작하다.리서치 단계에서 주로 사용하는 툴은 구글 스프레드시트, 챗GPT다. 고객의 반응을 확인하기 위해 가장 많이 활용하는 것은 바로 '구글 스프레드시트'다. 특정 함수만 넣으면 빠르게 뉴스 기사들을 수집해 살펴볼 수 있다. 함수는 'importfeed'를 사용하는데, 이 함수로 전 세계 뉴스를 한 번에 수집할 수 있다. RSS 서비스가..

앙상블 학습 방법(Ensemble Learning)

앙상블 학습여러 개의 개별 모델을 조합하여 최적의 모델로 일반화하는 방법이다. weak classifier(약한 분류)들을 결합하여 strong classifier(강한 분류)를 만드는 것이다. 결정 트리에서 과적합(overfitting)되는 문제를 앙상블에서는 감소시킨다는 장점이 있다.  앙상블 기법에는 보팅(voting), 배깅(bagging), 부스팅(boosting), 스태킹(stacking)이 있다.   보팅(voting)여러 머신러닝 알고리즘을 같은 데이터 세트에 대해 학습하고 예측한 결과를 투표하여 최종 예측 결과를 선정하는 방식이다.  하드 보팅(hard voting)각 분류기가 최종 클래스를 정하면 더 많은 클래스를 최종 클래스로 결정한다. 다수결의 원칙과 비슷하다. 소프트 보팅(soft..

Article : AI가 평범한 알고리즘과 다른 점

https://yozm.wishket.com/magazine/detail/949/ AI가 평범한 알고리즘과 다른 점 | 요즘IT최근 엄청난 발전 속도를 보이고 있는 AI는 굉장히 고도화된 알고리즘으로 이루어져 있습니다. 지금 이 순간에도 더 정확한 AI를 만들기 위해 많은 연구자들은 새로운 AI 알고리즘을 개발하고 있yozm.wishket.com  AI vs 알고리즘규칙에 기반해 방아쇠를 당기는 알고리즘알고리즘은 특정한 문제를 풀기 위해 거쳐야 하는 일련의 과정들을 묶어 놓은 절차나 방법이라는 사전적 의미를 지니고 있다. 특정한 문제를 푸는 방법을 알고리즘이라는 형태로 구조화하고 이와 똑같은 혹은 유사한 문제를 다음에 또다시 풀어야 할 때, 해당 알고리즘을 그대로 이용할 수 있도록 활용한다.  알고리즘의..

나이브 베이즈 분류기(Naive Bayes Classification)

나이브 베이즈 분류기나이브 베이즈 분류기는 지도 학습의 분류 모델에 속하는 기법이다. 텍스트 분류와 같은 분류 작업에 사용되는 감독형 머신 러닝 알고리즘으로, 분류 작업을 수행할 때 확률 원칙을 사용한다. 또한, 나이브 베이즈는 통계 및 컴퓨터 과학 문헌에서 단순 베이즈, 독립 베이즈를 포함한 다양한 이름으로 알려져 있다.  분서를 여러 범주 중 하나로 판단하는 문제에 대한 대중적인 방법으로 남아있으며, 적절한 전처리를 하면 더 진보된 방법들(예 : 서포트 벡터 머신)과도 충분한 경쟁력을 보인다.  나이브 베이즈 분류에 대해 알기 위해서는 베이즈 정리를 먼저 알아야 한다.  베이즈 정리란?추론 대상의 사전 확률과 추가적인 정보를 기반으로 해당 대상의 사후 확률을 추론하는 통계적 방법을 말한다. 조금 더 ..

계층적 군집(Hierarchical Clustering)

계층적 군집계층적 군집은 데이터를 가까운 집단부터 순차적이며 계층적으로 군집화하는 방식이다.트리구조를 통해 각 데이터들을 순차적, 계층적으로 비슷한 그룹과 묶어 클러스터링을 진행한다고 이해하면 된다. 계층적 구조로 인해 클러스터 혹은 군집의 개수를 미리 정하지 않아도 되지만 매번 지역 최소값(local minimu)을 찾아가는 방법을 활용하기 때문에 클러스터링의 결과값이 전역 최소값(global minimum)이라고 해석하기는 어렵다.  조금 더 쉽게 이야기하자면 계층적 군집은 가장 처음에 모든 군집이 하나의 데이터만을 가진다. 따라서 최초에는 데이터 개수만큼 군집이 존재하지만 군집을 합치면서 최종적으로 하나의 군집만 남게 되는 방식이다. 이로 인해 합체 군집화라고도 한다.   계층적 군집의 결과는 보통..

Article : 피드백을 통해 성장하는 법 6가지

https://yozm.wishket.com/magazine/detail/2526/ 피드백을 통해 성장하는 법 6가지 | 요즘IT메타 인지를 높이는 데 가장 효과적인 방법은 피드백을 이용하는 것이다. 예를 들면 개발자들은 프로그래밍 언어를 배울 때부터 피드백에 익숙해져 있다. 코드를 타이핑하는 순간 컴파일러가yozm.wishket.com    성장하지 못하는 사람들의 공통적인 특징은 내가 무엇을 잘하고 무엇이 부족한지 모른다는 것이다. 이것을 메타 인지라고 부르는데 즉, '나 자신에 대한 이해'가 낮은 것이다. 성장한다는 것은 내가 잘하는 것을 더 보강하여 더욱 잘하고, 부족한 부분을 채워 개선하는 과정이기 때문이다.  메타 인지를 높이는데 가장 효과적인 방법은 피드백을 이용하는 것이지만, 피드백을 있는..

K-평균 군집화(k-means clustering, K-Means)

K-평균 군집화K-평균 군집화는 비지도학습에 속하며, 데이터를 K개의 군집(Cluster)으로 묶는(Clusting) 알고리즘이다. 군집이란 비슷한 특성을 지닌 데이터들을 모아놓은 그룹이고, 군집화는 군집으로 묶는 것을 말한다.   그러므로 K-평균 군집화는 군집의 평균을 활용해 K개의 군집으로 묶는다는 것을 의미한다.   K-평균 군집화 과정몇 개의 덩어리로 클러스터링(Clustering)을 할 것인지 정한다. 우리가 가장 먼저 해야 할 일은 몇 개의 K로 클러스터링(Clustering)을 할 것인지 결정하는 것이다. 개수는 원하는 수로 정하면 된다.정한 개수만큼 중심점(K값)을 정한다.정한 개수만큼 원하는 아무 값으로 중심점을 정한다. 이때 정하는 중심점을 centroid(중심)이라고 부른다.각 점마..

게임 이탈률 분석

이탈률이탈률은 고객이 제품 또는 서비스 사용을 중지하는 비율을 말한다.모바일 앱 세계에서는 사용자가 앱에서 이탈하는 비율을 뜻하며, 게임에서는 유저가 더이상 게임을 하지 않는 것을 의미한다.  이탈 예측은 크게 4가지 단계로 진행된다.  학습 데이터 생성데이터 가공모델 생성성능 평가 첫 과정인 학습 데이터 생성은 이탈 예측에서 체크할 '이탈'이 무엇인지, 체크하고자 하는 이탈자가 누구인지 확실히 정의하는 과정으로 이 과정을 소홀히 할 경우 나머지 과정이 제대로 돼도 의미 없는 결과값을 얻게 된다.  그렇다면 학습 데이터는 어떻게 구성되어 있을까? 아래와 같다.학습 대상개발자가 어떤 유저층을대상으로 '이탈 예측'을 할 것인지 정하는 단계이다.이 단계에서 유저층은 좁고 상세할수록 의미있는 결과를 얻을 수 있..

Article : 개발자가 문제 해결 과정에서 겪는 어려움 3가지

https://yozm.wishket.com/magazine/detail/2670/ 개발자가 문제 해결 과정에서 겪는 어려움 3가지 | 요즘IT개발자로 살아가면서 어려움을 겪는 것은 피할 수 없는 일입니다. 기술적 실력이 모자라서 그럴 수도 있고, 개발하고 있는 분야에 대한 도메인 지식이 부족해서 그럴 수도 있죠. 또한 동료와의yozm.wishket.com  문제 해결 과정에서 겪는 어려움에 대해 이야기하고자 한다. 왜냐하면 외부적인 요인은 개발자 개인의 노력과 능력만으로는 통제할 수 없는 상황이 많지만 문제 해결 과정에서 겪는 어려움은 분석한다면 내가 어떤 이유로 인해 혼란스러움을 겪고 있는 상태인지 알 수 있고, 그에 맞는 적절한 해결 방법을 선택할 수 있다.  문제 해결 과정에서 어려움의 유형과 판..

주성분 분석(Principal Component Analysis, PCA)

주성분 분석주성분 분석은 비지도 학습에 속해 레이블이나 목표 변수가 없는 학습 데이터만을 사용해 데이터의 구조나 패턴을 찾는다. 쉽게 말해 주성분 분석을 이용하면 고차원의 데이터를 낮은 차원의 데이터로 바꿔줄 수 있는데, 중요한 것은 '어떻게 차원을 잘 낮추느냐'이다.  차원을 낮출 때 아무리 잘 바꾼다고 하더라도 2차원의 데이터 특징을 모두 살리면서 1차원의 데이터로 바꿀 수는 없을 것이다. 그렇다면 차선택으로, 최대한 특징을 살리며 차원을 낮춰주는 방법을 고안하기 시작했고 그중 하나가 주성분 분석이다. 주성분 분석은 데이터를 사영시켰을 때, 손실되는 정보의 양이 적은 기저(축)를 찾아서 선택한다.  주성분 분석은 대표적으로 차원 축소(Dimensionality Reduction)에 쓰이는 기법으로 머..