PIPI

그라디언트 부스팅 알고리즘(GBM, Gradient Boosting Machine)

그라디언트 부스팅머신러닝에서 부스팅은 약한 모델을 여러 번 순차적으로 적용해 강한 모델을 만들어 나가는 것을 의미한다. 그라디언트 부스팅은 Gradient(또는 잔차(Residual))를 이용해 이전 모형의 약점을 보완하는 새로운 모형을 순차적으로 적합한 뒤 이들을 선형 결합하여 얻어진 모형을 생성하는 지도 학습 알고리즘이다. GBM에서 사용되는 가장 핵심적인 방법은 gradient descent, 경사하강법이다. 경사하강법은 손실 함수(loss fuction)를 정의하고 이의 미분값이 최소가 되도록 하는 방향을 찾고 접근하는 방식이다. 그라디언트 부스팅 작동 요소그라디언트 부스팅은 세 가지 요소를 수반한다. 최적화되는 손실 함수사용된 손실 함수는 해결되는 문제의 유형에 따라 다르다. 예를 들어 ..

공부일기/Machine-Learning 2024.08.02

차원 축소 기법(Dimensionality Reduction)

차원 축소(Dimensionality Reduction 또는 Dimension Reduction)고차원 원본 데이터의 의미 있는 특성을 원래의 차원과 가깝게 유지할 수 있도록 고차원 공간에서 저차원 공간으로 데이터를 변환하는 것을 말한다. 즉, 고차원의 데이터로부터 저차원의 데이터로 변환하는 방법이다. 차원 축소를 할 때는 원본 데이터로부터 일부 정보가 손실될 수 있어 원본 데이터로부터의 정보 손실을 최소화하면서 저차원으로 얼마나 잘 재표현할 수 있느냐가 관건이다. 이론적으로 변수간 독립성 만족 시 변수의 수가 증가할수록 모델의 성능이 향상한다. 그러나 실제 상황에서는 변수간 독립성 가정 위배, 노이즈 존재 등으로 인해 변수의 수가 일정 수준 이상 증가하면 모델의 성능이 저하되는 차원의 저주에 빠진다..

공부일기/Machine-Learning 2024.08.02

Article : 생성형 AI 만난 '시리'는 어떻게 똑똑해질 수 있을까?

https://yozm.wishket.com/magazine/detail/2696/ 생성형 AI 만난 ‘시리’는 어떻게 똑똑해질 수 있을까? | 요즘IT빅테크 기업 치고는 유독 인공지능에 소극적이었던 애플의 행보가 최근 들어 심상치 않습니다. 애플은 지난 5월 앤트로픽의 클로드를 탑재한 iOS용 모바일 앱을 발표한 바 있는데요. 최근에는 자yozm.wishket.com 애플은 지난 5월 앤트로픽의 클로드를 탑재한 iOS용 모바일 앱을 발표했는데, 최근에는 자사 AI 플랫폼 '애플 인텔리전스'를 발표하며 오픈 AI의 최신 멀티모달 AI 모델 'GPT-4o'를 탑재할 계획을 밝히기도 했다. 더 나아가 애플은 올해 9월 자가 기기에 구글의 제미나이(Gemini)를 활용하기 위한 파트너십 체결에 대해서도 발표..

데일리 미션/Article 2024.08.01

모델 평가 지표

모델 평가데이터 준비, 모델 학습과 더불어 모델 성능을 측정하는 것 또한 머신러닝의 핵심단계라고 할 수 있다. 모델의 성능을 평가하는 것은 모델이 실제 환경에서 얼마나 잘 작동할지 예측하는데 중요하다. 그러므로 학습 목적에 따라 그에 맞는 적절한 평가지표를 사용해 올바른 성능 평가를 진행해야 한다. 적절한 모델 성능 평가는 모델의 개선 방향을 정립하고, 최적의 모델을 선택할 수 있다. 모델 성능 평가는 실제값과 모델에 의해 예측된 값을 비교하여 두 값의 차이(오차)를 구하는 것으로 '(실제값 - 예측값) = 0'이 되면 모델이 값을 100% 잘 맞췄다고 생각하면 된다. 하지만 예측값이 실제값과 100% 일치하는 것은 현실적으로 힘들기 때문에, 오차를 구해서 어느 정도까지 오차를 허용할지 결정하게 된다...

공부일기/Machine-Learning 2024.07.30

Article : 단순 데이터 추출은 멈추자

https://playinpap.github.io/data_extraction/ 단순 데이터 추출은 멈추자*DW/BI 업무를 주로했던 시절 경험을 토대로 데이터 추출에 대해 개인적인 경험에 대해서 정리하였습니다.…playinpap.github.io 데이터 관련 업무를 하다 보면 데이터 추출을 생각보다 많이 하게 된다. 그리고 하루 종일 쿼리만 보면서 단순히 데이터 추출을 하고 있으면 '그냥 반복 업무 아닌가, 이걸 왜 해야 하지, 나에게 아무런 도움도 안 되는 거 같아'라고 생각할 수밖에 없다. 그러나 여기서 핵심은 '단순히 데이터 추출만 한다면' 그렇다는 것이다. 단순한 데이터 추출이란 아래와 같다. 누군가 나에게 '이러한 지표 어떻게 뽑아주세요'라고 요청한 경우 그것을 그대로 실행해 데이터를 ..

데일리 미션/Article 2024.07.30

특성 선택(Feature Selection) 및 엔지니어링(Feature Engineering)

특성(Feature)특성은 데이터에서 관측된 각 변수 또는 속성을 의미한다.예측 모델링 또는 분류 작업에서 사용될 수 있으며, 예측변수, 입력변수, 독립변수 등으로 불리기도 한다. 예를 들어, 고객 분류를 위한 고객의 나이, 성별, 소득, 거주 지역 등이 특성으로 사용될 수 있다. 특성은 문맥이나 사용되는 분야에 따라 변수, 속성, 입력 변수 등 다른 형태로 변역될 수 있다. 변수 : 통계 및 머신러닝 분야에서 일반적으로 사용된다. 속성 : 데이터 세트의 특정 속성을 나타내는 데 사용된다.입력 변수 : 모델에 입력되는 데이터의 특성을 나타내는 용어다. 특성 선택(Feature Selection)특성 중 가장 유용하거나 중요한 특성을 식별하고 선택하는 프로세스다. 즉, 모델을 구성하기 위한 특징을 선..

공부일기/Machine-Learning 2024.07.29

Article : 일잘러 마케터는 'AI' 이렇게 활용합니다

https://yozm.wishket.com/magazine/detail/2636/ 일잘러 마케터는 ‘AI’ 이렇게 활용합니다 | 요즘IT2023년을 AI가 재탄생한 시점이라고 정의한다면, 2024년은 본격적인 도약기라고 볼 수 있을 것 같습니다. 최근 오픈AI와 구글은 경쟁적으로 새로운 AI 기술들을 발표하고 있는데요. 자타공인 AI 분야yozm.wishket.com 2023년을 AI가 재탄생한 시점이라고 정의한다면, 2024년은 본격적인 도약기라고 볼 수 있다.최근 오픈 AI와 구글은 경쟁적으로 새로운 AI 기술들을 발표하고 있는데, 자타공인 AI 분야에서 가장 앞서 나가는 오픈 AI는 프롬프트만 입력하면 영상을 만들어주는 Sora나, 로봇과 AI 기술을 연계한 Figure, 그리고 실시간으로 음..

데일리 미션/Article 2024.07.29

클라우드 알아보기

클라우드란광대한 네트워크를 통하여 접근할 수 있는 가상화된 서버와 서버에서 작동하는 프로그램과 데이터베이스를 제공하는 IT 환경을 의미한다. 클라우드를 이용하면 필요한 컴퓨팅 자원을 인터넷으로 쉽게 이용할 수 있다. 대표적인 예시로, 네이버 MYBOX를 떠올릴 수 있다.MYBOX를 통해, USB나 외장하드처럼 별도의 물리적인 장비 구입 없이도 개인의 데이터를 편리하게 보관할 수 있는 것이다. 이런 클라우드 서비스가 개인의 저장공간뿐만 아니라 기업의 서비스에도 활용되고 있다. 클라우드, 클라우드 컴퓨팅, 클라우드 서비스의 차이클라우드 개념적인 측면으로는 인터넷을 통한 컴퓨팅 자원의 제공을 의미한다. 클라우드 컴퓨팅클라우드를 이용해 컴퓨팅 자원을 사용하는 기술적인 방법이다. 이는 서버, 스토리지, 네트워..

데일리 미션/미션 2024.07.28

과적합(Overfitting)과 정규화(Regularization)

과적합 집값을 선형 회귀로 표현한 그래프를 통해 과소적합과 과적합을 설명하고자 한다. 그림의 왼쪽 그래프는 과소적합(Underfitting)을 의미한다.그래프에 사용되는 Feature(특징)이 1개뿐인데, 매개변수 2개를 사용해 직선 형태로 데이터를 억지로 모델링하려 하니 알고리즘이 강한 선입견을 가지게 되어 데이터의 분포가 '집의 크기가 커져도 집값이 크게 변하지 않는 평탄한 부분'에 대한 예측을 잘하지 못하게 된다.이런 과소적합을 다른 말로 표현하면, 모델이 높은 편향(Bias)을 가지고 있다고 할 수 있다.편향은 어떤 것을 예측할 때 특징의 영향을 받지 않는 값인데 이 편향 수치가 높으면 특징에 관계없이 엉뚱한 예측을 하게 된다. 주로 모델이 단순하거나, 학습 반복(Iteration) 횟수가 적은 ..

공부일기/Machine-Learning 2024.07.28

Article : MS발 IT 대란, 한국은 왜 괜찮을까?

https://yozm.wishket.com/magazine/detail/2685/ MS발 IT 대란, 한국은 왜 괜찮을까? | 요즘IT지난주 IT 업계는 마이크로소프트발(혹은 크라우드스트라이크발) IT 대란 소식으로 정신이 없었습니다. 특히 항공사 시스템이 다운되어 항공편이 취소되었다거나, 증권거래소를 비롯한 금융사yozm.wishket.com 무슨 일이래?이번 사태를 이해하기 위해서는 EDR(Endpoint Detection and Response)이라는 개념부터 알아야 한다.EDR이란, PC와 스마트폰 단말기와 같은 엔드포인트 디바이스에서 발생할 수 있는 사이버 위협을 감지하고 대응하는 기술을 말한다. 알약과 같은 안티바이러스 솔루션보다는 한단계 진화한 개념으로 알려지지 않은 악성코드에도 대응할 ..

데일리 미션/Article 2024.07.26

PIPI

전체 글 148

티스토리툴바