Minwoo Dev.

[AI] AI 대회 진행방식, 참고사항 본문

AI

[AI] AI 대회 진행방식, 참고사항

itisminu 2024. 9. 7. 13:48
728x90
반응형
SMALL

AI 경진대회가 처음이라면 어떠한 형식으로 AI 모델 제작이 진행되는지 잘 모를 것이다.

 

나도 이런 과정들에 대한 지식이 아무것도 없었기에 많은 혼란을 겪어 이번에 정리해두기로 했다.

 

 

 

 

 

AI 모델 제작 과정

  • 데이터 전처리
  • 피처 선택
  • 베이스라인 모델 생성
  • 검증 및 성능 향상

 

큰 틀에서 보자면 저 4가지가 전부이다.

 

이제 각 과정에 대한 자세한 내용을 기술하겠다.

 

 

데이터 전처리

데이터 전처리는 대회에서 제공한 데이터에서 결측값(NaN)을 제거하고, 특정 값들에 대해 인코딩을 통해 값을 정리하는 과정이다.

  • 결측치 제거
  • 이상치 처리
  • 중복 제거

위와 같은 작업들을 데이터 전처리 과정에서 수행한다.

 

 

 

 

피처 선택(EDA를 통한)

EDA는 탐색적 데이터 분석을 의미한다.

즉, 각 데이터들을 분석해서 우리가 원하는 목표에 유용한 피처(데이터프레임에서 columns를 의미)를 찾는 것이다

  • 도메인 지식을 활용 : 해당 공정에 대한 지식을 가지고 있다면 해당 지식으로 유용한 정보들을 찾아낼 수 있음
  • 데이터 시각화를 활용 : 데이터를 그래프를 통해 시각화하여 유용한 값인지 판단하여 찾아낼 수 있음
  • 딥러닝 모델을 사용 : 상관관계, 분산 등을 사용해서 딥러닝 모델이 피처를 선택하도록 할 수 있음

 

 

베이스라인 모델 생성

베이스라인 모델은 말 그대로 아무것도 손대지 않고 모델을 가져와 우리가 처리한 데이터로 학습시킨 상태를 의미한다.

우리가 해결해야 할 문제에 따라서 사용할 수 있는 모델들이 달라지며, 주로 분류(Classification), 회귀(Regression), 군집화(Clustering)과 같은 문제로 나누어 모델을 선정하게 된다.

ChatGPT를 적극적으로 활용하여 물어보자!

 

 

 

검증 및 성능 향상

대회에서 주어진 검증 방식이 있을 것이다. 해당 방식으로 코드의 마지막 부분에 검증하는 코드를 작성하고, 그 결과에 따라 성능을 비교해보면 된다.

성능이 좋지 않을 경우, 성능을 향상시키는 여러 방법은 아래와 같다.

  • 베이스라인 모델의 재선정 : 모델마다 성능이 차이가 있다.
  • 피처의 재선택 : 피처가 AI모델 성능의 70%를 좌우한다 해도 과언이 아니다.
  • 피처 엔지니어링 : 피처들을 조합하여 새로운 피처를 만드는 것
  • 하이퍼파라미터 최적화 : AI 모델 학습 과정에 필요한 하이퍼파라미터의 값을 최적의 값으로 설정한다. (Baysian 최적화, optuna 등등)
  • 앙상블 : AI 모델을 여러 개 사용하는 방식, 대체로 성능이 더 높아진다.
  • 정규화 : L1, L2 정규화를 통해 과적합을 방지하고,  성능을 향상시킬 수 있다.

 

 

 

AI 대회를 처음 접하는 분들이 보고 참고하면 좋을 거 같다. 

대략적인 흐름이니 자세한 건 더 찾아보길 바란다.

728x90
반응형
LIST