미누에요
[AI] AI 대회 진행방식, 참고사항 본문
728x90
반응형
SMALL
AI 경진대회가 처음이라면 어떠한 형식으로 AI 모델 제작이 진행되는지 잘 모를 것이다.
나도 이런 과정들에 대한 지식이 아무것도 없었기에 많은 혼란을 겪어 이번에 정리해두기로 했다.
AI 모델 제작 과정
- 데이터 전처리
- 피처 선택
- 베이스라인 모델 생성
- 검증 및 성능 향상
큰 틀에서 보자면 저 4가지가 전부이다.
이제 각 과정에 대한 자세한 내용을 기술하겠다.
데이터 전처리
데이터 전처리는 대회에서 제공한 데이터에서 결측값(NaN)을 제거하고, 특정 값들에 대해 인코딩을 통해 값을 정리하는 과정이다.
- 결측치 제거
- 이상치 처리
- 중복 제거
위와 같은 작업들을 데이터 전처리 과정에서 수행한다.
피처 선택(EDA를 통한)
EDA는 탐색적 데이터 분석을 의미한다.
즉, 각 데이터들을 분석해서 우리가 원하는 목표에 유용한 피처(데이터프레임에서 columns를 의미)를 찾는 것이다
- 도메인 지식을 활용 : 해당 공정에 대한 지식을 가지고 있다면 해당 지식으로 유용한 정보들을 찾아낼 수 있음
- 데이터 시각화를 활용 : 데이터를 그래프를 통해 시각화하여 유용한 값인지 판단하여 찾아낼 수 있음
- 딥러닝 모델을 사용 : 상관관계, 분산 등을 사용해서 딥러닝 모델이 피처를 선택하도록 할 수 있음
베이스라인 모델 생성
베이스라인 모델은 말 그대로 아무것도 손대지 않고 모델을 가져와 우리가 처리한 데이터로 학습시킨 상태를 의미한다.
우리가 해결해야 할 문제에 따라서 사용할 수 있는 모델들이 달라지며, 주로 분류(Classification), 회귀(Regression), 군집화(Clustering)과 같은 문제로 나누어 모델을 선정하게 된다.
ChatGPT를 적극적으로 활용하여 물어보자!
검증 및 성능 향상
대회에서 주어진 검증 방식이 있을 것이다. 해당 방식으로 코드의 마지막 부분에 검증하는 코드를 작성하고, 그 결과에 따라 성능을 비교해보면 된다.
성능이 좋지 않을 경우, 성능을 향상시키는 여러 방법은 아래와 같다.
- 베이스라인 모델의 재선정 : 모델마다 성능이 차이가 있다.
- 피처의 재선택 : 피처가 AI모델 성능의 70%를 좌우한다 해도 과언이 아니다.
- 피처 엔지니어링 : 피처들을 조합하여 새로운 피처를 만드는 것
- 하이퍼파라미터 최적화 : AI 모델 학습 과정에 필요한 하이퍼파라미터의 값을 최적의 값으로 설정한다. (Baysian 최적화, optuna 등등)
- 앙상블 : AI 모델을 여러 개 사용하는 방식, 대체로 성능이 더 높아진다.
- 정규화 : L1, L2 정규화를 통해 과적합을 방지하고, 성능을 향상시킬 수 있다.
AI 대회를 처음 접하는 분들이 보고 참고하면 좋을 거 같다.
대략적인 흐름이니 자세한 건 더 찾아보길 바란다.
728x90
반응형
LIST
'AI' 카테고리의 다른 글
[Machine Learning] 회귀(Regression)란, 단순 선형회귀(Simple Linear Regression) (0) | 2024.10.27 |
---|---|
[AI] F1 score (0) | 2024.09.08 |
[Machine Learning] Reinforcement Learning(강화학습) (0) | 2024.07.27 |
[Machine Learning] Semi-Supervised Learning(준지도 학습) (0) | 2024.07.27 |
[Machine Learning] UnSupervised Learning(비지도 학습) (0) | 2024.07.27 |