목록AI (6)
Minwoo Dev.
F1 score분류 모델에서 사용되는 머신러닝 평가지표. F1 score가 무엇인지 알기 위해서 우리는 우선 Accuracy(정확도), Precision(정밀도), Recall(재현율) 에 대해 알아야 한다. 우리가 예측한 결과가 양성일수도 있고 음성일수도 있다.그리고 해당 정답이 양성이거나 음성일 것이다. 우리가 양성(Positive)라고 예측하고 제품의 정답이 양성(Positive)라면, 해당 결과는 True Positive(TP)이다.우리가 양성(Positive)라고 예측했지만 제품이 음성(Negative)라면, 해당 결과는 False Positive(FP)이다.똑같은 방식으로 우리가 음성(Negative)라고 예측했지만 제품이 양성(Positive)라면 해당 결과는 False Negativ..
AI 경진대회가 처음이라면 어떠한 형식으로 AI 모델 제작이 진행되는지 잘 모를 것이다. 나도 이런 과정들에 대한 지식이 아무것도 없었기에 많은 혼란을 겪어 이번에 정리해두기로 했다. AI 모델 제작 과정데이터 전처리피처 선택베이스라인 모델 생성검증 및 성능 향상 큰 틀에서 보자면 저 4가지가 전부이다. 이제 각 과정에 대한 자세한 내용을 기술하겠다. 데이터 전처리데이터 전처리는 대회에서 제공한 데이터에서 결측값(NaN)을 제거하고, 특정 값들에 대해 인코딩을 통해 값을 정리하는 과정이다.결측치 제거이상치 처리중복 제거위와 같은 작업들을 데이터 전처리 과정에서 수행한다. 피처 선택(EDA를 통한)EDA는 탐색적 데이터 분석을 의미한다.즉, 각 데이터들을 분석해서 우리가 원하는 목표에 유용한..
Reinforcement Learning(강화학습) 학습을 하는 과정에서 보상(reward)를 지급하며 보상(reward)를 더 많이 받는 방향으로 성장하게끔 학습하는 방식이다.환경과의 상호 작용을 통해 학습한다. 강화학습은 더 많은 보상(reward)를 얻는 방식으로 학습을 계속한다. 강화학습 사진 출처 - https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.kdnuggets.com%2F2022%2F05%2Freinforcement-learning-newbies.html&psig=AOvVaw0VSLKpDxZ3q8VW7L3gevPH&ust=1722145371705000&source=images&cd=vfe&opi=8997844..
Semi-Supervised Learnin(준지도학습) 많은 데이터에 Label을 붙이는 일은 쉽지 않다.데이터에 알맞은 Label이 붙어있지 않으면 좋지 않은 질의 데이터가 되는 것이다. 이런 데이터 라벨링을 사람이 하고 있는 현재에 라벨링이 제대로 된 데이터의 양은 많지 않다.이런 상황을 고려하여 만들어진 게 semi-Supervised Learning(준지도)이다 많은 양의 Label 없는 데이터적은 양의 Label 있는 데이터 Semi-Supervised Learning 의 가정(참고 : ( x, y ) 에서 x는 데이터, y는 label이다.) The smoothness assumption확률 밀도가 높은 지역에서 x1, x2가 가깝다면 연관된 레이블인 y1과 y2도 가까워야 한다.labe..
UnSupervised Learning(비지도 학습) 입력으로 들어가는 데이터에 label이 없다.즉, 데이터에 예측값이 맞는지 확인할 정답값이 없다는 것스스로 특징을 분석하여 구분하기에 비지도 학습 장점레이블이 필요하지 않다. (양질의 데이터가 많지 않기때문에 굉장히 큰 이점)레이블이 없는 데이터들을 대량으로 활용할 수 있다. 단점레이블이 없기 때문에 평가를 할 때 명확하게 평가하지 못한다.정확도를 크게 기대하면 안된다. 비지도 학습의 종류에는 clustering(군집화), 차원축소, 이상치 및 특이치 감지 등이있다. Clustering(군집화) 비슷한 특징을 가진 데이터를 그룹으로 나누는 것을 Clustering(군집화)이라고 한다. 차원 축소(Dimentionality Reduction)..
Supervised Learning(지도 학습) 입력 데이터에 Label, 정답이 함께 포함되어 있음쉽게 말해서, 연습문제와 정답이 데이터셋으로 입력되는 형태 장점정답이 같이 데이터셋으로 주어지기 때문에 보다 정확한 AI 모델을 구사한다.명확한 목표와 성능 지표다양한 분야에서 높은 정확도예측 결과에 대한 해석의 명확성 Supervised Learning(지도학습)은 주로 Regression(회귀) 문제와 Classification(분류) 문제에 사용된다. Regresstion(회귀) 회귀 문제란 위 그림처럼 주어진 데이터들을 보고 가장 적절한 그래프를 찾아내는 것이라 생각하면 쉽다. Classification(분류) 분류는 주어진 데이터들의 분포를 보고 두 개 혹은 두 개 이상의 클래스(집..