목록2024/11 (6)
Minwoo Dev.
회귀 알고리즘 평가지표RSS(Residual Sum of Squares) : 댠순 오차MSE(Mean Square Error), MAE(Mean Absolute Error) : 절대적인 크기R^2(결정계수) : 크기에 의존적이지 않음회귀 알고리즘은 얼마나 우리가 원하는 만큼 모델이 데이터를 잘 나타내는지를 평가한다. 그 중 많이 사용되는 4가지에 대해서 알아보겠다. RSS(Residual Sum of Squares)RSS는 실제 값과 예측 값의 단순 오차 제곱 합을 의미한다.RSS는 가장 간단한 방법으로 다른 방법들보다 직관적인 해석이 가능하다.하지만 오차를 그대로 이용하기 때문에 크기에 의존적이다.MSE(Mean Square Error)우리말로 번역하면 평균 제곱 오차이다. MSE는 실제값과 예측값의..
정규화(Normalization)정규화란 값의 범위를 0부터 1 사이의 값으로 바꾸는 것을 의미한다.예를 들어 키 데이터가 있고, 몸무게 데이터가 있다고 하자.이름키몸무게Amy16048Clark18377Jay17772Bob16980 컴퓨터는 수치형 값을 인식할 때 크기에 따라 인식한다. 현재 데이터에서 키는 160~183까지의 범위를 가지고, 몸무게는 48~80의 값을 가진다.기본적으로 컴퓨터는 키가 더 큰 숫자들을 가지고 있기 때문에 더 중요하다고 판단하게 된다.하지만 키와 몸무게 모두 중요한 데이터이다. 이럴 때, 우리는 키 데이터끼리 정규화하여 0~1 사이의 값으로 바꾸고, 몸무게 데이터끼리 정규화하여 0~1사이의 값으로 바꾸게된다.그럼 함께 봤을때도 어떤 데이터가 큰지 보다 객관적으로 평가할 수 ..
교차 검증(Cross Validation)모델이 잘 적합되어 실제 데이터와 유사한 예측 결과를 얻을 수 있도록 해주는 방법 중 하나.과적합(Overfitting)을 방지하는 방법 중 하나로 사용된다. 이 교차 검증 방법에는 여러가지가 존재하는데, 그 중 K-Fold Cross Validation에 대해서 알아보겠다. K-Fold 교차 검증(K-Fold Cross Validation)K-Fold 교차검증은 모델이 잘 적합되었는지 알아보기 위해 훈련용 데이터와 테스트 데이터. 검증 데이터로 나누어 성능을 평가한다. 데이터를 K등분 하여 그중 하나를 검증용(Test)로 사용하고, 나머지를 훈련용(Train)으로 사용하게 되는 것이다. 이 K개의 모델 성능을 평균매겨 최종 모델 성능을 산출한다. 장점데이..
과적합(Overfitting) 과적합은 모델이 데이터에 지나치게 적합된 상태를 의미한다. 우리는 학습 데이터를 가지고 모델을 학습시킨다.학습된 모델이 학습을 잘 할수록 좋을 것이라 생각하겠지만 실제로는 그렇지 않다. 위 사진에서 왼쪽 그림은 데이터들에 대해 과하게 학습된 상태이다. 우리는 항상 같은 데이터로 결과를 구하지 않는다.기존에 만들 때 사용한 데이터는 학습에만 사용되고, 실제로 해당 모델을 사용할 때에는 다른 데이터가 입력으로 들어가게된다. 따라서 데이터가 과적합되었다는 것은 학습 데이터에 모델이 과하게 적합되었다는 것으로, 새로운 데이터를 사용한다면 성능이 좋지 않음을 의미한다. 위 사진을 보면 좀 더 이해가 쉬울 것이다. 이 사진에서는 Underfit, Optimal, Overfit에 대해..
우린 선형 회귀에 대해서 알아보았다. 그럼 이런 의문이 들 수 있다. 과연 모든 데이터가 회귀 모델을 만들 때 선형으로 나타낼 수 있을까 ?아마 이런 질문의 답은 보통 아니다. 라는 걸 알고 있을 거다. 데이터가 모두 선형으로 그래프를 그려 적합하게 데이터들을 나타낸다면 정말 좋겠지만, 현실 세계의 데이터들은 절대 그렇게 호락호락하지 않다. 위 그림에서, 선형으로 데이터가 잘 나타내졌는가 ? 위 그래프에서는 선형 회귀 모델만으로는 데이터를 잘 나타내기 어렵다.따라서 우리는 곡선 형태로도 회귀 모델을 만들어낼 수 있어야 한다. 다항 회귀(Polynomial Regression) 다항 회귀는 선형이 아니라 곡선 형태의 회귀 모델이다.식은 곡선 형태기 때문에 차수가 높아진다. 이러한 다항 회귀는 선형 회귀만..
다중 선형 회귀(Multiple Linear Regression) 다중 선형 회귀는 입력값이 1개가 아니라 2개 이상한 경우에 사용된다.대부분의 경우에 2개 이상의 값을 사용하여 값을 예측하기 때문에 다중 선형회귀는 많이 사용되는 회귀 방법이다. 예를 들어, 스키장 방문객의 수를 Y로 두고, X를 평균 기온, 적설량이라고 하자. X가 두 개이므로 식이 아래처럼 나타날 것이다. 이로써 우리는 여러 입력값(X)들에 대한 회귀식을 만들어낼 수 있게된다. 하지만 어디까지나 "선형" 회귀기 때문에 그려지는 회귀 모델의 그래프 모양은 선형이 된다.결론적으로, 하나의 종속변수(X)가 아니라 여러 개의 종속변수(X i)에 대한 독립변수(Y)의 상관관계를 분석하기 위해 우리는 다중 선형 회귀를 사용하게 된다. 여기..