Minwoo Dev.

[Machine Learning] 다항 회귀(Polynomial Regression) 본문

AI

[Machine Learning] 다항 회귀(Polynomial Regression)

itisminu 2024. 11. 2. 19:13
728x90
반응형
SMALL

우린 선형 회귀에 대해서 알아보았다. 

그럼 이런 의문이 들 수 있다.

 

과연 모든 데이터가 회귀 모델을 만들 때 선형으로 나타낼 수 있을까 ?

아마 이런 질문의 답은 보통 아니다. 라는 걸 알고 있을 거다.

 

데이터가 모두 선형으로 그래프를 그려 적합하게 데이터들을 나타낸다면 정말 좋겠지만, 현실 세계의 데이터들은 절대 그렇게 호락호락하지 않다.

선형 회귀(Linear Regression)

 

위 그림에서, 선형으로 데이터가 잘 나타내졌는가 ?

 

위 그래프에서는 선형 회귀 모델만으로는 데이터를 잘 나타내기 어렵다.

따라서 우리는 곡선 형태로도 회귀 모델을 만들어낼 수 있어야 한다.

 

 

다항 회귀(Polynomial Regression)

 

다항 회귀(Polynomial Regression)

다항 회귀는 선형이 아니라 곡선 형태의 회귀 모델이다.

식은 곡선 형태기 때문에 차수가 높아진다.

 

이러한 다항 회귀는 선형 회귀만으로는 정확하게 나타내기 힘든 경우에 사용하게 된다.

조금 더 복잡한 데이터의 분포를 가지고 있는 경우에 다항 회귀를 사용하면 좀 더 좋은 성능을 기대할 수 있다.

 

 

 

 


다항 회귀의 주의점

하지만 이 다항 회귀도 마냥 사용하면 무조건적으로 좋은 건 아니다!!!

 

이 다항 회귀는 위 식에서 보이듯 식의 차수가 높다.

그 말은 데이터에 대해 완전 딱 맞는 곡선이 그려질수도 있다는 말이다.

선형 회귀(Linear Regression)로 학습한 결과

곡선 형태로 되어있는 데이터를 선형 회귀(Linear Regression)으로 만들면 위처럼 조금 많이 삐져나온다.

 

그럼, 다항 회귀(Polynomial Regression)을 사용하면 어떨까 ?

다항 회귀(Poly nomial Regression)를 사용

데이터에 완전 착 달라붙듯이 밀착되었다.

이러한 형태가 좋은 모델이라 생각하기 쉽지만 이렇게 딱 붙어있는 형태를 우리는 과적합(overfitting)이라 표현한다.

 

우리는 가지고 있는 데이터로 학습시킨 뒤에, 만들어진 모델을 가지고 새로운 데이터를 적용하며 결과를 산출해낼 것이다.

그런데 위 과적합된 모델로 다른 데이터를 학습시킨다면 성능이 낮을 것이다.

왜냐, 과적합된 모델은 우리가 학습시킬 때 사용한 데이터에 지나치게 맞추어져 있는 상태인 것이기 때문이다.

 

새로운 데이터를 가지고 모델을 사용하게 될텐데, 새로운 데이터에 대한 특징들은 잘 파악하지 못해 성능이 낮아지기 마련이다.

 

따라서 우리는 모델을 만들 때 과적합이 나지 않도록 조심해야한다.

 


이렇듯 우리는 다항 회귀를 사용하여 선형으로 나타내기 힘든 데이터를 비선형으로 나타낼 수 있다.

그리고 우리는 이러한 다항 회귀(Polynomial Regression)을 사용할 때 차수가 커져 지나치게 데이터에 과적합되지 않도록 유의해야 한다.

728x90
반응형
LIST