Minwoo Dev.

[Machine Learning] 다중 선형 회귀(Multiple Linear Regression) 본문

AI

[Machine Learning] 다중 선형 회귀(Multiple Linear Regression)

itisminu 2024. 11. 2. 18:54
728x90
반응형
SMALL

다중 선형 회귀(Multiple Linear Regression)

 

다중 선형 회귀는 입력값이 1개가 아니라 2개 이상한 경우에 사용된다.

대부분의 경우에 2개 이상의 값을 사용하여 값을 예측하기 때문에 다중 선형회귀는 많이 사용되는 회귀 방법이다.

 

예를 들어, 스키장 방문객의 수를 Y로 두고, X를 평균 기온, 적설량이라고 하자.

 

X가 두 개이므로 식이 아래처럼 나타날 것이다.

 

이로써 우리는 여러 입력값(X)들에 대한 회귀식을 만들어낼 수 있게된다.

 

 

하지만 어디까지나 "선형" 회귀기 때문에 그려지는 회귀 모델의 그래프 모양은 선형이 된다.

선형으로 나타난 회귀 그래프

결론적으로, 하나의 종속변수(X)가 아니라 여러 개의 종속변수(X i)에 대한 독립변수(Y)의 상관관계를 분석하기 위해 우리는 다중 선형 회귀를 사용하게 된다.

 

 

 

여기서 생각해보아야 할 것이 있다.

여러 개의 변수가 들어가는데, 그 변수들이 다 비슷한 변수들이라면 과연 여러 개의 데이터를 넣는 게 의미가 있을까 ?

 

변수의 추세가 비슷한 변수가 여러 개 들어간다면 굳이 여러개를 사용하기보다 하나만 사용하여 더 효율적인 모델을 만들 수 있을 것이다.

 

우리는 다중 선형 회귀 모델에서 "상관관계"를 따져봐야 한다.

 

상관관계

두 변수가 있을 때, 한가지 변수가 변할 때 나머지 한 변수도 변한다면 이 변수는 상관관계가 있다고 말한다.

 

크게 양의 상관관계, 음의 상관관계로 나뉜다.

 

양의 상관관계

변수 A, B 가 있다고 할 때, A가 커지면 B도 비례하게 커지는 관계

ex) 키, 몸무게 : 일반적으로 키가 커지면 몸무게도 높아진다.

 

음의 상관관계

변수 A, B가 있다고 할 때, A가 커지면 B는 반비례하여 작아지는 관계

ex) 자동차 주행거리와 연료 잔량 : 자동차 주행거리가 증가할수록 연료 잔량은 줄어든다.

 

 

이렇게 상관관계가 높은 두 변수를 함께 회귀 모델에 포함시키게 되면, 해당 모델은 지나치게 데이터에 적합되는 과적합(overfitting) 현상이 발생하게 된다.

 

 

따라서 다중 회귀 모델에서는 상관관계를 분석하여 변수를 잘 골라내 모델 학습에 사용해야 한다.

728x90
반응형
LIST