반응형

학교에서 1차 함수를 배울 때 기울기와 절편이 주어지면 이를 만족하는 x와 y를 찾을 수 있었다.

아래의 예시를 통해 살펴보자.

ex: 기울기가 7이고 절편이 4인 1차 함수 y=7x+4가 있을 때 x가 10이면 y는 얼마인가?

y = 7*7 + 4 = 74

일반적으로 1차 함수 문제에서는 이런 식으로 x에 따른 y의 값에 초점을 맞춘다. 하지만 선형회귀는 이와 반대로 x, y가 주어졌을 때 기울기(slope)와 절편(intercept)을 찾는 데 집중한다.

선형 회귀 분석(Linear regression)

선형 회귀 분석: 주어진 데이터를 가장 잘 설명하는 직선 하나를 찾는 것 ~ 주로 예측 모델에 사용

  • 단순선형회귀(simple linear regression): 하나에 독립변수에 대하여 선형회귀분석 y=wx+b 
    • w[weight]: 가중치(기울기: slope)
    • b[bias]: 편차(절편: intercept)

https://sixsigmadsi.com/glossary/simple-linear-regression/

 

예를 통해 선형 회귀의 문제 해결 과정을 이해해보자.

만약 x가 3일 때 y는 25, x가 4일 때 y는 32, x가 5일 때 y는 39라면 기울기와 절편의 값으로 적절한 것은 무엇일까?

1) 기울기=6, 절편=4

2) 기울기=7, 절편=5

3) 기울기=7, 절편=4

 

잠깐 고민해보면 정답은 3번인 것을 알 수 있다.

선형 회귀는 위 문제를 아래와 같이 해결한다.

점은 x, y의 값을 (3, 25), (4, 32), (5, 39)와 같이 표현한 것이고 직선은 y=4x를 표현한 것이다.

그림을 보면 기울기를 조금 더 올려야 할 것 같다.

기울기를 4에서 6으로 올리니 직선이 점들과 가까워졌다. 기울기를 6에서 7로 올려보자.

거의 기울기는 일치하는 것을 확인할 수 있다.

이제 절편을 4로 해보자.

최종적으로 직선이 각 점을 잘 표현하는 것을 확인할 수 있다.

위 과정에서 만든 1차 함수들을 '선형 회귀로 만든 모델'이라고 하고 마지막에 만들어진 1차 함수가 바로 '최적의 선형 회귀 모델'이다.

 

  • 다중선형회귀(multiple linear regression): 독립변수가 여러 개인 선형회귀분석

https://corporatefinanceinstitute.com/resources/data-science/multiple-linear-regression/