반응형

단순선형회귀분석(simple regression analysis)

인공지능을 학습하며, https://psleon.tistory.com/64 이 포스팅에서 선형회귀분석에 다룬 적이 있는데 더 자세히 다뤄보고자 한다.

 

회귀분석은 영국의 유전학자인 프랜시스 골턴이 제안한 방법으로, 독립변수에 대한 종속변수의 관계를 수학적인 함수식을 사용해 규명하고, 규명된 함수식을 이용해 독립변수의 변화로부터 종속변수의 변화를 예측할 경우에 사용되는 통계적인 방법이다.

독립변수와 종속변수에 대해 쉽게 설명하면 y=ax+b 라는 식이 있을 때, y가 종속변수가 되고 x가 독립변수가 된다.

회귀분석을 할 때 독립변수를 한 개만 사용하는 경우를 단순회귀분석(simple regression analysis)이라 하고, 이 경우 종속변수를 독립변수의 1차 선형함수 관계로 분석하는 것을 단순선형회귀분석(simple linear regrssion analysis)이라고 한다.

 

회귀직선의 추정

회귀분석의 첫 번째 목적은 독립변수 X의 변화에 대해 종속변수 Y의 평균적인 관계변화를 나타내는 함수식을 찾는 것이다. 이 함수식을 회귀방정식(regression equation) 또는 회귀선(regression line or curve)이라 한다.

회귀선은 모양에 따라 회귀직선(regression line)과 회귀곡선(regression curve)으로 나눠진다.

회귀직선은 독립변수 X와 종속변수 Y 사이의 관계를 일차함수로 나타낸 것이다.

위 그림과 같이 산점도(scatter plot) 상에 나타난 점 (xi, yi)들에 가장 적합한 회귀직선을 y = ax + b라 가정하자.

여기서 a와 b는 미지수이며, 측정값으로부터 추정할 회귀계수들이다. 종속변수 yi와 적합된 회귀직선 간의 차이를 오차(errors)라 한다.

산점도의 점들을 가장 잘 적합하는 회귀직선은 오차들의 제곱합이 최소가 되는 직선이다. 최소제곱법(method of least squares)의 원리를 사용하면 오차의 제곱합을 최소로 하는 미지의 회귀계수를 쉽게 구할 수 있다.

 

최소제곱법(method of least squares)

최소제곱법은 오차의 제곱합을 최소화하는 미지의 계수 a(회귀직선의 기울기 또는 회귀계수)와 b(회귀직선의 절편)를 구하는 방법이다.

회귀계수(회귀직선의 기울기): a = Sxy / (Sx)^2

회귀직선의 절편: b = y^ - bx^

 

Thus, 추정된 회귀직선

y^ = ax + b