IT Log

선형 회귀(Linear regression) 본문

Statistics/분석(analysis)

선형 회귀(Linear regression)

newly0513 2020. 7. 30. 14:58
728x90
반응형

선형 회귀란?

종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관 관계를 모델링하는 회귀분석 기법.

 

독립 변수 : 입력 값이나 원인

종속 변수 : 결과물이나 효과

 

 하나의 독립 변수(설명 변수)에 기반한 경우에는 단순 선형 회귀이며, 둘 이상의 독립 변수(설명 변수)에 기반한 경우에는 다중 선형 회귀라고 합니다. 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정하며, 이렇게 만들어진 회귀식을 선형 모델이라고 합니다.

 

 선형회귀의 용도는 크게 2가지로 분류됩니다. 첫 번째는 값을 예측하는 것이 목적인 경우로 선형 회귀를 사용해 데이터에 적합한 예측 모형을 개발하고 개발한 선형 회귀식을 사용해 y가 없는 x값에 대해 y를 예측하기 위해 사용합니다. 두 번째는 종속 변수 y와 종속 변수와 연관된 독립 변수가 존재하는 경우, 선형 회귀 분석을 사용해 x와 y의 관계를 정량화하며, x는 y와 전혀 관계가 없을수도 있거나 추가적인 정보를 제공하는 변수일 수도 있습니다.

 

 선형 회귀 모델은 일반적으로 최소제곱법을 사용하여 만들며, 다른 방법으로도 선형 회귀 모델을 만들수 있습니다.

 

최소제곱법

어떤 계의 해방정식을 근사적으로 구하는 방법으로, 근사적으로 구하려는 해와 실제 해의 오차의 제곱의 합이 최소가 되는 해를 구하는 방법으로 값을 정확하게 측정할 수 없는 경우에 유용하게 사용될 수 있으며, 특히 그 계의 방정식이 어떤 형태인지를 알고 있을 때 방정식의 상수 값들을 추정하는데 사용합니다.

 

 여기에서 b0와 b1의 값을 구하면 x값을 대입했을 때 y의 값을 추정할 수 있게 됩니다. b0와 b1을 구하는 식은 다음과 같습니다.

 

 그렇다면, 아래 그림을 예시로 최소제곱법을 이용하여 선형 회귀의 용도인 x에 대한 y값 추정을 해보겠습니다. 해당 예시는 이미 선이 그려져 있으므로, b0는 5, b1는 6분의1이라고 가정해보겠습니다. 파란점들은 실제로 관측된 x에대한 y의 값입니다. 빨간선은 y=1/6x+5이므로, 아직 관찰되지 않은 x의 값이 6이라고 한다면 x에 대한 y의 추정값은 5라고 추정할 수 있습니다. 

단순 선형 회귀 예시

 

결정계수

독립변수로부터 예측한 종속 변수의 변화의 비율

 

 결정계수의 값은 0에서 1사이에 있으며, 종속변수와 독립변수 사이에 상관관계가 높을수록 1에 가까워집니다. 따라서, 결정계수가 0에 가까운 값을 가지는 회귀모형은 유용성이 낮은 반면, 값이 1에 가까운 값을 가지는 회귀모형의 유용성이 높다고 할 수 있습니다. 결정계수의 값이 0과 1사이를 벗어나는 값이 발생할 수 있는데, 이런 경우에는 잘못된 모델을 선택했거나 실수로 무의미한 조건을 적용했을 때 발생합니다. 

 

 

F-Test

검정 통계량이 귀무 가설 하에서 F-분포를 갖는 통계 검정

 

 데이터가 샘플링된 모집단에 가장 적합한 모델을 식별하기 위해 데이터 세트에 맞는 통계  모델을 비교할 때 가장 자주 사용됩니다. 정확한 F-Test는 주로 모형이 최소제곱을 사용하여 데이터에 적합할 떄 발생합니다. 

 

F분포 : 통계학에서 사용되는 연속 확률 분포로, F-Test와 분산분석 등에서 주로 사용

728x90
반응형

'Statistics > 분석(analysis)' 카테고리의 다른 글

주성분 분석 (Principal Component Analysis)  (0) 2020.08.25
Comments