<Vertical Offset을 이용한 선형회귀 / Linear fitting>
데이터를 1차식으로 fitting하는 것은 1차식 Polynomial fitting의 일종이기 때문에 기존의 모듈을 그대로 사용하면 됩니다. 다만, perpendicular offset을 이용하는 경우와 비교하고, 또한 많이 사용되는 fitting이라 별도의 모듈을 만들어두는 것도 좋을 듯 합니다.
Vertical offset은 실측된 Y값과 예측값 Y(hat Y)의 차이이고, 이 값들의 제곱합이 최소가 되도록 직선식을 찾아내는 것입니다. 직선식을 y=ax+b라고 할 때, 아래와 같은 방식으로 계산할 수 있습니다.
만약 y 절편 b를 0으로 근사식을 만들려고 한다면, 아래와 같이 b=0으로 설정하면 되고, 기울기 a만 구할 수 있습니다.
근사값에 대하여, 신뢰수준을 구할려면 결정계수(R-Sq값 또는 R-Sq.adj)를 구할 수도 있습니다. 즉, Y값의 변화를 X변수가 설명할 수 있는 수준을 의미하며, 전체 Y의 분산값 중 오차의 분산값이 차지하는 비중을 뺀 나머지, 즉, X값의 변화로부터 Y값의 변화를 설명할 수 있는 비중을 의미합니다.
위의 왼쪽 그림과 같이, 각 데이터와 근사값의 차를 잔차(Residual)라고 하고, 모든 점에서의 잔차가 0에 근접할수록 Y값의 변화는 X값의 변화만으로 완벽하게 설명이 가능합니다. 그러나, 잔차의 크기가 커질수록, Y값의 변화는 X값의 변화만으로 설명할 수 없고, 다른 독립변수 X', X'' 등의 영향을 받은 것이라거나, 측정의 한계로 인한 오차가 포함되어 있다고 판단할 수 있습니다. 따라서, 잔차가 갖는 분산이 전체 Y값이 갖는 분산보다 충분히 작다면 R-Sq값이 1에 근접하고, Y값의 변화가 X 변수에 전혀 영향을 받지 않는다면 0에 근접하게 됩니다.
댓글 없음:
댓글 쓰기
의견이나 질문이 있으신 분은 언제든지 댓글을 달아주세요~