Machine Learning/Algorithm

Linear Regression (선형회귀모델) - 1 (개요, 가정)

고슴군 2019. 10. 13. 21:52

변수 사이의 관계

  • X변수(원인)과 Y변수(결과) 사이의 관계
    1. 확정적 관계
    2. 확률적 관계
  • 확정적 관계 : X변수만으로 Y를 100% 표현 (오차항 없음)
    $$Y=f(X)$$
    예) 힘 = f(질량, 가속도), 주행거리 = f(속도, 시간)
  • 확률적 관계 : X변수와 오차항이 Y를 표현 (오차항 있음)
    $$Y=f(X)+\varepsilon$$
    예) 반도체 수율 = f(설비 파라미터들의 상태, 온도, 습도) + $\varepsilon$
        포도주 가격 = f(강우량, 온도, 포도품종) + $\varepsilon$
        위조카드 여부 = f(사용시간, 사용액, 사용장소) + $\varepsilon$
  • 대부분의 머신러닝, 데이터 분석이 설명하는 관계는 '확률적 관계'인 경우가 많다.

선형회귀모델

  • 선형회귀모델 : 출력변수 Y를 입력변수 X들의 선형결합으로 표현한 모델
    - 선형 결합 : 변수들을 (상수 배와) 더하기 빼기를 통해 결합

  • X변수 한 개가 Y를 표현하는 경우 :  $Y=\beta_{0}+\beta_{1}X$ (직선식)

선형회귀모델링의 목적

$$Y=\beta_{0}+\beta_{1}X$$

 

1. X변수와 Y변수 사이의 관계를 수치로 설명 (예. $\beta_{1}=2$ 이면 X가 1 증가할때 Y가 2 증가하고,
                                                               $\beta_{1}=0$이면 X에 상관없이 Y가 $\beta_{0}$값으로 결정된다)

2. 미래에 반응변수(Y) 값을 예측

 

선형회귀모델의 분류

X 변수의 수, X변수와 Y변수의 관계의 선형성 여부에 따라 구분

선형회귀 모델

선형회귀 모델의 가정

가정이 성립되지 않으면, 선형회귀 모델을 만들 수는 있지만, 만든 모델의 신빙성이 떨어진다.

 

 

 

$y_{i}$ 는 이 정규분포로부터 나온 점들이다.

선형회귀 모델

 

 

[참조] 김성범 교수님의 https://www.youtube.com/watch?v=4Yo297HQyAk 를 요약한 것 입니다.

반응형