본문 바로가기
데이터 분석/통계

통계) 선형회귀의 평가지표 - MSE, R-square

by engwoon 2025. 1. 14.

목차

     

    MSE (Mean Squared Error)

    정의

    • 모델이 예측한 값과 실제 값 간의 `오차 제곱의 평균`을 계산한 값
    • 수식:

    • `에러` = `실제 데이터 - 예측 데이터`
    • 에러 제곱해서 모두 양수로 만든 뒤, 합치기
    • 데이터(n)만큼 나누기

     

    특징

    • MSE 값이 작을수록 모델의 예측이 실제 값과 더 가까움을 의미한다.
      • 어떤 모델을 만들던 MSE 지표를 최소화하는 방향으로 진행하고 평가해야함.
    • 제곱을 하기 때문에 오차의 크기가 큰 데이터 포인트에 더 큰 페널티를 부여한다.
    • 값의 단위가 원래 데이터의 단위의 제곱이므로 해석 시 주의가 필요함
    • 데이터의 단위가 중요하지 않을 때, 모델 비교 지표로 활용된다.

    R-square

    정의

    • 모델이 데이터를 얼마나 잘 설명하는지 `비율`로 나타낸 지표
    • '선형회귀'만의 평가지표
    • 수식:

     

    특징

    • `R² : 모델이 데이터를 완벽히 설명
    • `R² = 0` : 모델이 데이터를 전혀 설명하지 못함 (예: 평균값만 사용하는 경우)
    • `R² < 0` : 모델이 실제 값의 평균보다도 나쁜 성능을 보임.
      • -> R² 값이 0.8이라면, 모델이 데이터의 80%를 설명한다고 해석한다.
    • 모델의 적합도를 직관적으로 평가하는 데 유용하다.
      •  R²가 높은 것이 항상 좋은 것은 아님. -> 이건 과적합

    차이점

    지표 MSE R-square
    목적 오차의 절대적인 크기 평가 모델이 데이터를 얼마나 설명하는지 비율로 평가
    해석 `작을수록` 모델의 성능이 좋음 `1에 가까울수록` 모델의 성능이 좋음
    단위 종속 변수의 단위 제곱 무단위 (비율)
    값의 범위 [0,) (,1]