본문

핸즈온 머신러닝 7일차 "목표 설정 & 성능 측정 지표"


2.2.1 문제정의

비즈니스의 목적 정의가 가장 중요!

모델 출력이 여러가지 다른 신호와 함께 다른 머신러닝 시스템에 입력으로 사용된다고 하면, 뒤따르는 시스템이 해당지역에 투자할 가치가 있는지 결정.(파이프라인)

이 결정이 (목적인) 수익에 직결되기 때문에 선행 컴포넌트에서 예측하는 값이 매우 중요.

이 때 적용하는 머신러닝 방법은?

레이블 있는 훈련세트 = 지도학습

값예측 = 회귀(다변량 회귀)

w) 파이프라인

데이터 처리 컴포넌트가 연속되어 있는 것을 데이터 파이프라인이라고 합니다.

(데이터로 시스템을 돌린 결과를 받아서 그 값으로 다음 시스템을 시행(더 다음이 있을 수 있음) 후의 최종결과값을 내는 방식)

비동기적으로 작동하는게 일반적이고, 독립적입니다.

2.2.2 성능 측정 지표 선택

다음은 성능 측정 지표를 선택하는 것. 회귀 문제의 전형적인 성능 지표는 평균 제곱근 오차(RMSE). 이 값이 커질수록 예측에 어느정도 오류가 있는지 알 수 있음.

표기법)

머신러닝 대표적인 표기법

  • m = RMSE를 측정할 데이터셋에 있는 샘플의 수입니다.

  • 2000개 구역에 대한 RMSE를 평가한다면 m = 2,000 입니다.

  • x(i)는 데이터셋에 있는 i번째 샘플(레이블은 제외)의 전체 특성값의 벡터이고, y(i)는 해당 레이블(해당 샘플의 기대 출력값)입니다.

  • 예를 들어서, 첫번째 구역이 경도 -118, 위도 34, 중간 소득 $38,387, 주민 1,230명, 중간 주택 가격이 $ 156,400 일 경우

  • x(1) = (   -118   )

             ( 34 )

             ( 38387 )

             ( 1230 )

  • y(1) = 156400

  • X는 데이터셋에 있는 모든 샘플의 모든 특성값을 포함하는 행렬입니다. 샘플 하나가 하나의 행이어서 i번째 행은 x(i)의 전치(행↔열)와 같고 (x(i))T로 표기합니다.

  • X = ((x(1))T) = (-118    34 38387   1230 )

                      ⡆ ⡆ ⡆        ⡆ ⡆

  • h는 시스템의 예측함수이며 가설이라고도 합니다. 시스템이 하나의 샘플 특성 벡터x(i)를 받으면 그 샘플에 대한 예측값 ŷ(1)=h(x(i))를 출력합니다. 이때 첫번째 구역 중간 주택 가격이 158400이라면 예측 오차는 2000입니다.

  • RMSE(X,h)는 가설h를 이용하여 일련의 샘플을 평가하는 비용함수입니다.

  • 스칼라값, 함수는 이탤릭체 소문자 // 벡터는 굵은 소문자 // 행렬은 굵은 대문자로 표현 약속

RMSE가 일반적으로 선호되는 측정 방법임.

  • 경우에 따라서 다른 비용함수를 이용가능

  • ex) 이상치로 보이는 구역이 多 →평균절대오차(MAE)

평균 절대 오차 식입니다.

RMSE와 MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법입니다. 거리 측정에는 여러가지 방법(norm)이 가능합니다.

  • 제곱항을 합한 것의 제곱근(RMSE) 계산은 유클리디안 노름으로 친구한 거리개념입니다. ℓ2노름이라고도 하고, ||·||2로 표기합니다.

  • 절댓값의 합을 계산하는 것은 ℓ1노름이며 ||·||1로 표기합니다. 맨해튼 노름이라고도 합니다.

  • 원소가 n개인 벡터v의 ℓk노름 ||v||k =(|v1|k+|v2|k+...+|vn|k)1k

  • 노름의 지수가 클수록 큰 값의 원소에 치우치며 작은 값은 무시됩니다. 그래서 RMSE가 MAE보다 조금 더 이상치에 민감합니다. 하지만 이상치가 매우 드물면 RMSE가 잘 맞아 일반적으로 널리 사용됩니다.

    스터디 중 필기한 내용으로 모든 참고자료는 핸즈온 머신러닝입니다.

    아래 책을 클릭하시면 구매페이지로 이동합니다.


    핸즈온 머신러닝


    공감과 댓글은 글쓴이에게 큰 힘이 됩니다. 

    마음에 드셨으면 공감과 댓글부탁드립니다.




댓글