RP씨의 떠나자블로그 ::

핸즈온 머신러닝 7일차 "목표 설정 & 성능 측정 지표"

2.2.1 문제정의

비즈니스의 목적 정의가 가장 중요!

모델 출력이 여러가지 다른 신호와 함께 다른 머신러닝 시스템에 입력으로 사용된다고 하면, 뒤따르는 시스템이 해당지역에 투자할 가치가 있는지 결정.(파이프라인)

이 결정이 (목적인) 수익에 직결되기 때문에 선행 컴포넌트에서 예측하는 값이 매우 중요.

이 때 적용하는 머신러닝 방법은?

레이블 있는 훈련세트 = 지도학습

값예측 = 회귀(다변량 회귀)

w) 파이프라인

데이터 처리 컴포넌트가 연속되어 있는 것을 데이터 파이프라인이라고 합니다.

(데이터로 시스템을 돌린 결과를 받아서 그 값으로 다음 시스템을 시행(더 다음이 있을 수 있음) 후의 최종결과값을 내는 방식)

비동기적으로 작동하는게 일반적이고, 독립적입니다.

2.2.2 성능 측정 지표 선택

다음은 성능 측정 지표를 선택하는 것. 회귀 문제의 전형적인 성능 지표는 평균 제곱근 오차(RMSE). 이 값이 커질수록 예측에 어느정도 오류가 있는지 알 수 있음.

표기법)

머신러닝 대표적인 표기법

m = RMSE를 측정할 데이터셋에 있는 샘플의 수입니다.
2000개 구역에 대한 RMSE를 평가한다면 m = 2,000 입니다.
x(i)는 데이터셋에 있는 i번째 샘플(레이블은 제외)의 전체 특성값의 벡터이고, y(i)는 해당 레이블(해당 샘플의 기대 출력값)입니다.
예를 들어서, 첫번째 구역이 경도 -118, 위도 34, 중간 소득 $38,387, 주민 1,230명, 중간 주택 가격이 $ 156,400 일 경우
x(1) = ( -118 )

( 34 )

( 38387 )

( 1230 )

y(1) = 156400
X는 데이터셋에 있는 모든 샘플의 모든 특성값을 포함하는 행렬입니다. 샘플 하나가 하나의 행이어서 i번째 행은 x(i)의 전치(행↔열)와 같고 (x(i))T로 표기합니다.
X = ((x(1))T) = (-118 34 38387 1230 )

⡆ ⡆ ⡆ ⡆ ⡆

h는 시스템의 예측함수이며 가설이라고도 합니다. 시스템이 하나의 샘플 특성 벡터x(i)를 받으면 그 샘플에 대한 예측값 ŷ(1)=h(x(i))를 출력합니다. 이때 첫번째 구역 중간 주택 가격이 158400이라면 예측 오차는 2000입니다.
RMSE(X,h)는 가설h를 이용하여 일련의 샘플을 평가하는 비용함수입니다.
스칼라값, 함수는 이탤릭체 소문자 // 벡터는 굵은 소문자 // 행렬은 굵은 대문자로 표현 약속

RMSE가 일반적으로 선호되는 측정 방법임.

평균 절대 오차 식입니다.

RMSE와 MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법입니다. 거리 측정에는 여러가지 방법(norm)이 가능합니다.

핸즈온 머신러닝 9일차 "테스트 세트" (0)	2018.06.07
핸즈온 머신러닝 8일차 "가정검사와 데이터 추출 & 히스토그램" (0)	2018.06.06
핸즈온 머신러닝 6일차 "실제 데이터로 작업 시작" (0)	2018.06.05
핸즈온 머신러닝 5일차 "머신러닝의 주요 도전 과제" (0)	2018.06.02
핸즈온 머신러닝 4일차 " 머신러닝 시스템의 종류(3)" 사례기반 vs 모델기반 (0)	2018.06.01