핸즈온 머신러닝 7일차 "목표 설정 & 성능 측정 지표"
2.2.1 문제정의
비즈니스의 목적 정의가 가장 중요!
모델 출력이 여러가지 다른 신호와 함께 다른 머신러닝 시스템에 입력으로 사용된다고 하면, 뒤따르는 시스템이 해당지역에 투자할 가치가 있는지 결정.(파이프라인)
이 결정이 (목적인) 수익에 직결되기 때문에 선행 컴포넌트에서 예측하는 값이 매우 중요.
이 때 적용하는 머신러닝 방법은?
레이블 있는 훈련세트 = 지도학습
값예측 = 회귀(다변량 회귀)
w) 파이프라인
데이터 처리 컴포넌트가 연속되어 있는 것을 데이터 파이프라인이라고 합니다.
(데이터로 시스템을 돌린 결과를 받아서 그 값으로 다음 시스템을 시행(더 다음이 있을 수 있음) 후의 최종결과값을 내는 방식)
비동기적으로 작동하는게 일반적이고, 독립적입니다.
2.2.2 성능 측정 지표 선택
다음은 성능 측정 지표를 선택하는 것. 회귀 문제의 전형적인 성능 지표는 평균 제곱근 오차(RMSE). 이 값이 커질수록 예측에 어느정도 오류가 있는지 알 수 있음.
표기법)
머신러닝 대표적인 표기법
m = RMSE를 측정할 데이터셋에 있는 샘플의 수입니다.
2000개 구역에 대한 RMSE를 평가한다면 m = 2,000 입니다.
x(i)는 데이터셋에 있는 i번째 샘플(레이블은 제외)의 전체 특성값의 벡터이고, y(i)는 해당 레이블(해당 샘플의 기대 출력값)입니다.
예를 들어서, 첫번째 구역이 경도 -118, 위도 34, 중간 소득 $38,387, 주민 1,230명, 중간 주택 가격이 $ 156,400 일 경우
x(1) = ( -118 )
( 34 )
( 38387 )
( 1230 )
y(1) = 156400
X는 데이터셋에 있는 모든 샘플의 모든 특성값을 포함하는 행렬입니다. 샘플 하나가 하나의 행이어서 i번째 행은 x(i)의 전치(행↔열)와 같고 (x(i))T로 표기합니다.
X = ((x(1))T) = (-118 34 38387 1230 )
⡆ ⡆ ⡆ ⡆ ⡆
h는 시스템의 예측함수이며 가설이라고도 합니다. 시스템이 하나의 샘플 특성 벡터x(i)를 받으면 그 샘플에 대한 예측값 ŷ(1)=h(x(i))를 출력합니다. 이때 첫번째 구역 중간 주택 가격이 158400이라면 예측 오차는 2000입니다.
RMSE(X,h)는 가설h를 이용하여 일련의 샘플을 평가하는 비용함수입니다.
스칼라값, 함수는 이탤릭체 소문자 // 벡터는 굵은 소문자 // 행렬은 굵은 대문자로 표현 약속
RMSE가 일반적으로 선호되는 측정 방법임.
경우에 따라서 다른 비용함수를 이용가능
ex) 이상치로 보이는 구역이 多 →평균절대오차(MAE)
평균 절대 오차 식입니다.
RMSE와 MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법입니다. 거리 측정에는 여러가지 방법(norm)이 가능합니다.
제곱항을 합한 것의 제곱근(RMSE) 계산은 유클리디안 노름으로 친구한 거리개념입니다. ℓ2노름이라고도 하고, ||·||2로 표기합니다.
절댓값의 합을 계산하는 것은 ℓ1노름이며 ||·||1로 표기합니다. 맨해튼 노름이라고도 합니다.
원소가 n개인 벡터v의 ℓk노름 ||v||k =(|v1|k+|v2|k+...+|vn|k)1k
노름의 지수가 클수록 큰 값의 원소에 치우치며 작은 값은 무시됩니다. 그래서 RMSE가 MAE보다 조금 더 이상치에 민감합니다. 하지만 이상치가 매우 드물면 RMSE가 잘 맞아 일반적으로 널리 사용됩니다.
스터디 중 필기한 내용으로 모든 참고자료는 핸즈온 머신러닝입니다.
아래 책을 클릭하시면 구매페이지로 이동합니다.
공감과 댓글은 글쓴이에게 큰 힘이 됩니다.
마음에 드셨으면 공감과 댓글부탁드립니다.
'IT 어떻게든 혼자 해결해보자 > IT 파이썬 독학 입문기' 카테고리의 다른 글
핸즈온 머신러닝 9일차 "테스트 세트" (0) | 2018.06.07 |
---|---|
핸즈온 머신러닝 8일차 "가정검사와 데이터 추출 & 히스토그램" (0) | 2018.06.06 |
핸즈온 머신러닝 6일차 "실제 데이터로 작업 시작" (0) | 2018.06.05 |
핸즈온 머신러닝 5일차 "머신러닝의 주요 도전 과제" (0) | 2018.06.02 |
핸즈온 머신러닝 4일차 " 머신러닝 시스템의 종류(3)" 사례기반 vs 모델기반 (0) | 2018.06.01 |
댓글