본문

핸즈온 머신러닝 6일차 "실제 데이터로 작업 시작"


2. 머신러닝 A-Z

진행할 주요 단계

  1. 큰그림

  2. 데이터를 구함

  3. 데이터 탐색 및 시각화 => 통찰

  4. 머신러닝 알고리즘를 위한 데이터준비

  5. 모델을 선택하고 훈련

  6. 모델을 상세하게 조정

  7. 솔루션을 제시

  8. 시스템 론칭 & 유지보수, 모니터링


2.1 실제 데이터로 작업

실제 데이터로 작업하는 것이 가장 좋음.

공개된 데이터는

공개 데이터 저장소(US얼바인 머신러닝저장소, 캐글 데이터셋, 아마존 AWS 데이터셋)

메타 포털(dataportals.org, opendatamonitor.eu, qualdl.com)

공개 데이터 나열 페이지(위키백과 머신러닝 데이터셋 목록, Quora.com, 레딧(데이터셋)

여기서는 StatLib 저장소의 캘리포니아 주택 가격 데이터를 사용하고, 1990년 캘리포니아 인구조사 데이터를 기반으로 합니다. 학습용으로 좋은 데이터임.

2.2 큰 그림

Todo :

캘리포니아 인구조사 데이터로 캘리포니아 주택가격 예측 모델을 만듬.

데이터에는 블록 그룹(600~3000명 정도)마다 인구, 중간소득, 중간 주택가격 등이 담겨 있음.  (블록그룹 = 구역)

모델을 학습시켜서 다른 측정 데이터가 주어졌을 때 구역의 중간 주택 가격을 예측!

Tip) 체크리스트를 사용하여 머신러닝을 준비 (부록2참고)


스터디 중 필기한 내용으로 모든 참고자료는 핸즈온 머신러닝입니다.

아래 책을 클릭하시면 구매페이지로 이동합니다.


핸즈온 머신러닝


공감과 댓글은 글쓴이에게 큰 힘이 됩니다. 

마음에 드셨으면 공감과 댓글부탁드립니다.






댓글