핸즈온 머신러닝 5일차 "머신러닝의 주요 도전 과제"
1.4 머신러닝의 주요 도전 과제 1) 나쁜 데이터 1.4.1 충분하지 않은 양의 훈련 데이터간단한 문제에서도 수천 개의 데이터가 필요(훈련 데이터를 추가로 모으는 것이 항상 쉽거나 저렴하지 않음) 1.4.2 대표성 없는 훈련 데이터추가적인 데이터 샘플링 편향이 발생 1.4.3 낮은 품질의 데이터특성이 빠져 있기도 함. 아예 무시할지, 빠진 값만 채울지 고려 1.4.4 관련 없는 특성GIGO로 훈련에 사용할 좋은 특성을 찾는 것. 특성 공학유용한 특성을 선택하고, 특성을 결합하여 더 유용한 특성, 새로운 데이터로 새 특성 2) 나쁜 알고리즘1.4.5 훈련 데이터 과대적합일반화 주의! 훈련 데이터에 더 잘 맞더라도 실제로 예측을 믿기는 어려움. 특성을 줄이거나, 모델에 제약, 파라미터 수가 적은 모델 적용..
IT 어떻게든 혼자 해결해보자/IT 파이썬 독학 입문기
2018. 6. 2. 13:00