본문

핸즈온 머신러닝 2일차 " 머신러닝 시스템의 종류(1)" 지도 학습 vs 비지도 학습


1.3 머신러닝 시스템의 종류(사람의 감독, 실시간 점진 학습, 사례or모델)



1.3.1 지도학습과 비지도 학습

학습하는 동안의 감독 형태나 정보량으로 분류하는 기준으로

지도 학습, 비지도 학습, 준지도 학습, 강화 학습으로 네 가지 주요 범주가 있음.


1) 지도학습(Supervised Learning)

알고리즘에 주입하는 훈련 데이터에 레이블이라는 원하는 답이 포함

ex) 훈련세트 : 신용카드(스팸), For U(스팸), 이력서(non스팸) → 새 샘플

분류(classification): 전형적인 지도 학습 작업(스팸 필터)

회귀(regression): 예측 변수를 통해서 타겟 수치를 예측

(주행거리, 연식, 브랜드 등)을 통해 (중고차 가격) 예측


책에서 다루는 지도 학습 알고리즘

  1. k-최근접 이웃

  2. 선형 회귀

  3. 로지스틱 회귀

  4. 서포트 벡터 머신

  5. 결정 트리와 랜덤 포레스트

  6. 신경망


2) 비지도학습

훈련 데이터에 레이블이 없습니다. 시스템이 도움 없이 학습합니다.

비지도 학습 알고리즘 종류

  1. 군집

  1. k-평균

  2. 계층 군집 분석

  3. 기댓값 최대화

  1. 시각화와 차원 축소

  1. 주성분 분석

  2. 커널 PCA

  3. t-SNE

  4. 지역적 선형 임베딩

  1. 연관 규칙 학습

  1. 어프라이어리

  2. 이클렛

ex) 블로그 방문자에 대한 데이터

비슷한 방문자 그룹으로 묶기 = 군집 알고리즘 (하향식, 분할 군집)

방문자가 어떤 그룹에 속하는지 알고리즘에 알려주는 데이터 포인트X 알고리즘이 스스로 방문자 사이의 연결고리를 찾아 분할

40%의 방문자가 만화책을 좋아하며, 저녁때 블로그를 읽는 남성이고, 20%는 주말에 방문하는 공상 과학을 좋아하는 젊은 사람임을 알게 될 수있습니다. 이때 계층 군집 알고리즘을 사용하면 더 작은 그룹으로 세분화 할 수 있습니다.


시각화 비지도 학습 알고리즘의 좋은 예입니다. 레이블이 없는 대규모의 고차원 데이터를 넣으면 도식화가 가능한 2D나 3D의 표현을 만듭니다. 구조를 그대로 유지하려고 하므로(클러스터(군집, 모여있는 자료)를 그래프에서 겹쳐지지 않게 유지해서 표현하려 함) 데이터가 어떻게 조직되어 있는지 이해할 수 있고 예상하지 못한 패턴을 발견 가능


차원축소 너무 많은 정보를 잃지 않으면서 데이터를 간소화하는 것

ex) 차의 주행거리와 연식 → 차의 마모정도 특성 1개로 통합 (특성 추출)

tip) 데이터 주입전 차원 축소 알고리즘을 사용해 훈련 데이터 차원을 줄이는 것이 유용할때가 많음.

실행속도, 디스크, 메모리 개선, 성능 향상 가능


이상치 탐지

부정 거래를 막기 위해 이상 신용카드 거래를 감지하고, 제조 결함을 잡아내고, 학습 알고리즘에 주입하기 전에 데이터셋의 이상값을 자동으로 제거하는 것을 있음. 시스템은 정상 샘플로 훈련되며, 새로운 샘플이 정상 데이터인지 이상치인지 판단


연관 규칙 학습

대량 데이터에서 특성 간 흥미로운 관계 찾음

슈퍼마켓 판매 기록 연관 규칙 바비큐 소스와 감자를 구매한 사람이 스테이크도 구매하는 경향이 있다는 것을 찾음


스터디 중 필기한 내용으로 모든 참고자료는 핸즈온 머신러닝입니다.

아래 책을 클릭하시면 구매페이지로 이동합니다.


핸즈온 머신러닝


공감과 댓글은 글쓴이에게 큰 힘이 됩니다. 

마음에 드셨으면 공감과 댓글부탁드립니다.




댓글