핸즈온 머신러닝 10일차 "데이터 시각화"
2.4 데이터 이해를 위한 탐색과 시각화
훈련세트를 손상시키지 않기 위해서 복사본을 만듭니다.
housing = strat_train_set.copy()
2.4.1 지리적 데이터 시각화
위도와 경도를 이용해서 모든 구역을 산점도로 데이터 시각화 가능합니다.
housing.plot(kind="scatter", x="longitude", y="latitude")
조금더 알아보기 쉽게 하기 위해서 alpha옵션을 사용합니다.
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)
주택가격을 매개변수로 시각화할 수 있습니다. jet과 매개변수 cmap을 사용합니다.
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, s=housing['population']/100, label ="population", figsize=(10,7), c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True, sharex=False)
plt.legend()
2.4.2 상관관계 조사
표준 상관계수(피어슨의 r이라고도 함)를 corr() 메서드로 계산가능합니다.
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)
median_house_value 1.000000
median_income 0.687160
total_rooms 0.135097
housing_median_age 0.114110
households 0.064506
total_bedrooms 0.047689
population -0.026920
longitude -0.047432
latitude -0.142724
Name: median_house_value, dtype: float64
특성이 11개로 중간 주택 가격과 상관관계가 높아 보이는 특성 몇개만 봅니다.
from pandas.plotting import scatter_matrix
attributes =["median_house_value", "median_income", "total_rooms", "housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12,8))
위코드로 다양한 특성이 나타나는데, 가장 상관계수가 높은 중간 소득 산점도를 확대하겠습니다.
housing.plot(kind="scatter", x="median_income", y="median_house_value", alpha =0.1)
500,000 , 450,000 , 350,000에 수평선이 보이는게 있습니다.
학습할때는 이러한 정보를 제거하는 것이 좋습니다.
스터디 중 필기한 내용으로 모든 참고자료는 핸즈온 머신러닝입니다. 아래 책을 클릭하시면 구매페이지로 이동합니다. 공감과 댓글은 글쓴이에게 큰 힘이 됩니다. 마음에 드셨으면 공감과 댓글부탁드립니다.
'IT 어떻게든 혼자 해결해보자 > IT 파이썬 독학 입문기' 카테고리의 다른 글
핸즈온 머신러닝 9일차 "테스트 세트" (0) | 2018.06.07 |
---|---|
핸즈온 머신러닝 8일차 "가정검사와 데이터 추출 & 히스토그램" (0) | 2018.06.06 |
핸즈온 머신러닝 7일차 "목표 설정 & 성능 측정 지표" (0) | 2018.06.05 |
핸즈온 머신러닝 6일차 "실제 데이터로 작업 시작" (0) | 2018.06.05 |
핸즈온 머신러닝 5일차 "머신러닝의 주요 도전 과제" (0) | 2018.06.02 |
댓글