본문

핸즈온 머신러닝 10일차 "데이터 시각화"

2.4 데이터 이해를 위한 탐색과 시각화

훈련세트를 손상시키지 않기 위해서 복사본을 만듭니다.

housing = strat_train_set.copy()


2.4.1 지리적 데이터 시각화

위도와 경도를 이용해서 모든 구역을 산점도로 데이터 시각화 가능합니다.

housing.plot(kind="scatter", x="longitude", y="latitude")

조금더 알아보기 쉽게 하기 위해서 alpha옵션을 사용합니다.

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)


주택가격을 매개변수로 시각화할 수 있습니다. jet과 매개변수 cmap을 사용합니다.

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, s=housing['population']/100, label ="population", figsize=(10,7), c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True, sharex=False)

plt.legend()



2.4.2 상관관계 조사

표준 상관계수(피어슨의 r이라고도 함)를 corr() 메서드로 계산가능합니다.

corr_matrix = housing.corr()

corr_matrix["median_house_value"].sort_values(ascending=False)

median_house_value    1.000000
median_income         0.687160
total_rooms           0.135097
housing_median_age    0.114110
households            0.064506
total_bedrooms        0.047689
population           -0.026920
longitude            -0.047432
latitude             -0.142724
Name: median_house_value, dtype: float64


특성이 11개로 중간 주택 가격과 상관관계가 높아 보이는 특성 몇개만 봅니다.

from pandas.plotting import scatter_matrix


attributes =["median_house_value", "median_income", "total_rooms", "housing_median_age"]

scatter_matrix(housing[attributes], figsize=(12,8))


위코드로 다양한 특성이 나타나는데, 가장 상관계수가 높은 중간 소득 산점도를 확대하겠습니다.

housing.plot(kind="scatter", x="median_income", y="median_house_value", alpha =0.1)

500,000 , 450,000 , 350,000에 수평선이 보이는게 있습니다.

학습할때는 이러한 정보를 제거하는 것이 좋습니다.

스터디 중 필기한 내용으로 모든 참고자료는 핸즈온 머신러닝입니다.

아래 책을 클릭하시면 구매페이지로 이동합니다.


핸즈온 머신러닝


공감과 댓글은 글쓴이에게 큰 힘이 됩니다. 

마음에 드셨으면 공감과 댓글부탁드립니다.






댓글