728x90
반응형
데이터가 결측치가 있는지 여부는 반드시 확인해야 하는 요소인데요
어떻게 하면 결측치를 좀 더 쉽게 확인 가능한지 몇가지 방법을 알아보겠습니다.
1. Train과 Test 데이터의 결측치 총합 보기
print("Train data has " + str(train.isnull().sum().sum()) +
" null values and Test data has " + str(test.isnull().sum().sum()) + " null values")
보통 train.isnull().sum()으로 확인을 하기도 하는데
총합을 보고 싶으면 train.isnull().sum()을 보는 방법도 있습니다.
2. Missingno 라이브러리 사용하기
케글에 자주 등장하는 이 방법은 이렇게 큰 matrix에서 흰색 비어있는 부분(결측값)을 확인하며
어떤 컬럼에 결측치가 있는지, 간격, 비율은 대략 어떠한지 한 눈에 볼수 있는 방법입니다.
사용방법은 비교적 간단합니다
missingno를 호출하고
import missingno as msno
만약 호출이 안되고 에러가 난다면 아래 코드를 통해 설치를 하면 됩니다
pip install missingno
매트릭스를 데이터프레임에 적용하면 끝!
msno.matrix(df)
추가적으로 df.iloc이나 loc으로 조건화를 시킬 수도 있고 색깔을 지정할 수도 있습니다.
msno.bar, msno.heatmap, msno.dendrogram
여러가지 종류가 있지만 주로 사용하는건 msno.matrix인 것 같습니다.
다른 종류 그래프의 적용형태는 아래 링크에서 확인할 수 있습니다.
728x90
반응형
'Data Science > Pandas, Numpy' 카테고리의 다른 글
[ Numpy ] 넘파이 배열 , axis, 차원 축소/확장 정리 (0) | 2022.10.19 |
---|---|
Datetime x축 효과적으로 그리는 법 (0) | 2022.10.12 |
matplotlib 가로형 boxplot 그리는 법 (0) | 2022.10.12 |
막대그래프에 레이블 달기 (plt.text) (0) | 2022.10.12 |
DataFrame 열(Columns) 비교하기 (train,test 피처 차이 비교) (0) | 2022.10.12 |
댓글