본문 바로가기
Data Science/Pandas, Numpy

Missingno를 통해 데이터 결측치 확인하는 방법

by Queen2 2022. 10. 12.
728x90
반응형

데이터가 결측치가 있는지 여부는 반드시 확인해야 하는 요소인데요

어떻게 하면 결측치를 좀 더 쉽게 확인 가능한지 몇가지 방법을 알아보겠습니다.

 

1. Train과 Test 데이터의 결측치 총합 보기

print("Train data has " + str(train.isnull().sum().sum()) + 
	" null values and Test data has " + str(test.isnull().sum().sum()) + " null values")

 

보통 train.isnull().sum()으로 확인을 하기도 하는데

총합을 보고 싶으면 train.isnull().sum()을 보는 방법도 있습니다.

 

 

2. Missingno 라이브러리 사용하기

 

케글에 자주 등장하는 이 방법은 이렇게 큰 matrix에서 흰색 비어있는 부분(결측값)을 확인하며

어떤 컬럼에 결측치가 있는지, 간격, 비율은 대략 어떠한지 한 눈에 볼수 있는 방법입니다.

 

https://coderzcolumn.com/tutorials/data-science/missingno-visualize-missing-data-in-python

 

사용방법은 비교적 간단합니다

 

missingno를 호출하고

import missingno as msno

 

만약 호출이 안되고 에러가 난다면 아래 코드를 통해 설치를 하면 됩니다

pip install missingno

 

 

매트릭스를 데이터프레임에 적용하면 끝!

msno.matrix(df)

추가적으로 df.iloc이나 loc으로 조건화를 시킬 수도 있고 색깔을 지정할 수도 있습니다.

 


msno.bar, msno.heatmap, msno.dendrogram  

여러가지 종류가 있지만 주로 사용하는건 msno.matrix인 것 같습니다.

 

다른 종류 그래프의 적용형태는 아래 링크에서 확인할 수 있습니다.

https://towardsdatascience.com/using-the-missingno-python-library-to-identify-and-visualise-missing-data-prior-to-machine-learning-34c8c5b5f009

728x90
반응형

댓글