본문 바로가기
Data Science

[Scikit-learn] Impute.SimpleImputer

by Queen2 2022. 9. 22.
728x90
반응형

***이전의 sklearn.preprocessing.Imputer을 현재 sklearn.impute.SimpleImputer가 대체했습니다

 

√ sklearn.impute.SimpleImputer

이 기능은 데이터 전처리 과정에서 결측값을 좀 더 편리하게 처리하는 방법입니다

class sklearn.impute.SimpleImputer(*, missing_values=nan, strategy='mean', 
		fill_value=None, verbose='deprecated', copy=True, add_indicator=False)

 

  • missing_values 는 default가 np.nan이며 nan, pd.NA 이런식으로 표현이 가능합니다
  • strategy는 뭘로 채울꺼냐? 라고 했을 때 mean, median, most_frequent, constant 옵션으로 설정할 수 있습니다
  • fill_value는 만약 문자열이나 명목형 데이터를 처리할 때 default로 0으로 채워지게 됩니다

 

 

예시_

>>> import numpy as np
>>> from sklearn.impute import SimpleImputer
>>> imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

>>> imp_mean.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])

SimpleImputer()
>>> X = [[np.nan, 2, 3], [4, np.nan, 6], [10, np.nan, 9]]

>>> print(imp_mean.transform(X))
[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]
 
 (Source: scikit-learn.org)

 

사용방법은 예시처럼 간단합니다

SimpleImputer 객체를 만들고 -> fit_tranform형태로 변환 시키면 끝!

 

 

유용하게 활용해서 오늘도 즐거운 공부 해봅시다아~~

728x90
반응형

댓글