[Scikit-learn] Impute.SimpleImputer

728x90

***이전의 sklearn.preprocessing.Imputer을 현재 sklearn.impute.SimpleImputer가 대체했습니다

√ sklearn.impute.SimpleImputer

이 기능은 데이터 전처리 과정에서 결측값을 좀 더 편리하게 처리하는 방법입니다

class sklearn.impute.SimpleImputer(*, missing_values=nan, strategy='mean', 
		fill_value=None, verbose='deprecated', copy=True, add_indicator=False)

missing_values 는 default가 np.nan이며 nan, pd.NA 이런식으로 표현이 가능합니다
strategy는 뭘로 채울꺼냐? 라고 했을 때 mean, median, most_frequent, constant 옵션으로 설정할 수 있습니다
fill_value는 만약 문자열이나 명목형 데이터를 처리할 때 default로 0으로 채워지게 됩니다

예시_

>>> import numpy as np
>>> from sklearn.impute import SimpleImputer
>>> imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

>>> imp_mean.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])

SimpleImputer()
>>> X = [[np.nan, 2, 3], [4, np.nan, 6], [10, np.nan, 9]]

>>> print(imp_mean.transform(X))
[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]
 
 (Source: scikit-learn.org)

사용방법은 예시처럼 간단합니다

SimpleImputer 객체를 만들고 -> fit_tranform형태로 변환 시키면 끝!

유용하게 활용해서 오늘도 즐거운 공부 해봅시다아~~

728x90

'Data Science' 카테고리의 다른 글

ChatGPT 이용 상세 리뷰 😮 (0)	2022.12.26
데이터 타입별 컬럼 구분하기 ✔ (0)	2022.10.12
[ 데이터 시각화 ] matplotlib 기본 개념 \| 그래프 정리 (0)	2022.10.11
[ Scikit-learn] Preprocessing.PolynomialFeatures 정리 (0)	2022.10.01
Select_dtypes, mutual_info_classif (0)	2022.06.21

Data Speaks in Silence

[Scikit-learn] Impute.SimpleImputer

√ sklearn.impute.SimpleImputer

'Data Science' 카테고리의 다른 글

댓글

티스토리툴바

[Scikit-learn] Impute.SimpleImputer

√ sklearn.impute.SimpleImputer

'Data Science' 카테고리의 다른 글

관련글

댓글

티스토리툴바