728x90
반응형
***이전의 sklearn.preprocessing.Imputer을 현재 sklearn.impute.SimpleImputer가 대체했습니다
√ sklearn.impute.SimpleImputer
이 기능은 데이터 전처리 과정에서 결측값을 좀 더 편리하게 처리하는 방법입니다
class sklearn.impute.SimpleImputer(*, missing_values=nan, strategy='mean',
fill_value=None, verbose='deprecated', copy=True, add_indicator=False)
- missing_values 는 default가 np.nan이며 nan, pd.NA 이런식으로 표현이 가능합니다
- strategy는 뭘로 채울꺼냐? 라고 했을 때 mean, median, most_frequent, constant 옵션으로 설정할 수 있습니다
- fill_value는 만약 문자열이나 명목형 데이터를 처리할 때 default로 0으로 채워지게 됩니다
예시_
>>> import numpy as np
>>> from sklearn.impute import SimpleImputer
>>> imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
>>> imp_mean.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])
SimpleImputer()
>>> X = [[np.nan, 2, 3], [4, np.nan, 6], [10, np.nan, 9]]
>>> print(imp_mean.transform(X))
[[ 7. 2. 3. ]
[ 4. 3.5 6. ]
[10. 3.5 9. ]]
(Source: scikit-learn.org)
사용방법은 예시처럼 간단합니다
SimpleImputer 객체를 만들고 -> fit_tranform형태로 변환 시키면 끝!
유용하게 활용해서 오늘도 즐거운 공부 해봅시다아~~
728x90
반응형
'Data Science' 카테고리의 다른 글
ChatGPT 이용 상세 리뷰 😮 (0) | 2022.12.26 |
---|---|
데이터 타입별 컬럼 구분하기 ✔ (0) | 2022.10.12 |
[ 데이터 시각화 ] matplotlib 기본 개념 | 그래프 정리 (0) | 2022.10.11 |
[ Scikit-learn] Preprocessing.PolynomialFeatures 정리 (0) | 2022.10.01 |
Select_dtypes, mutual_info_classif (0) | 2022.06.21 |
댓글