본문 바로가기
728x90
반응형

Data Science/Machine Learning15

Dataframe describe 기능 정리 데이터프레임은 전체적인 분포가 어떻게 되는지 보기 위해 아래처럼 제일 기본적으로 사용하는 편입니다. >>> s = pd.Series([1, 2, 3]) >>> s.describe() count 3.0 mean 2.0 std 1.0 min 1.0 25% 1.5 50% 2.0 75% 2.5 max 3.0 dtype: float64 (Source: Geeksforgeeks) 하지만 기본 기능외에도 유용한 기능들이 있어서 정리해보려 합니다 1. Datetime 데이터 타입에 Describe 적용하기 datetime_is_numeric=True >>> s = pd.Series([ ... np.datetime64("2000-01-01"), ... np.datetime64("2010-01-01"), ... np.da.. 2022. 10. 12.
[ Scikit-learn ] Train, test데이터 분리(train_test_split, StratifiedShuffleSplit) 데이터셋을 train 데이터와 test 데이터로 분리할 때 사용할 수 있는 sklearn.model_selection.train_test_split 과 sklearn.model_selection.StratifiedShuffleSplit에 대해서 알아보겠습니다 😊 ✔ sklearn.model_selection.train_test_split => 주어진 array 혹은 matrice를 랜덤한 train, test 데이터로 나누는 방법 sklearn.model_selection.train_test_split(arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None) test_size와 train_size는 어떤.. 2022. 10. 2.
[Scikit-learn] sklearn.feature_selection.SelectFrom Model √ Class구성요소 이 기능의 목적은 여러 피처들을 다 고려하기에는 시간이 많이 들고 비효율적이기 때문에, 모델에 적합한 피처들을 골라줘! 라는 모델인데요. 주요한 구성요소를 살펴보겠습니다 class sklearn.feature_selection.SelectFromModel(estimator, *, threshold=None, prefit=False, norm_order=1, max_features=None, importance_getter='auto') estimator : 어떤 모델을 사용하냐 (Logistic Regression 등등) threshold: median, mean 등 기타 임계값이 되는 수치 더보기 https://scikit-learn.org/stable/modules/generat.. 2022. 9. 23.
728x90
반응형