728x90 반응형 Data Science/Machine Learning15 ColumnTransformer 피처 이름 데이터프레임 전달 방법 이전에 columnTransformer이 무엇인지, 어떻게 사용할 수 있는지 내용을 다뤘었는데요 2022.10.13 - [Data Science/Machine Learning] - [ Scikit-learn ] compose.ColumnTransformer, make_column_transformer 정리 [ Scikit-learn ] compose.ColumnTransformer, make_column_transformer 정리 Column Transformer Column Transformer은 여러 transformer 을 column에 좀 더 쉽게 적용하도록 한 클래스입니다. 😎 주요 메서드 탐구 sklearn.compose.ColumnTransformer(transformers, *, remai.. 2022. 10. 28. 회귀 평가 지표 개념 A-Z 및 활용방법 이해하기 머신러닝을 공부하신 분들이라면 회귀 평가지표 MAE, MSE, RMSE를 한번쯤 다 들어보셨을텐데요 개념은 무수히 많이 들었지만 남들이 물어봤는데 각 지표의 의미가 헷갈린다면 이번에 꼭 한번 정리하고 넘어가시길 바래요! 😉 평가지표를 알아봄에 앞서서, 왜 평가 지표가 필요한지 부터 고민해봅시다. 모델을 만들고 예측값까지 나왔는데 이게 잘된건지, 엉터리 값이 나왔는지 판단할 수 있는 성적표가 있어야겠죠? 그렇다면 예측을 했으니 실제값과 비교해서 얼마나 잘 했는지 ==> (예측값-실제값) = 잔차 = residual 을 중심으로 잘했는지 못했는지 보기 위해서 나온 지표들이 바로 아래의 MSE, RMSE, MAE 지표입니다!! 요약한 영어라서 더 낯설게 느껴질 수도 있는데요 각 단어를 풀어 써서 아래의 식과 .. 2022. 10. 19. K-Nearest Neighbors 최근접 이웃 알고리즘 정리 A-Z 주요 머신러닝 알고리즘에 대해서 하루에 하나씩 정도라도 복습겸 정리를 진행해보려 합니다 :)) 특히 수학적, 통계적인 원리를 짚고 넘어가면서 이해를 확장시켜보겠습니다. K-NN알고리즘이란? 분류/회귀에 사용되는 간단하면서 보편적으로 사용되는 모델 가장 가까운 K개의 샘플을 같은 클래스(분류)/ 이웃한 샘플들의 평균 값(회귀)으로 예측함 K-NN 모델을 생각하면 여기여기 모여라~~~ 가 생각나는데요 그만큼 서로 인접한 K개의 데이터를 묶거나 묶어서 평균내는 방법입니다. 그러면 여기서 K는 몇개를 의미하지 ? 인접하다는 건 어떻게 판단하지? 라는 2가지 의문이 드는데요 첫번째 의문은 비교적 쉽게 대답이 가능합니다 1. K 는 default 값이 5개이지만 설정이 가능 일반적으로 홀수 사용 최적의 K 값은 일.. 2022. 10. 19. Train , Test 데이터 전처리를 위해 병합하는 방법 정리 ! 데이터 전처리를 실행할 때, train 과 test데이터를 따로 전처리하면 스케일링이나 인코딩에 문제가 생기기 때문에 보통 train과 test 데이터를 합쳐서 전처리를 하고 다시 기존 index대로 나누는 방법을 사용하는데요 어떤 방법을 사용할 수 있는지 알아보겠습니다. 1. pd.concat + assign(indic) 여기서 indic은 indicator로 각 데이터에 test, train이라는 일종의 태그를 달아주는 방법입니다 df = pd.concat([test.assign(indic="test"), train.assign(indic="train")]) test, train = df[df["indic"].eq("test")], df[df["indic"].eq("train")] DataFrame... 2022. 10. 13. 카테고리형 데이터가 많을 시 고려사항 😮 카테고리형 데이터는 보통 pandas.get_dummies 혹인 LabelEncoder, OnelHotEncoding 을 사용하는데요 카테고리 데이터가 몇십 몇백개가 되면 연산속도도 느리고 피처가 너무 많아져서 과대적합이 일어날 수 있습니다. 그래서 서칭을 통해서 어떤 사항을 고려할 수 있는지 모아봤습니다! 1. 빈도수 기준 '기타' 처리 카테고리형 데이터에 unique한 값별로 얼마나 많은 비율을 차지하는지 확인하는 방법입니다. 만약 카테고리가 100개인데, 단 10개가 전체의 90%이상을 차지한다면 나머지 90개는 'other'로 분류할 수 있습니다. 2. Target Encoding 회귀의 경우에는 각 카테고리로 groupby를 해서 나오는 target의 mean 값을 사용할 수 있습니다. (하지만.. 2022. 10. 13. [ Scikit-learn ] compose.ColumnTransformer, make_column_transformer 정리 Column Transformer Column Transformer은 여러 transformer 을 column에 좀 더 쉽게 적용하도록 한 클래스입니다. 😎 주요 메서드 탐구 sklearn.compose.ColumnTransformer(transformers, *, remainder='drop', sparse_threshold=0.3, n_jobs=None, transformer_weights=None, verbose=False, verbose_feature_names_out=True) transformers: 적용하는 transformer의 리스트가 담긴 튜플을 의미합니다 Pipeline을 이용할 때와 마찬가지로 string 형태의 name과 transformer을 함께 전달할 수 있습니다. rema.. 2022. 10. 13. 이전 1 2 3 다음 728x90 반응형