728x90 반응형 Data Science/Pandas, Numpy19 [ Pandas ] DataFrame, Series 함수 요약 정리 👀 벼락치기 혹은 판다스 기본 함수들을 짚고 넘어갈 수 있도록 필수적인 함수들을 정리했습니다! df는 DataFrame을 의미하며, 자세한 응용사항은 판다스 공식 홈페이지를 통해 파악해보면 좋을 것 같습니다 1. 수치연산, 조회, 처리 관련 함수 함수명 수행기능 예시 (Source: pandas.pydata) df.max, df.min min, max 값 반환 (Series도 가능) pd.Series([4, 2, 0, 8], name='legs').max df.idxmax, df.idxmin 최대/최소 값의 레이블 반환 >>> df.idxmax() consumption Wheat Products co2_emissions Beef dtype: object df.sum, df.cumsum 합, 누적합 반환 (d.. 2022. 10. 6. [ Pandas ] DataFrame 컬럼 추가 / 삭제 방법 SQL에서는 insert, update,delete 등의 구문을 통해 데이터를 추가, 삭제 등이 가능했는데요 DataFrame에서는 어떻게 이러한 기능을 실행할 수 있는지 보겠습니다. 👌 컬럼 추가 1. DataFrame.assign(추가컬럼이름 = 값) 여기서 '값'에는 값을 나열한 리스트가 올 수도 있고, 조건문이 담긴 함수가 올 수도 있습니다. 예를 들어, 기존에 4행을 가진 DataFrame 이 있다면 기존의 길이에 맞춰서 df = df.assign(score=[70,80,90,100]) 을 추가할 수 있습니다. 혹은, 아래와 같이 lambda를 이용해서 새로운 컬럼을 추가할 수도 있습니다. df temp_c Portland 17.0 Berkeley 25.0 df.assign(temp_f=lamb.. 2022. 10. 4. [ Pandas ] Filter 함수 적용하기 🧐 pandas.DataFrame.filter DataFrame.filter(items=None, like=None, regex=None, axis=None) : 특정 조건의 행열을 포함한 데이터 프레임을 반환하는 함수 Filter의 각 파라미터가 어떻게 활용되는지 예시코드를 통해서 알아보겠습니다 예시코드_ >>> df one two three mouse 1 2 3 rabbit 4 5 6 >>> df.filter(items=['one', 'three']) one three mouse 1 3 rabbit 4 6 이렇게 items는 어떤 열을 보겠다는 걸 컬럼명 나열을 통해서 필터링 할 수 있습니다 다음은 정규표현식 regex 를 이용해 열을 필터링하는 예시입니다 문자열이 e로 끝나야 한다는 $ 표현을 활용.. 2022. 10. 4. [ Pandas ] Pandas.cut, qcut 개념 및 차이 정리 😎 Pandas.cut 란? 이산적인 간격으로 분포 되어 있는 값들을 n개의 구간으로 나눠주는 기능입니다 연속적인 변수들을 카테고리화시켜주는데 유용하게 사용됩니다 pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True) x : 1차원 형태의 input array bin: 어떤 간격으로 나눌것인지 결정 right: 가장 오른쪽 끝값의 포함 여부 명시 **각 변수의 세부 기능은 제일 하단의 pandas 사이트를 참조하시길 바랍니다 예시 코드) 활용방법이 와닿을 수 있도록 예시 코드를 보겠습니다. input array와 간격, 각 간격에 .. 2022. 10. 2. [ Pandas ] corr 상관관계수 반환 모듈 알아보기 데이터 분석을 할 때 하나의 데이터와 또 다른 데이터가 얼마나 상관관계를 가지는지 알아보기 위해 '상관계수' 를 알아보는데요, 이를 쉽게 구할 수 있는 Pandas의 corr 사용방법을 알아보겠습니다. √ Series.corr Series.corr(other, method='pearson', min_periods=None) method = {'pearson','kendall','spearman'} min_periods 는 유효한 결과값 도출을 위해 필요한 최소 관찰값을 지정하는 것을 의미합니다 아래는 Kaggle 노트북에서 가져온 코드인데요 corr = df['target].corr(df[var_name]) 이렇게 Series.corr(compared series) 로 구성하면됩니다 √ DataFrame.. 2022. 10. 1. [ Pandas] 데이터프레임 align 알아보기 Kaggle 노트북을 보다가 align 을 발견해서 가지고 와봤습니다 DataFrame.align(other, join='outer', axis=None, level=None, copy=True, fill_value=None, method=None, limit=None, fill_axis=0, broadcast_axis=None)[source] 이 기능은 행/열에 명시된 join 방법을 통해 2개의 다른 데이터프레임의 align을 맞추는 기능인데요 Kaggle에서는 주로 train 데이터와 test 데이터간에 피처들이 서로 다르지 않도록 맞춰주는데에 사용되더라구요 반환 값은 aligh에 사용한 각 데이터프레임 혹은 시리즈로 반환되기 때문에 변수 2개를 unpacking 하는 방식으로 사용됩니다 train.. 2022. 10. 1. 이전 1 2 3 4 다음 728x90 반응형