본문 바로가기
728x90
반응형

Data Science/Pandas, Numpy19

[ Numpy ] 넘파이 배열 , axis, 차원 축소/확장 정리 ✨ 넘파이 차원, Axis 개념 및 응용 설명 오늘은 넘파이의 기본인 넘파이 array의 axis에 대해 알아보려 합니다. 우선 넘파이의 axis는 파이썬의 index가 0부터 시작하는 것처럼 0부터 시작합니다. 위의 그림을 머리속에 넣어두면 좋은데요 일반적으로 1D array라고 하면 aixs0만 있는 행만 하나 있는 상태를 의미합니다. 여기서 우리가 그래프를 그릴 때 x축 y축이 필요한 것처럼 축을 하나 추가하면 2D array 마치 행렬같은 모습이 나옵니다 여기서 제일 헷갈렸던 부분은 Numpy에서의 '차원'은 선형대수에서 애기하는 차원과는 다르다는 점입니다. 넘파이에서 차원은 이 axis의 개수를 의미합니다 아래 스택오버플로우에서도 이런 의문들이 많이 제시되어 있는데요 (https://stacko.. 2022. 10. 19.
Datetime x축 효과적으로 그리는 법 Datetime 으로 그래프를 그릴 때 아래처럼 보기만 해도 눈이 아픈 x축을 그리곤 했는데요..... 어떻게 하면 날짜 형식의 x축을 가독성 있게 제시할 수 있는지 보겠습니다. Datetime 은 포맷의 형식이 강하기 때문에 포맷을 바꾸기 위해서는 formatter가 필수적인데요 이런식으로 matplotlib.dates는 date의 위치(간격)을 정해주는 Locator, 형식을 변환하는 Formatter 로 이루어져 있습니다 가장 먼저 해야 하는 일은 mdates를 호출하는 겁니다 import matplotlib.dates as mdates 그 다음은 x축이 어떤 간격으로 tick을 만들어야 한다는 locator을 지정해주는 일입니다. dates 는 정말 다양한 간격의 locator 를 가지고 있습니다.. 2022. 10. 12.
Missingno를 통해 데이터 결측치 확인하는 방법 데이터가 결측치가 있는지 여부는 반드시 확인해야 하는 요소인데요 어떻게 하면 결측치를 좀 더 쉽게 확인 가능한지 몇가지 방법을 알아보겠습니다. 1. Train과 Test 데이터의 결측치 총합 보기 print("Train data has " + str(train.isnull().sum().sum()) + " null values and Test data has " + str(test.isnull().sum().sum()) + " null values") 보통 train.isnull().sum()으로 확인을 하기도 하는데 총합을 보고 싶으면 train.isnull().sum()을 보는 방법도 있습니다. 2. Missingno 라이브러리 사용하기 케글에 자주 등장하는 이 방법은 이렇게 큰 matrix에서 흰색.. 2022. 10. 12.
matplotlib 가로형 boxplot 그리는 법 도대체 가로형 box plot은 어떻게 그리나, 검색을 하다가 Horizontal box plot 을 그리는 법을 찾았습니다. plt.boxplot(train.target,vert=False,patch_artist=True) 바로 이 vert 를 False 로 지정하기만 하면 됩니다! 이 뜻은 no vertical 수직이 아닌 형태로 그리겠다는걸 의미합니다 Source: https://stackoverflow.com/questions/18500011/horizontal-box-plots-in-matplotlib-pandas 2022. 10. 12.
막대그래프에 레이블 달기 (plt.text) 그래프를 그리다보면 각 막대그래프별 수치가 어떻게 되는지 함께 보고싶은데요 수치를 넣는 법을 알아보겠습니다. matplotlib.pyplot.text(x, y, s, fontdict=None, **kwargs) 레이블을 달기 위해서는 어디에 텍스트를 넣어달라고 알려줘야 하기 때문에 x : x값 y: y값 s: 넣을 값 아래 코드에서 y값과 s값이 같은 이유도 y의 위치에 s값을 넣어달라고 명시한 것이기 때문입니다 def addlabels(x,y): for i in range(len(x)): plt.text(i,y[i],y[i],ha='center') plt.ylim(0,11) plt.title("Number of datatypes(train)") addlabels(x,y) plt.show() ha 는 h.. 2022. 10. 12.
DataFrame 열(Columns) 비교하기 (train,test 피처 차이 비교) train 과 test 데이터에 동일한 데이터 피처가 주어졌는지 비교하는 법을 알아보겠습니다. 1. Set 빼기 이용 set(train.columns) - set(test.columns) 파이썬 set 의 특징을 이용해서 train 에는 있지만 test에는 없는 열을 뽑아낼 수 있습니다. 2. Set difference 이용 set(train).difference(set(test)) 1번을 조금 변형한 형태입니다. 🧐 Train, Test간 데이터 동일 여부 비교 DataFrame.equals(Df) ==> True, False 반환 이 방법은 2개의 데이터 프레임이 동일한 값을 가지고 있는지를 쉽게 알수 있는 법입니다 >>> df = pd.DataFrame({1: [10], 2: [20]}) >>> d.. 2022. 10. 12.
728x90
반응형