본문 바로가기
카테고리 없음

Kaggle 데이터셋 Google Colab에서 이용하기!

by Queen2 2022. 5. 1.
728x90
반응형

안녕하세요, 오늘은 Kaggle의 데이터 셋을 Google Colab에서 연결하는 법을 알려드리려 합니다!

 

Kaggle에는 정말 많은 데이터 셋이 있지만,

데이터셋 용량이 큰만큼 개인 컴퓨터에서 일일이 다운로드 받고 Jupyter Notebook으로 돌리기란 용량낭비도 많고

시간도 많이 걸리기 때문에 여러 데이터 대학원에서는 Google Colab로 작업을 하더라구요.

 

사실 Kaggle Notebook으로 버텨보겠다 생각했지만, 얼마전 이러 에러가 뜨더군요.

이제  Kaggle에서 코드를 돌리기 한계가 있겠다 싶어서, Google Colab에서 Kaggle 데이터를 다운로드 받기로 했습니다.

 저는 아래 사이트를 참고 했는데, 영어가 어려우신 분들을 위해 간단히 요약하여 전달드리겠습니다.

 

https://medium.com/analytics-vidhya/how-to-download-kaggle-datasets-into-google-colab-via-google-drive-dcb348d7af07

 

How to download Kaggle Datasets into Google Colab via Google Drive

… the easiest way to download datasets from Kaggle to Google Colab via Google Drive. Google Drive is used to store datasets for later use …

medium.com

 

1. Kaggle > My account > 하단에 Create New API Token

버튼을 누르면 메모장 형태의  json 파일이 다운로드 받아진다.

 

2. 본인의 Google Drive 계정으로 들어가서 'Kaggle'이라는 폴더를 만든다

 

3. 안에 다운받은 API json파일을 넣는다

 

4. 왼쪽 마우스를 누르면 더보기에서 'Google Colaboratory' 파일을 생성한다

Colab 파일 만들기

5. Colab 파일에 들어가서 아래 코드를 차례로 입력한다

 

from google.colab import drive
drive.mount('/content/drive')

 

실행 shift+enter

 

import os
os.environ['KAGGLE_CONFIG_DIR'] = "/content/drive/MyDrive/Kaggle"

 

실행 shift+enter

 

 

%cd /content/drive/MyDrive/Kaggle/

Kaggle - Google Colab 연결 코드

6. Kaggle로 가서 데이터 API를 받는다

 

API 는 아래처럼 Kaggle 대회나 데이터셋에 들어가면 Data > 하단에 코드 형태로 있다.

Kaggle data API (노란부분 참조)

7. 느낌표를 치고 복사한 API를 Colab에 붙여넣고 실행하면 다운로드 끝!!

! kaggle competitions download -c nbme-score-clinical-patient-notes

 

 

생각보다 간단해서 앞으로 많이 쓸 것 같은 방법이다.

 

예전에 Kaggle Grand Master분이 나온 유투브에서 Google Colab 만을 사용해서 Master가 된 분도 있다고 한다.

그만큼 개인 컴퓨터의 용량과 성능과 상관 없이 데이터 분석에 유용하게 사용할 수 있는 웹사이트인 듯 하다.

728x90
반응형

댓글