안녕하세요, 오늘은 Kaggle의 데이터 셋을 Google Colab에서 연결하는 법을 알려드리려 합니다!
Kaggle에는 정말 많은 데이터 셋이 있지만,
데이터셋 용량이 큰만큼 개인 컴퓨터에서 일일이 다운로드 받고 Jupyter Notebook으로 돌리기란 용량낭비도 많고
시간도 많이 걸리기 때문에 여러 데이터 대학원에서는 Google Colab로 작업을 하더라구요.
사실 Kaggle Notebook으로 버텨보겠다 생각했지만, 얼마전 이러 에러가 뜨더군요.
이제 Kaggle에서 코드를 돌리기 한계가 있겠다 싶어서, Google Colab에서 Kaggle 데이터를 다운로드 받기로 했습니다.
저는 아래 사이트를 참고 했는데, 영어가 어려우신 분들을 위해 간단히 요약하여 전달드리겠습니다.
1. Kaggle > My account > 하단에 Create New API Token
버튼을 누르면 메모장 형태의 json 파일이 다운로드 받아진다.
2. 본인의 Google Drive 계정으로 들어가서 'Kaggle'이라는 폴더를 만든다
3. 안에 다운받은 API json파일을 넣는다
4. 왼쪽 마우스를 누르면 더보기에서 'Google Colaboratory' 파일을 생성한다
5. Colab 파일에 들어가서 아래 코드를 차례로 입력한다
from google.colab import drive
drive.mount('/content/drive')
실행 shift+enter
import os
os.environ['KAGGLE_CONFIG_DIR'] = "/content/drive/MyDrive/Kaggle"
실행 shift+enter
%cd /content/drive/MyDrive/Kaggle/
6. Kaggle로 가서 데이터 API를 받는다
API 는 아래처럼 Kaggle 대회나 데이터셋에 들어가면 Data > 하단에 코드 형태로 있다.
7. 느낌표를 치고 복사한 API를 Colab에 붙여넣고 실행하면 다운로드 끝!!
! kaggle competitions download -c nbme-score-clinical-patient-notes
생각보다 간단해서 앞으로 많이 쓸 것 같은 방법이다.
예전에 Kaggle Grand Master분이 나온 유투브에서 Google Colab 만을 사용해서 Master가 된 분도 있다고 한다.
그만큼 개인 컴퓨터의 용량과 성능과 상관 없이 데이터 분석에 유용하게 사용할 수 있는 웹사이트인 듯 하다.
댓글