본문 바로가기

Programming/Python

Kaggle 에서 dataset 다운로드 받기 opendatasets library

반응형

준비물 :

케글에 가서 회원가입을 하고, 왼쪽 카테고리의 Data 를 누르면 Datasets 페이지로 이동한다. 거기에서 자신이 원하는 dataset을 고르자.

 

 

 

1. 케글 API 접속을 위한 케글 설치

!pip install kaggle

(!) 느낌표는 따로 터미널을 사용하지 않고도 주피터 노트북에서 터미널 기능을 바로 사용할 수 있는 기능이다.

 

 

2. API Token 만들기

케글 어카운트에 접속해서 프로필 페이지에 가면, 어카운트 탭에 "Create New API token" 이라는 버튼이 있다.  이걸 누르면 kaggle.json 파일이 다운로드되는데, 

!mkdir .kaggel

이렇게 (.kaggle) 디렉토리를 생성한 후,

 

kaggle.json을 “C:\Users\<username>\.kaggle\” 디렉토리에 붙혀넣기 한다.

 

 

3. opendatasets 라이브러리 설치

!pip install opendatasets

케글과 같은 오픈 dataset들을 다운로드하는데 사용한다.

 

 

4. opendatasets library 가져오기

import opendatasets as od

 

 

5. 가져오고 싶은 dataset를 선택하고 불러온다.

od.download("https://www.kaggle.com/meetnagadia/coco-cola-stock-data-19622021")

나는 코카콜라 주가 데이터를 가져와보도록 했는데, 자신이 원하는 케글 데이터셋을 고르면 된다.

 

여기서 조금 헤맸는데, 처음 골랐던 dataset이 어떤 문제가 있었는지 infinte loop상태로 들어가서 주피터 노트북이 멈추곤 했다. 그런 상태가 된다면, 간혹 dataset 자체의 문제가 있을 수도 있으니 다른 것을 선택해보도록 하자.

 

그리고 불러오는 dataset 타입에 따라서 라이브러리 기능을 분류해서 잘사용해야 한다.

 

이렇게 코드를 치고나면, 

 

Please provide your Kaggle credentials to download this dataset. Learn more: http://bit.ly/kaggle-creds
Your Kaggle username: 
Your Kaggle Key:

이렇게 작성하라는 안내가 나온다.

 

아까 다운로드 받은 kaggle.json 파일을 열면, 자신의 credential 정보가 적혀 있다. json 파일은 txt형태로 읽을 수 있기 때문에 txt, 크롬, ide 등등으로 모두 열어볼 수 있다.


 

우선은 여기까지!

 

다운로드를 받은 dataset을 활용해 다양한 분석을 할 수 있을거다. 다음에는 pandas를 활용해 데이터를 열어보도록 해보겠다.

반응형