본문 바로가기

Programming/Python

파이썬으로 csv 파일 불러오기 pandas

반응형

이 글은 이전 글에서 이어지는 내용이다.

 

 

 

Kaggle 에서 dataset 다운로드 받기 opendatasets library

준비물 : 케글에 가서 회원가입을 하고, 왼쪽 카테고리의 Data 를 누르면 Datasets 페이지로 이동한다. 거기에서 자신이 원하는 dataset을 고르자. 1. 케글 API 접속을 위한 케글 설치 !pip install kaggle (!)

mrlazydev.tistory.com

이전 글에서 kaggle에서 dataset을 다운로드 받기까지 해봤다.

 

이제 다운로드 받은 csv 파일을 열어볼 차례다.

 


1. pandas library 설치하기

!pip install pandas

주피터 노트북 사용자라면 default로 설치되어 있다. 판다스는 오픈소스 데이터 분석, 조작툴이다.

 

2. pandas 를 불러오고, csv 파일 읽기

import pandas as pd
coke = pd.read_csv("COCO COLA.csv")
type(coke)

판다스를 불러오고, pd.read_csv() 기능을 이용해 csv 파일을 불러올 수 이싿.

 

나중에 계속 해서 쓰일 수 있기 때문에

불러오는 기능을 coke 로 정의를 내려두었다.

 

pandas.core.frame.DataFrame

성공하면 이렇게 나온다.

 

실패하면, csv 파일이 파이썬이 실행되고 있는 위치와 동일한 지를 확인해보자. 나는 이거 때문에 엄청 헤맸다.

 

 

3. csv 데이터 읽어보기

>>> len(coke)
15096
>>> coke.shape
(15096, 7)

len 은 데이터의 열의 갯수를 알려준다. 코카콜라 csv는 열이 15096개가 있다는 뜻이다.

.shape는 데이터의 차원을 알려준다. 이 경우 행 15096, 열 7 로 구성된 데이터프레임이라는 뜻이다.

 

 

4. 처음 5열 열어보기

coke.head()

불러온 파일이 실제로 자신이 원하는 데이터를 담고 있는 지 확인하기 위해서 처음 5열을 볼 수 있다.

 

 

반응형