본문 바로가기

Programming/Python

파이썬 Pandas Series 시리즈 공부

반응형

데이터 분석을 하게 되면, 계속 마주치게 되는 녀석이 Pandas다. 이 포스팅에는 pandas에 대해서 지속적으로 공부하게 되는 내용들을 하나씩 추가할 예정이다. 의식의 흐름, 공부의 흐름대로 정리하는거라 두서가 없이 정리할 예정.

 

 

Pandas란?


pandas는 데이터프레임이라는 표 형식의 자료구조와 시리즈라는 배열 형식의 자료구조를 제공한다.  이 두 가지 자료구조를 잘 이해하고 조작할 수 있어야 데이터 분석에 활용할 수 있다.

 

  • 시리즈
    값(values)과 인덱스로 구성되어 있다.
  • 데이터프레임
    시리즈의 모음으로 칼럼과 인덱스, 값으로 구성되어 있다.

출처 : https://wikidocs.net/75004

 

01-Pandas

`Pandas`는 데이터 분석을 위한 추상적인 자료구조와 데이터 분석 도구를 제공합니다. 단독으로 사용하기 보다는 `NumPy`, `scikit-learn`, `matplo ...

wikidocs.net

 

 

시리즈


시리즈는 판다스의 기본 자료구조로 값의 배열과 인덱스 배열로 구성된다. 인덱스는 값의 위치를 가르키는 구분자가 된다.

 

인덱스 정보를 아래와 같이 제공하지 않으면, 시리즈가 자동으로 숫자형식으로 인덱스가 형성된다.

 

시리즈 : 정보 확인


아래와 같이 index와 values를 사용해서 시리즈의 정보를 각각 확인할 수 있다.

 

시리즈 : 딕셔너리 전달


파이썬 딕셔너리를 전달해서 시리즈를 생성할 수도 있다. 이 경우 딕셔너리의 키가 인덱스가 되고, 밸류가 값이 된다.

 

 

시리즈 재색인


reindex 함수를 사용해 생성된 시리즈의 순서를 변경하거나 신규 인덱스를 추가하거나 기존의 인덱스를 제거할 수도 있다. 신규 인덱스를 추가하면 NA 값으로 설정된다.

 

조회


시리즈의 값을 조회할 때는 인덱스 번호와 이름을 이용할 수 있다. 또 값을 비교하는 조건문을 이용할 때도 조회할 수 있다.

 

 

조회 : 조건문


 

# isnull() 아무것도 없는 정보

# notnull() 정보가 있는 것

 

 

변경


다중 데이터를 변경할 때는 튜플을 사용한다.

 

 

삭제 : del


 

삭제 : drop

 


 

시리즈의 속성


시리즈의 주요 속성에 대해서 

속성 설명
name 이름
index 인덱스
values

반응형