데이터 분석을 하게 되면, 계속 마주치게 되는 녀석이 Pandas다. 이 포스팅에는 pandas에 대해서 지속적으로 공부하게 되는 내용들을 하나씩 추가할 예정이다. 의식의 흐름, 공부의 흐름대로 정리하는거라 두서가 없이 정리할 예정.
Pandas란?
pandas는 데이터프레임이라는 표 형식의 자료구조와 시리즈라는 배열 형식의 자료구조를 제공한다. 이 두 가지 자료구조를 잘 이해하고 조작할 수 있어야 데이터 분석에 활용할 수 있다.
- 시리즈
값(values)과 인덱스로 구성되어 있다. - 데이터프레임
시리즈의 모음으로 칼럼과 인덱스, 값으로 구성되어 있다.
출처 : https://wikidocs.net/75004
시리즈
시리즈는 판다스의 기본 자료구조로 값의 배열과 인덱스 배열로 구성된다. 인덱스는 값의 위치를 가르키는 구분자가 된다.
인덱스 정보를 아래와 같이 제공하지 않으면, 시리즈가 자동으로 숫자형식으로 인덱스가 형성된다.
시리즈 : 정보 확인
아래와 같이 index와 values를 사용해서 시리즈의 정보를 각각 확인할 수 있다.
시리즈 : 딕셔너리 전달
파이썬 딕셔너리를 전달해서 시리즈를 생성할 수도 있다. 이 경우 딕셔너리의 키가 인덱스가 되고, 밸류가 값이 된다.
시리즈 재색인
reindex 함수를 사용해 생성된 시리즈의 순서를 변경하거나 신규 인덱스를 추가하거나 기존의 인덱스를 제거할 수도 있다. 신규 인덱스를 추가하면 NA 값으로 설정된다.
조회
시리즈의 값을 조회할 때는 인덱스 번호와 이름을 이용할 수 있다. 또 값을 비교하는 조건문을 이용할 때도 조회할 수 있다.
조회 : 조건문
# isnull() 아무것도 없는 정보
# notnull() 정보가 있는 것
변경
다중 데이터를 변경할 때는 튜플을 사용한다.
삭제 : del
삭제 : drop
시리즈의 속성
시리즈의 주요 속성에 대해서
속성 | 설명 |
name | 이름 |
index | 인덱스 |
values | 값 |
'Programming > Python' 카테고리의 다른 글
파이썬 람다 lambda (익명함수) 함수 사용법 (0) | 2022.01.03 |
---|---|
불리언(Boolean)과 논리연산, 파이썬 이해하기 (0) | 2022.01.03 |
문자열 포매팅 (0) | 2022.01.02 |
파이썬 반환문 return 사용법 (0) | 2022.01.02 |
JSON 파일이란? (JavaScript Object Notation) (0) | 2022.01.02 |