본문 바로가기

Programming/Python

pandas dataframe 이해

반응형

데이터프레임 개념

데이터프레임은 관계형 데이터베이스의 테이블.

 

데이터프레임은 칼럼 단위의 시리즈 모음과 인덱스로 구성

 

 

데이터프레임 생성

1. 딕셔너리 전달

pd.DataFrame에 딕셔너리를 전달하면 데이터 프레임이 생성된다. 딕셔너리의 키가 칼럼 정보가 되고, 숫자 인덱스가 자동으로 생성된다.

 

 

2. 특정 칼럼만 생성

columns를 이용해 특정 칼럼의 데이터만 생성할 수도 있다. 딕셔너리에 없는 칼럼 정보가 전달되면 NA 값으로 데이터를 생성한다.

 

 

3. 인덱스 지정으로 생성


데이터프레임 조회

1. 칼럼 기준

 

2. 인덱스 기준

인덱스 기준 데이터 조회는 loc, iloc 함수를 이용하여 접근.

loc는 인덱스명을 이용하고, iloc는 인덱스 번호를 이용.

loc로 인덱스 정보를 가져오는 것을 명확하게 보여주기 위해서 인덱스를 문자형으로 바꾸어서 확인

 

 

3. 칼럼, 인덱스로 특정 데이터 조회

 

4. 조건식으로 조회

AND(&), OR(|) 조건을 이용하거나 isin()을 이용해서 특정값을 찾을 수도 있다. 

 


신규칼럼 추가

신규 칼럼을 추가할 때는 새로운 칼럼명에 추가할 데이터를 대입하면 된다.

 

 

 


칼럼 변경

 

1. 특정조건을 변경

2. 특정 위치의 데이터 변경

 

3. 삭제

삭제를 할 때는 del 혹은 drop()을 이용한다.

 

drop()은 삭제된 값을 복사해서 반환한다.

inplace 옵션을 사용해 원본의 데이터를 바로 삭제할 수도 있다.

사용하려면 axis 를 이용해서 삭제할 데이터를 정확하게 지정해줘야 한다.

 

axis 설명
0 or 'rows' 행. row, 가로축
1 or 'columns' 열, column, 세로축

del은 바로 삭제하지만, dro()은 지정한 값을 삭제한 복사본을 반환한다. inplace옵션이 없으면 원본이 삭제되지 않는다.

 

 

 


데이터프레임의 속성

  • index : 인덱스
  • columns : 칼럼
  • values : 값
  • shape : 인덱스, 칼럼 사이즈
  • size : 값의 길이
  • dtype : 데이터 타입 확인
  • T : 칼럼, 인덱스를 전환

반응형