본문 바로가기

Programming/Python

파이썬 판다스 데이터프레임 카테고리형 데이터

반응형

데이터를 astype('categrory')로 형변환하거나,  pd.cut(), pd.qcut() 함수를 이용하여 데이터를 카테고리화 할 수 있다.

 

카테고리형 데이터 생성: astype

문자열 데이터를 카테고리형으로 변환하면 메모리 사용량을 많이 줄일 수 있다.

 

 

 

카테고리형 데이터 생성: cut

 

카테고리형을 정수형으로 바꾸기 : map, factorize

데이터를 전처리하고 머신러닝 분석을 하기 위해서는 카테고리형이 정수형으로 바뀌어야 한다. 이때 map 이나 factorize를 이용하면 카테고리형 데이터를 정수형으로 변경할 수 있다.

 

 

근데 사실 여기서 데이터타입이 int64에서 32로 변경이 되기는 했는데, 이렇게 나온 게 맞는 것인지 모르겠다. 애초부터 카테고리에서 정수형으로 변경할 때, int62로 바뀌었는데, map을 이용해서 다시 해야 하는 이유는?

반응형