반응형
데이터를 astype('categrory')로 형변환하거나, pd.cut(), pd.qcut() 함수를 이용하여 데이터를 카테고리화 할 수 있다.
카테고리형 데이터 생성: astype
문자열 데이터를 카테고리형으로 변환하면 메모리 사용량을 많이 줄일 수 있다.
카테고리형 데이터 생성: cut
카테고리형을 정수형으로 바꾸기 : map, factorize
데이터를 전처리하고 머신러닝 분석을 하기 위해서는 카테고리형이 정수형으로 바뀌어야 한다. 이때 map 이나 factorize를 이용하면 카테고리형 데이터를 정수형으로 변경할 수 있다.
근데 사실 여기서 데이터타입이 int64에서 32로 변경이 되기는 했는데, 이렇게 나온 게 맞는 것인지 모르겠다. 애초부터 카테고리에서 정수형으로 변경할 때, int62로 바뀌었는데, map을 이용해서 다시 해야 하는 이유는?
반응형
'Programming > Python' 카테고리의 다른 글
파이썬 판다스 기능 - loop(iterrows, itertuples) (0) | 2022.01.06 |
---|---|
파이썬 판다스 기본 함수 (0) | 2022.01.06 |
파이썬 Pandas 라이브러리 데이터 타입 변경 (0) | 2022.01.04 |
파이썬 인자(Argument) 개념 잡기 (0) | 2022.01.04 |
pandas dataframe 이해 (0) | 2022.01.03 |