본문 바로가기

Mathematics/Statistics

데이터 랭글링 (Data Wrangling)이란?

반응형

데이터 랭글링 정의

  • 데이터 정제(cleansing)는 원천데이터를 시각화하거나 모델의 인풋으로 넣기 위한 사전 준비 과정을 말한다. 데이터 정제는 정형화된 데이터를 준비하는 사전단계를 지칭하는 것으로 과거에 많이 사용된 개념이다.
  • 하지만, 비정형 데이터와 정형 데이터가 함께 공존하고 새로운 유형의 데이터가 넘쳐나면서 데이터 랭글링 혹은 데이터 먼징 같은 용어가 사용된다.

50~80%의 데이터 과학의 과정이란 수집과 정제 과정에서 소모된다. 데이터 전문가들은 데이터 잡부가 먼저 되어야 한다고 말한다.

 

 

데이터 랭글링(Data Wrangling)의 6단계

  • 1. Discovering : 데이터에 대한 깊은 이해를 하는 단계
  • 2. Structuring : 필요없는 행/컬럼 삭제 및 분석 가능한 형태로 구조화하는 단계
  • 3. Cleaning : 데이터 이상치 결측치를 발견하고 처리하는 단계
  • 4. Enriching : 데이터를 풍부하게 하기 위한 전략을 짜는 단계
  • 5. Validating : 데이터의 분포 등을 검정하는 단계
  • 6. Publishing : 데이터를 분석 모델의 인풋으로 입력하는 단계

 

  •  

 

반응형