반응형
데이터 랭글링 정의
- 데이터 정제(cleansing)는 원천데이터를 시각화하거나 모델의 인풋으로 넣기 위한 사전 준비 과정을 말한다. 데이터 정제는 정형화된 데이터를 준비하는 사전단계를 지칭하는 것으로 과거에 많이 사용된 개념이다.
- 하지만, 비정형 데이터와 정형 데이터가 함께 공존하고 새로운 유형의 데이터가 넘쳐나면서 데이터 랭글링 혹은 데이터 먼징 같은 용어가 사용된다.
50~80%의 데이터 과학의 과정이란 수집과 정제 과정에서 소모된다. 데이터 전문가들은 데이터 잡부가 먼저 되어야 한다고 말한다.
데이터 랭글링(Data Wrangling)의 6단계
- 1. Discovering : 데이터에 대한 깊은 이해를 하는 단계
- 2. Structuring : 필요없는 행/컬럼 삭제 및 분석 가능한 형태로 구조화하는 단계
- 3. Cleaning : 데이터 이상치 결측치를 발견하고 처리하는 단계
- 4. Enriching : 데이터를 풍부하게 하기 위한 전략을 짜는 단계
- 5. Validating : 데이터의 분포 등을 검정하는 단계
- 6. Publishing : 데이터를 분석 모델의 인풋으로 입력하는 단계
반응형
'Mathematics > Statistics' 카테고리의 다른 글
회귀분석(regression analysis)이란? (0) | 2021.12.30 |
---|---|
독립변수와 종속변수란 무엇인가? (0) | 2021.12.30 |
에러 분석(Error Analysis - post - Modeling) (0) | 2021.12.30 |
Feature Engineering(특성 공학)이란? (0) | 2021.12.30 |
전처리(processing) vs 탐색적 데이터 분석(EDA) (0) | 2021.12.30 |