본문 바로가기

Mathematics/Statistics

전처리(processing) vs 탐색적 데이터 분석(EDA)

반응형

데이터에서 가장 오래 걸리는 작업은 데이터를 수집하고 전처리하는 과정이라고 한다.

 

데이터 사이언스의 프로세스

현실에서 데이터를 수집하고 전처리 과정을 거치면 클린 데이터셋이 나오는데, 이것을 가지고 바로 머신러닝이나 딥러닝을 돌리는 것이 아니라, EDA(탐색적 데이터 분석)라는 과정을 거치게 된다.

 

EDA란 나온 데이터셋이 문제가 없는지, 알고리즘을 돌리면 되는 지를 확인하는 과정이라고 할 수 있다. 전처리와 EDA 과정은 이렇게 실제 분석하기 전에 하는 작업이라는 점에서 연관성이 있다. 원칙적으로는 개념이 다르지만, 작업이 함께 이뤄진다.

 

실패와 비용를 줄이기 위해 시각화한 데이터를 탐색하는 과정

 

1. 변수간의 관계

2. 데이터 통계

3. 변수의 질

 

이 세 가지를 포함하는 과정.

 


데이터 전처리 과정과의 차이

 

- EDA는 알고리즘을 돌리기 전에 비용을 줄이기 위해 체크하는 과정.

- 전처리는 수집된 데이터를 이상하거나 극단적인 데이터가 섞여 있을 수 있어서 정제하고 가공하고 변환하는 과정으로 모델링에 필요한 변수로 만드는 과정이다.

 

Raw data -> (transforming) -> processed data.

 

키워드

결측치 제거, 노이즈 제거, 이상치 제거, 불균형, 과대과소표집 완화,

데이터 실수화, 데이터 정제, 축소, 변환, 조정.

 

 

 

반응형