본문 바로가기

Mathematics/Statistics

데이터 과학 수행의 5가지 필수 단계

반응형
  1. 흥미로운 질문하기
  2. 데이터 수집
  3. 데이터 분석
  4. 데이터 모델링
  5. 결과 전달 및 시각화(통찰)

 

1. 흥미로운 질문하기

대답할 수 있는 데이터가 있는 지 여부에 관계없이 질문으로 시작한다. 인간적인 관점에서 답을 내릴 수 있다 없다를 판단하지 말라.  이 단계에서는 유연하게 사고해야 한다. 

 

 

2. 데이터 수집

집중할만한 질문을 정했다면 그 질문에 대답할 수 있는 데이터가 있는지 조사해야 한다. 데이터는 정말 상상하지도 못하는 곳에서 나올 수 있고, 다양한 출처가 있을 수 있다. 이 단계는 매우 창조적인 과정이다.

 

3. 데이터 탐색

데이터를 얻었다면, 데이터셋을 만나고서 해야 하는 4가지 질문을 통해서 데이터의 유형을 분석한다. 이 단계가 완료되면 분석가는 일반적으로 코드나 기타 도구를 사용해서 데이터를 조작하고 탐색하고 도메인에 대해 학습하는데 시간을 많이 보내게 된다. 분석가는 데이터가 무엇을 말하려고 하는지에 대해 매우 잘 알고 있게 된다.

 

4. 데이터 모델링

이 단계는 통계 및 머신 러닝 모델 사용과 연관된다. 이 단계에서 모델을 선택하고 맞출 뿐만 아니라, 그 효과를 정량화하기 위해 수학적 검증 측정 지표를 주입하게 된다. 

 

5. 결과 전달 및 시각화

이 단계가 사실 가장 핵심적인 단계라고 할 수 있다. 이해하기 쉬운 형식으로 결과를 만드는 능력이 필요하다. 

반응형