반응형
- 흥미로운 질문하기
- 데이터 수집
- 데이터 분석
- 데이터 모델링
- 결과 전달 및 시각화(통찰)
1. 흥미로운 질문하기
대답할 수 있는 데이터가 있는 지 여부에 관계없이 질문으로 시작한다. 인간적인 관점에서 답을 내릴 수 있다 없다를 판단하지 말라. 이 단계에서는 유연하게 사고해야 한다.
2. 데이터 수집
집중할만한 질문을 정했다면 그 질문에 대답할 수 있는 데이터가 있는지 조사해야 한다. 데이터는 정말 상상하지도 못하는 곳에서 나올 수 있고, 다양한 출처가 있을 수 있다. 이 단계는 매우 창조적인 과정이다.
3. 데이터 탐색
데이터를 얻었다면, 데이터셋을 만나고서 해야 하는 4가지 질문을 통해서 데이터의 유형을 분석한다. 이 단계가 완료되면 분석가는 일반적으로 코드나 기타 도구를 사용해서 데이터를 조작하고 탐색하고 도메인에 대해 학습하는데 시간을 많이 보내게 된다. 분석가는 데이터가 무엇을 말하려고 하는지에 대해 매우 잘 알고 있게 된다.
4. 데이터 모델링
이 단계는 통계 및 머신 러닝 모델 사용과 연관된다. 이 단계에서 모델을 선택하고 맞출 뿐만 아니라, 그 효과를 정량화하기 위해 수학적 검증 측정 지표를 주입하게 된다.
5. 결과 전달 및 시각화
이 단계가 사실 가장 핵심적인 단계라고 할 수 있다. 이해하기 쉬운 형식으로 결과를 만드는 능력이 필요하다.
반응형
'Mathematics > Statistics' 카테고리의 다른 글
Revolution in Science (0) | 2022.01.15 |
---|---|
A Very Short History Of Data Science (0) | 2022.01.15 |
데이터셋을 만날 때마다 해야 하는 질문 (0) | 2022.01.09 |
데이터의 4가지 수준 (0) | 2022.01.07 |
팀 버너스 리의 월드 와이드 웹 (0) | 2021.12.31 |