본문 바로가기

Mathematics/Statistics

데이터 과학을 위한 통계학적 사고

반응형

통계학적 사고

 

예시1 고용설문조사

미국에서 1025명을 전화설문조사를 통해서 그들이 느끼는 고용시장 취업률에 대해 물어봄

 

연구를 통해서 찾고자 하는 것이 무엇인가?

  • population of interest : 18세 이상 성인
  • Information (variable) of interest : 고용시장에 대한 그들의 인식

새롭게 생기는 질문

  • 1025명의 사람의 의견을 고려해야 하는 이유는 무엇인가?
  • 1025명은 전체를 미국의 18세 이상 성인(300만명)을 대변한다고 할 수 있는가?

1025명은 실제 300만명의 사람들과 다르기 때문에 완전하게 대변한다고 할 수 없다. 하지만, 랜덤하게 샘플링했기 때문에 전체적인 트렌드를 살펴보는 근거는 될 수 있다.

 

여기서 알 수 있는 사실:

 

$$Statistics\;derives\;Insignt\\Sample\to Population$$

 

통계는 내가 조사하고자 하는 population의 샘플을 취하여, 분석을 진행함으로써 통찰을 얻는다.

 

 


 

예시 2  고혈압

 

연구를 통해서 얻고자 하는 것이 무엇인가?

  • 신장병 혹은 심장병 확율이 높은 50대 이상의 사람 
    모든 사람들을 다 조사할 수 없으므로, 샘플을 취해야 한다.
    예) 100개 이상의 의료 센터 및 임상 실습을 통한 채용 :9300명
    여성, 소수자 및 노인을 포함하는 다양한 표본
    -> 너무 랜덤하게 샘플을 취하게 되면 데이터 또한 너무 랜덤하게 나올 수 있기 때문에, 전체를 대변하기 위해서 다양한 종류의 샘플군을 취한다. 이것을 샘플링 전략이라고 한다.

 

연구방법

이렇게 나온 건강결과를 비교하고 분석을 하는데, 이 차이가 우연에 의한 결과인지를 분석해야 한다.

 

여기서 알 수 있는 사실

 

이러한 연구처럼 결과는 인풋에 따라서 달라지기도 하지만, 다양한 랜덤 요소에 의해서도 영향을 미칠 수가 있다는 사실을 알고 있어야 한다. 예컨데, 나이, 건강습관, 마음, 환경적 요소 등이다.

 

 

그렇기 때문에, 데이터를 다루는 데이터 사이언티스트는 

"이 치료법이 실제로 어느 정도의 영향을 미쳤는가?"를 통계적으로 추론할 수 있어야 한다. 

 

Statistically Significant

$$Observed\;effect\to statistically\;significant$$

건강결과를 비교해보았을 때, 차이가 극명하여 우연이나 다른 요소에 의한 것임이 아니라는 것을 확실히 말할 수 있을 때, Statistically significant이라는 표현을 쓴다. 데이터 자체로 증명을 해준다는 말이다. 

 

$$Statistics\;establishes\\\;Statistical\;Significance\;of\\\;observed\;signal\;by\;studying\;randomness$$

 


From Data to Answers

데이터 과학자는 당연히 데이터를 가지고 분석을 하는 것이지만, 데이터라는 것이 처음부터 주어지지 않았을 때는 데이터를 생성해야 한다. 데이터가 어떻게 생성되는지 그 과정에 대한 이해가 있을 때는 데이터를 생성하여, 생성된 데이터를 분석하면 되지만, 관찰 연구와 같은 경우는 데이터가 어떻게 생성되는지도 알지 못하는 경우가 있어 데이터 생성과정에 대한 추정을 하고, 이 추정에서 분석방법을 도출하고, 실험을 해봐야 한다. 

 

데이터 생성과정에 대한 잘못되었을 경우에는 -> 마찬가지로 분석결과가 올바르지 않게 나온다.

데이터 생성과정에 대한 잘못되었을 경우에는 -> 마찬가지로 분석결과가 올바르지 않게 나온다. 이 경우 결과를 분석하여서 추정과정에서 무엇이 잘못되었는지를 추론하고, 추정과정을 수정, 분석방법을 수정하여 결과를 재도출한다. 이렇게 반복한다.

 

여기서 알게 되는 중요한 포인트 :

 

  • 데이터 생성과정에 대한 잘못되었을 경우에는 -> 마찬가지로 분석결과가 올바르지 않게 나온다.
    • sampling, randomization, measurements, independence, etc.
  • 빅데이터의 경우 이러한 경향이 더 많이 나온다.
반응형

'Mathematics > Statistics' 카테고리의 다른 글

나이팅게일의 파이차트  (0) 2022.01.15
Unit of Observation  (0) 2022.01.15
Big Data  (0) 2022.01.15
Revolution in Science  (0) 2022.01.15
A Very Short History Of Data Science  (0) 2022.01.15