본문 바로가기

반응형

Mathematics

(41)
머신러닝이란? 머신러닝 장점 머신러닝의 정의 머신러닝이란 컴퓨터가 데이터를 통해 스스로 유의미한 학습을 할 수 있도록 프로그래밍하는 과학이자 예술 분야이다. 또 다른 정의. 프로그래밍을 완전히 디테일하게 하지 않더라도, 컴퓨터가 스스로 배울 수 있도록 설계하는 분야다. 좀 더 공학적인 정의 A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. 이 정의는 예시가 좀 필요하다. 머신러닝의 대표격으로 불리는 스팸 이메일 분류 프로그램이 있다고 치자. 1. 스팸 필터..
기대값 Expected value 란? 기대값이란 확률적 평균이라고 할 수 있다. 무슨 말인가 하면, 어떤 확률을 가진 사건을 무한하게 반복했을 경우 얻을 수 있는 값의 평균으로서 기대할 수 있는 값이라는 뜻이다. 무한하게 반복하는 것이 끝날 수는 없기 때문에, 기대값으로서 그 평균을 기대해본다는 뜻이다. 기대값은 매 표본 집단마다 얻어지는 표본 평균들에 대한 일반화라고 할 수 있다. 시행횟수가 $infinity$ 이면, 표본평균은 모집단의 기대값에 수렴한다. (이것을 대수의 법칙으로 설명할 수 있다.) 확률변수 X에 대한 기대값(expectation) 표기 : $E[X] 확률변수 X에 대한 평균 표기 : $\bar{X} \;또는\; \mu x$
대수의 법칙 확률적 수렴에 관한 정리 중 하나로, 시행이 많아질수록 통계적 확률은 수학적 확률에 가까워진다는 것이다. 표본의 크기가 커짐에 따라, 표본 평균이 모 평균에 수렴한다. 모집단에서 무작위로 뽑은 표본 평균 $\barX$의 표본 크기 $n$이 커질수록, 전체 모집단 평균 $\mu$와 한없이 가까워진다.
Standard Deviation 표준편차 공식 표준편차 공식 $$variance:\;s^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$$ or $$standard\;deviation: s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2}$$ $X_i$ : an individual observed value $\bar{X}$ : mean of the observed values 여기서 하려는 거는, $X_i - \bar{X}$를 통해서 개별 값에서 평균을 빼서 차이를 구한다. 이렇게 얻은 개별값의 차이를 제곱하고 더한 다음 제곱근하여 표준편차를 구하는 것이다. 표준편차의 의미 데이터라는 것은 평균에 가까울수록 위와 같이 많은 값들이 모여있는 모양을 하게 된다. 14살 여자의 키에..
Skewed Distribution 치우친 분포 차트 이런 통계 데이터를 보고 skewed distribution 이라고 한다. 나이가 올라감에 따라 사망율이 올라가는 것도 skewed distribution 중 하나로 볼 수 있다.
나이팅게일의 파이차트 나이팅게일의 Pie chart 위생에 대한 인식 전환을 일으킨 것으로 추앙받고 있는 나이팅게일의 통계 그래프다. 파란색은 전염병에 의한 사망, 빨간색은 부상에 의한 사망, 검은색은 기타 사망을 나타냈다. 나이팅게일은 통계적 지식이 상대적으로 적을 대중과 영국 여왕 앞에서 이 통계 그래프와 함께 발표를 했고, 이로 인해 사망자를 현저히 낮추는 업적을 이뤄낼 수 있었다. Data visualization의 힘이라고 할 수 있다. 위와 같은 차트를 Pie chart라고 한다. Area Principle 차트를 잘 사용하면 직관적으로 비교를 할 수 있지만, 잘못된 차트의 사용은 이렇게 편향된 분석을 하게 된다.
Unit of Observation Numerical data numerical data : numbers with context (문맥에 따라 숫자가 의미하는 바가 달라지는 데이터) 이 경우 individual (이 한 사람)은 unit of observation이라고 한다. 이 unit of observation을 통해서 다양한 변수를 살펴보게 된고, 동일한 변수들을 다음 unit of observation을 통해 알아보게 된다. individual gender height education 1 male 175 college 2 female 167 high school 이러한 과정을 통해서 가장 분석하기 좋은 형태인 데이터 스프레드를 얻게 된다. 변수의 종류 Categorical : 카테고리, 수학적 의미는 없음. Quantitativ..
데이터 과학을 위한 통계학적 사고 통계학적 사고 예시1 고용설문조사 미국에서 1025명을 전화설문조사를 통해서 그들이 느끼는 고용시장 취업률에 대해 물어봄 연구를 통해서 찾고자 하는 것이 무엇인가? population of interest : 18세 이상 성인 Information (variable) of interest : 고용시장에 대한 그들의 인식 새롭게 생기는 질문 1025명의 사람의 의견을 고려해야 하는 이유는 무엇인가? 1025명은 전체를 미국의 18세 이상 성인(300만명)을 대변한다고 할 수 있는가? 1025명은 실제 300만명의 사람들과 다르기 때문에 완전하게 대변한다고 할 수 없다. 하지만, 랜덤하게 샘플링했기 때문에 전체적인 트렌드를 살펴보는 근거는 될 수 있다. 여기서 알 수 있는 사실: $$Statistics\;d..

반응형