본문 바로가기

반응형

Mathematics

(41)
벡터 벡터 : 일련의 숫자 목록을 나타내는 1차원 배열array 일반적으로 다음과 같이 표현된다. $$\overrightarrow{x}\;또는\;x$$ 벡터는 벡터의 개별 구성원인 구성 요소로 나눠진다. 아래 수식과 같이 첨자 표기법을 사용해 이러한 요소를 나타낼 수 있다. $$If\quad\overrightarrow{x} \left(\begin{array}{c}3\\ 6\\8\end{array}\right)\quad then\quad x_1=3$$ 파이썬에서 이러한 배열을 여러 가지 방법으로 표현할 수 있는데, 단순히 파이썬 list를 사용할 수도 있다. x = [3, 6, 8] 하지만, 더 많은 기능을 제공하는 numpy를 사용하는 것이 유리하다. import numpy as np x = np.array0..
데이터 과학 수행의 5가지 필수 단계 흥미로운 질문하기 데이터 수집 데이터 분석 데이터 모델링 결과 전달 및 시각화(통찰) 1. 흥미로운 질문하기 대답할 수 있는 데이터가 있는 지 여부에 관계없이 질문으로 시작한다. 인간적인 관점에서 답을 내릴 수 있다 없다를 판단하지 말라. 이 단계에서는 유연하게 사고해야 한다. 2. 데이터 수집 집중할만한 질문을 정했다면 그 질문에 대답할 수 있는 데이터가 있는지 조사해야 한다. 데이터는 정말 상상하지도 못하는 곳에서 나올 수 있고, 다양한 출처가 있을 수 있다. 이 단계는 매우 창조적인 과정이다. 3. 데이터 탐색 데이터를 얻었다면, 데이터셋을 만나고서 해야 하는 4가지 질문을 통해서 데이터의 유형을 분석한다. 이 단계가 완료되면 분석가는 일반적으로 코드나 기타 도구를 사용해서 데이터를 조작하고 탐색하..
데이터셋을 만날 때마다 해야 하는 질문 데이터가 구조화되어 있는가? 예를 들어 데이터가 좋고 정제된 행열 구조를 갖추고 있는가? 각 열은 정량적인가 아니면 정성적인가? 각 열의 데이터 수준은 무엇인가? 예를 들어 명목, 서열, 등간, 비율 수준의 값인가? 이러한 질문을 통해 데이터 분석의 다음 단계를 결정짓게 된다.떄로는 더 많은 관점을 얻기 위해서 데이터 수준을 전환해야 할 수도 있다.
데이터의 4가지 수준 일반적으로 구조적 데이터의 특정한 특성은 데이터의 4가지 수준 중 하나로 분류된다. 명목수준(nominal level) 서열수준(ordinal level) 등간수준(interval level) 비율수준(ratio level) 아래로 내려갈 수록 더 많은 구조를 얻고 따라서 분석으로 더 많은 결과를 얻게 된다. 각 수준은 데이터의 중심을 측정할 때 자체적으로 허용되는 관행을 따른다. 일반적으로 중앙값/평균을 중심의 형식으로 생각하는 경향이 있지만, 이것은 특정 유형의 데이터에만 해당된다. 명목수준 명목수준은 순수하게 이름이나 범주로 설명되는 데이터로 구성된다. 성별, 국적, 생물의 종, 맥주 효모 균주 등이 포함된다. 숫자로 기술되지 않으므로, 정성적이다. 정성적이기 때문에 당연히 더하기나 나누기 같은 정..
로그(log)란 무엇인가? 로그라는 것은 지수를 다른 방법으로 표현한 것이다. 예를 들어, 3의 4 제곱은 81 이다. 이를 지수 방정식으로 표현하면, 3^4 = 81 로 나타낼 수 있다. 3을 몇 제곱해야 81이 되나요? 라고 묻는다면, 정답은 4가 되지만 수학적으로 표현하려면 어떻게 해야 할까? 이것을 로그 방정식으로 나타낼 수 있다. log3(81) = 4 라는 형태로 나타낼 수 있다.
팀 버너스 리의 월드 와이드 웹 웹 이야기를 조금 해보자. ‘웹의 아버지’로 불리는 팀 버너스 리가 쓴 월드 와이드 웹을 인상깊게 읽었다. 현재는 절판되서, 나도 정말 어렵게 구해서 읽었지만, 구하기도 어렵다. 팀 버너스 리가 누구인지 아는 사람도 별로 없는 이런 상황은 좀 서글픈 느낌도 드는데, 이고잉 님도 팀 버너스 리를 무척 존경하는 것으로 안다. 수업에도 리 이야기가 들어가는 걸로 아는데, 독자에게 팀 버너스 리에 관해 하고 싶은 이야기가 있다면. 흔히 IT 분야에서 롤모델을 떠올리면, 스티븐 잡스나 빌 게이츠를 떠올리기 쉽다. 그런데 이런 분들 말고도, 리눅스를 만든 리누스 토발즈나 웹을 만든 팀 버너스 리, 전기 문명의 아버지 마이클 페러데이(모터를 만들고, 발전기를 만든 사람) 등을 떠올려도 좋겠다고 생각한다. 팀 버너스-..
결측치(Missing Value)란? 결측치란 말 그대로 데이터에 값이 없는 것을 뜻한다. 줄여서 NA라고도 하고, Null 이라는 표현도 쓴다. 이러한 결측치는 데이터 분석하는데 있어 매우 방해가 된다. 결측치를 다 제거하면 막대한 데이터 손실을 부를 수 있다. 결측치를 잘못 대체하면 데이터에서 편향이 생길 수 있다. 결측치 처리에 분석가의 견해가 가장 많이 반영되고 분석결과가 매우 틀어질 수 있다. 그래서 결측치를 자세하게 처리하기 위해서 많은 시간을 투자해야 한다. 자신의 주관적인 생각이 아닌, 데이터에 기반한 결측치 처리가 진행되어야 분석을 정확하게 할 수 있다.
회귀분석(regression analysis)이란? 회귀분석의 정의 회귀분석은 변수들 사이의 관계를 모델링하는 기업이다. 여러 분야에서 가장 광범위하게 사용되는 통계기법 중 하나이다. 회귀분석의 목적은 종속변수에 영향을 주는 독립변수들을 찾고, 독립변수들과 종속변수들 간의 관계를 나타낸다. 종속변수와 독립변수에 대해서 알지 못하면 이 글을 참고하자. 회귀모델 - 선형회귀분석 회귀분석이라고 하면 보통은 선형회귀분석을 말한다. 회귀분석은 데이터를 모으고, 모델을 적합하게 하고 통계량을 이용해서 모델을 평가하는 전체 과정을 말한다. 만들어진 모델은 종속변수를 "예측"하는데 사용된다.

반응형