본문 바로가기

반응형

Mathematics/Statistics

(25)
독립변수와 종속변수란 무엇인가? 두 변수는 통계분석을 하거나 또는 실험을 계획할 때 반드시 알고 있어야 하는 변수이다. 독립변수란? 연구자가 의도적으로 변화시키는 변수 영어로는 Independent variable이라고 한다. 독립 변수라는 말처럼, 다른 변수에 영향을 받지 않는다는 뜻이다. 오히려 종속변수에 영향을 주는 변수이다. 종속변수란? 영어로는 Dependent variable.. 종속적인 또는 의존적인 변수다. 독립변수에 영향을 받아서 변화하는 변수를 말한다. 독립변수는 연구자가 마음대로 조정할 수 있는 변수인데, 우리가 알고 싶은 것은 종속변수이다. 독립변수의 값에 따라서 종속변수가 어떻게 변하는 지를 보고 싶은 것이다. 그래서 독립변수를 원인변수, 예측변수라고도 부른다. 그래서 종속변수를 결과변수, 반응변수라고도 부른다...
데이터 랭글링 (Data Wrangling)이란? 데이터 랭글링 정의 데이터 정제(cleansing)는 원천데이터를 시각화하거나 모델의 인풋으로 넣기 위한 사전 준비 과정을 말한다. 데이터 정제는 정형화된 데이터를 준비하는 사전단계를 지칭하는 것으로 과거에 많이 사용된 개념이다. 하지만, 비정형 데이터와 정형 데이터가 함께 공존하고 새로운 유형의 데이터가 넘쳐나면서 데이터 랭글링 혹은 데이터 먼징 같은 용어가 사용된다. 50~80%의 데이터 과학의 과정이란 수집과 정제 과정에서 소모된다. 데이터 전문가들은 데이터 잡부가 먼저 되어야 한다고 말한다. 데이터 랭글링(Data Wrangling)의 6단계 1. Discovering : 데이터에 대한 깊은 이해를 하는 단계 2. Structuring : 필요없는 행/컬럼 삭제 및 분석 가능한 형태로 구조화하는 ..
에러 분석(Error Analysis - post - Modeling) 1. Start with larger errors : 모델을 통해 나온 모든 값을 확인하지 못하므로, 에러값이 큰 feature부터 확인하는 법 2. Segment by Classes : 평균 에러값을 기준으로 Segment를 나누어서 비교하면서 분석. 3. Unsupervised clustering : 패턴을 발견하는 어려움이 있을 경우, 비지도 학습인 클러스터릴 알고리즘을 사용하여서 분류되지 않는 값들을 확인하는 방법. 에러의 원인을 찾는 방법으로 사용해야 함. 4. Ask colleagues or domain experts : 데이터를 통해 발견할 수 없으면, 분야 전문가의 도움을 통해 에러의 원인을 찾아낼 수 있음.
Feature Engineering(특성 공학)이란? 특성 공학의 정의 머신러닝 모델을 위한 데이터 테이블의 컬럼을 생성하거나 선택하는 작업을 의미. 모델 성능에 영향을 많이 미치기 때문에 머신러닝 응용에 있어서 굉장히 중요한 단계 전문성과 시간이 많이 드는 작업. 특징 선택 (Feature Selection) Decision Tree의 경우는 트리의 상단에 있을 수록 중요도가 높음 회귀모델의 경우 forward selection과 backward elimination 같은 알고리즘을 통해 특징을 선택. 차원 감소 차원감소는 feature extraction : 다시 말해 특징 추출이라는 말로도 불림. 차원 축소는 단순히 데이터의 압축이나 잡음을 제거하는 것만은 아니다. 관측 데이터를 잘 설명할 수 있는 latent space(잠재공간)찾는데 의의가 있다...
전처리(processing) vs 탐색적 데이터 분석(EDA) 데이터에서 가장 오래 걸리는 작업은 데이터를 수집하고 전처리하는 과정이라고 한다. 데이터 사이언스의 프로세스 현실에서 데이터를 수집하고 전처리 과정을 거치면 클린 데이터셋이 나오는데, 이것을 가지고 바로 머신러닝이나 딥러닝을 돌리는 것이 아니라, EDA(탐색적 데이터 분석)라는 과정을 거치게 된다. EDA란 나온 데이터셋이 문제가 없는지, 알고리즘을 돌리면 되는 지를 확인하는 과정이라고 할 수 있다. 전처리와 EDA 과정은 이렇게 실제 분석하기 전에 하는 작업이라는 점에서 연관성이 있다. 원칙적으로는 개념이 다르지만, 작업이 함께 이뤄진다. 실패와 비용를 줄이기 위해 시각화한 데이터를 탐색하는 과정 1. 변수간의 관계 2. 데이터 통계 3. 변수의 질 이 세 가지를 포함하는 과정. 데이터 전처리 과정과의..
데이터란 무엇인가? 데이터와 정보의 개념 차이 데이터란 무엇인가? 데이터라는 말을 들으면 뭔가 알 것 같다. 하지만 데이터라는 것이 진짜 무슨 뜻일까? 가상 공간에 존재하는 어떤 정보를 말하는 것일까? The term data means groups of information that represent the qualitative attributes of a variable or set of variables. 쉽게 말해, 데이터는 사실을 나타내는 수치라고 할 수 있다. 데이터는 수, 영상, 단어 등의 형태로 단위로, 연구나 조사 등의 바탕이 되는 재료를 말하는 것으로써 의미를 갖지 않은 원석의 상태를 이야기한다. 데이터 vs 정보 정보와 데이터를 혼용해서 사용하는 경우가 많은데 사실은 완전히 다른 개념이다. 데이터 자체는 그저 사실을 나타내는 수치..
이 시대의 새로운 석유, 데이터. 데이터 리터러시(data literacy)를 기르자. 데이터 마이닝이라는 말을 쓴다. 채굴. 비트코인 채굴이라는 것에서 쓰이는 것처럼, 이제는 보이지 않는 가상의 자산에 대해서도 가치가 계속해서 매겨지고 있는 듯하다. 그 근본에 있는 이 데이터라는 녀석. 과거에는 석유를 차지한 나라가 부강한 나라가 됐지만, 이제는 데이터를 채굴하고 그것을 활용할 수 있는 기술력을 가진 나라가 제일 강한 나라가 되어가고 있다. 데이터 시대에는 데이터를 읽고 활용할 수 있는 데이터 리터러시가 반드시 필요하다. 석유 사이클. 채굴 -> 정제 -> 사용 데이터 사이클 (수집)채굴 -> 정제 -> 사용.
수학과 통계의 개념 수학과 통계는 무슨 관계에 있는가? 파이썬을 배우다보니 확실히 수학적 개념을 많이 맞닥들이게 된다. 파이썬 자체가 수학은 아니지만, 특히 데이터에 대한 일을 하겠다고 했을 때는 그 분야에 대한 지식은 물론, 통계와 수학적 지식이 있어야만 한다. 수학 공부의 필요성을 많이 느끼고 있다. 수학을 좋아했었다고는 하지만, 사실 해외로 나가면서 수학에 대한 감을 많이 잃어버렸다. 공부를 하지 않아도 좋은 점수를 받을 수 있었으니 말이다. 좀 아쉬운 부분이다. 1. 통계란 무엇인가? 통계는 데이터 수집, 분석, 설명 및 표시와 관련이 있는 학문이다. 완전하지 않은 정보를 통해서 결과를 예측하는데 도움을 준다. 예측이 필요한 시장이나 비즈니스, 건강, 정부 부서 등 필요로 하는 곳이 많다. 즉, 통계는 데이터의 품질..

반응형