본문 바로가기

반응형

Mathematics

(41)
삼각비의 유래 삼각비는 삼각형의 길이의 비를 의미한다. 삼각함수를 공부하기 전 꼭 공부해야 한다고 하는 삼각비를 공부하다가, 그냥 수능을 위해 cos, sin, tan를 그렇게 외워두라고 하고 그냥 약속이라는 말을 해서 이해가 되지 않아서 찾아보게 되었다. 수학도 학문이고, 세상을 보기 위한 방법을 탐구하며 나온 것이지 그냥 사람들끼리 약속한 수준의 언어와는 다른 개념이기 때문이다. 예로부터 천체 연구는 농경사회 운영을 위해 필수적이었다. 미래의 날씨와 날짜를 예측하기 위해서 천체를 관찰했는데, 별들의 거리와 달의 크기 등을 측정해야 했는데, 이때 사용된 것이 삼각비였다. 실제 거리는 너무나도 멀기 때문에 직접적으로 잴 수는 없었지만, 그 각을 통해서 거리를 비교할 수 있었던 것이다. 원에서 호의 길이나 현의 길이를 ..
미분적분학의 개요 미적분학, 미분적분학은 미분과 적분에 관한 수학의 분과학문이다. 미분적분학 미분(differential)과 적분(integral)의 출발선은 실로 상이했다고 한다. 17세기에 미분적분학의 기본정리가 등장하면서 미분과 적분을 함께 다루게 되면서 복합학문으로 거듭났다. 미분적분학의 영단어인 calculus는 본래 수학 또는 계산이나 셈법 그 자체를 의미하는 말이었다. 라틴어로 calculus는 small pebble 즉, 작은 조약돌들을 의미한다. 사실 미분적분학을 의미하는 modern calculus는 differential calculus와 integral calculus가 합쳐진 말이다. 미분적분학의 역사적 의의 미분적분학 이전의 수학은 플라톤의 이데아론이 말하듯 끊임없이 변화하는 현상계의 세계보다는 ..
Testing and validating machine learning 머신러닝 모델을 만들면 당연히 테스트해봐야 한다. 테스팅 방법 training set 과 test set training set으로 학습시키고, test set으로 테스트를 해본다 보통은 training set에서 1~20% 정도를 test set으로 남겨두거나, 데이터의 양에 따라서 가감한다 test set에서 생기는 에러율을 generalization error 혹은 out of sample error라고 부른다 일반화 에러가 높다면, training data 에서 과최적화를 했다는 것이다. Hyperparameter Tuning and Model Selection 모델 선택을 할 때(선형모델, 다항모델 등)도 마찬가지 트레이닝셋으로 비교하고자 하는 모델에서 모두 학습시킨 뒤 테스트셋으로 나누어 테스..
머신러닝 결과를 나쁘게 하는 것 머신러닝 결과를 나쁘게 하는 것 안좋은 데이터 안좋은 알고리즘 안좋은 데이터 예시 충분하지 않은 트레이닝 데이터 충분한 양의 데이터가 주어졌을 때 각각의 다른 알고리즘에도 불구 정확한 수행율을 보임 충분한 양의 데이터가 있다면, 알고리즘보다는 데이터가 더욱 중요 Nonrepresentative Training Data 빠진 정보를 몇 개 더 넣는 것만으로도 훨씬더 정확한 모델을 만들 수 있음 트레이닝 데이터셋이 실제로 예측하고자 하는 모든 예제의 대표격인지를 확신할 수 있어야 함 Sampling noise : 데이터의 양이 적을 경우 Sampling bias : 샘플링 방법이 좋지 않으면, 데이터가 많아도 문제가 생길 수 있음 Poor Quality Data 에러, 아웃라이어, 노이즈 이런 데이터일 경우..
사례기반 vs 모델 기반 머신러닝 머신러닝을 분류하는 또 다른 기준 : 어떻게 일반화하는가? 대부분의 머신러닝 목적은 예측을 하는 것. 사례기반 학습 주어진 예제를 통해 학습 measure of similarity(유사도)를 가지고 사례를 일반화 일반화시킨 예제를 가지고 비교해 새로운 것을 예측 모델 기반 학습 다양한 예제들을 통해 모델을 만듬 예시 모델 : linear model $Life\;satisfation = \theta_0+\theta_1 \times GDP\;per\;capita$ 모델을 사용하기 전에 먼저 $\theta_0$와 $\theta_1$의 값을 지정해야 함 어떤 값이 이 모델을 제일 효과적으로 퍼폼하게 할까? $\to$ specify performance measure utility function(how good..
배치 학습과 온라인 학습 머신러닝을 분류하는데 사용하는 다른 기준 : 데이터의 스트림으로부터 점진적으로 학습할 수 있는 지 여부 배치학습(Batch learning) 점진적 학습 불가 가용한 데이터 모두 활용 시간과 자원 소모 많음 -> 오프라인 진행 제한된 데이터 새로운 데이터 학습하려면 맨처음부터 다시 해야 함 돈과 자원이 많이 소모됨 -> 큰 데이터는 사용하기 어려움 온라인 학습 점진적 학습 가능 연속적으로 데이터 공급 -> 주가처럼 변화가 많은 데이터 데이터 양이 너무 많을 경우 out of core 학습을 사용 부분적으로 데이터를 가져와서 점차적으로 학습 오프라인으로 진행됨 learning rate learning rate = 1/inertia 관성이 높아지면 새로운 데이터에 대한 감흥이 적어짐. 나쁜 데이터가 들어오면..
머신러닝의 종류(2) - 비지도학습 비지도학습 지도학습과 반대인, 비지도학습이 있다. 지도학습이 데이터에 라벨링이 되어 있었다면, 비지도학습에 주어지는 데이터에는 라벨링이 되어 있지 않다. 즉, 기계가 선생님 없이 스스로 데이터가 뭔지를 배워야 한다. 비지도학습 예시 Clustering K-Means DBSCAN Hierarchical Cluster Analysis (HCA) Anomaly detection and novelty detection One-class SVM Isolation Forest Visualization and dimensionality reduction principal Componet Analysis Kernel PCA Locally-Linear Embedding t-distributed Stochastic Nei..
머신러닝의 종류(1) - 지도학습 머신러닝에도 종류가 많다. 아래와 같은 요소로 분류할 수 있다. 머신러닝 과정에 인간이 개입하였는가? (지도학습, 비지도학습, 준지도학습, 강화학습) 즉석에서 바로 학습할 수 있는가? (Internet vs batch learning) 데이터 간 단순 비교를 하는 것인가 아니면, 샘플에서 패턴을 찾고 새로운 예측 모델을 만드는 것인가? (사례 기반인가 모델 기반인가?) 인간의 개입의 여부와 정도로 머신러닝을 분류하면,, 지도학습과 비지도학습, 준지도학습, 강화학습으로 나뉜다. 지도학습 지도학습에서는 인간이 생각하는 정답이라는 것을 라벨링해서 기계에 넘기고 학습하여 새로운 데이터가 주어졌을 때 비슷한 정답을 내리도록 한다. 가장 흔한 지도학습의 방법에는 분류Classification가 있다. 머신러닝은 주..

반응형