본문 바로가기

Mathematics/Machine Learning

머신러닝 결과를 나쁘게 하는 것

MrLazyDev 2022. 1. 17. 13:56

머신러닝 결과를 나쁘게 하는 것

안좋은 데이터
안좋은 알고리즘

안좋은 데이터 예시

충분하지 않은 트레이닝 데이터

데이터의 중요성

충분한 양의 데이터가 주어졌을 때 각각의 다른 알고리즘에도 불구 정확한 수행율을 보임
충분한 양의 데이터가 있다면, 알고리즘보다는 데이터가 더욱 중요

Nonrepresentative Training Data

빠진 정보를 몇 개 더 넣는 것만으로도 훨씬더 정확한 모델을 만들 수 있음
트레이닝 데이터셋이 실제로 예측하고자 하는 모든 예제의 대표격인지를 확신할 수 있어야 함
- Sampling noise : 데이터의 양이 적을 경우
- Sampling bias : 샘플링 방법이 좋지 않으면, 데이터가 많아도 문제가 생길 수 있음

Poor Quality Data

에러, 아웃라이어, 노이즈
이런 데이터일 경우 먼저 데이터 클리닝 작업을 거쳐야 함

Irrelevant Features

garbage in, garbage out : 쓰레기를 넣으면 쓰레기가 나온다.
트레이닝 데이터는 충분하게 상황에 맞는 특성을 가져야 한다.
feature engineering(특성공학) : 특성을 만드는 과정
- feature selection : 다양한 특성 중에서 유효한 것만 고르는 작업
- feature extraction : 차원축소와 비슷한 개념, 더 좋은 특성을 갖추게 하기 위해 합치는 과정.
- 새로운 데이터를 구해 새로운 특성을 만듬

안좋은 알고리즘 예시

데이터 과최적화

지나친 일반화를 야기함
딥뉴럴네트워크와 같은 복잡한 모델을 사용했을 때, 트레이닝셋이 noisy하거나 너무 작을 경우 노이즈에서 무의미한 패턴을 찾게 됨
- 예컨데 삶의 만족도 조사를 하는 과정에 무의미한 정보인 나라이름 같은 요소를 넣는다면?
  나라이름에 w가 들어가는 나라는 삶의 만족도가 7이상이 된다는 패턴을 발견할 수도 있다.
  w-satisfation 법칙이 Rwanda 혹은 Zimbabwe에는 적용되지 않는다.
- 해결책(regularization)
  - 파라미터를 줄인다
  - 데이터를 더 모은다
  - 데이터의 노이즈를 줄인다

데이터 과소적화(Underfitting)

과최적화의 반대
너무 심플한 경우임
해결책
- 더 많은 파라미터와 함께 더 강력한 모델을 선택
- feature engineering
- reducing regularization hyper-parameter(모델에서 제약을 줄임)

저작자표시 비영리 변경금지 (새창열림)

'Mathematics > Machine Learning' 카테고리의 다른 글

Testing and validating machine learning (0)	2022.01.17
사례기반 vs 모델 기반 머신러닝 (0)	2022.01.17
배치 학습과 온라인 학습 (0)	2022.01.17
머신러닝의 종류(2) - 비지도학습 (0)	2022.01.16
머신러닝의 종류(1) - 지도학습 (0)	2022.01.16