본문 바로가기

Mathematics/Machine Learning

머신러닝 결과를 나쁘게 하는 것

반응형

머신러닝 결과를 나쁘게 하는 것

  • 안좋은 데이터
  • 안좋은 알고리즘

 

안좋은 데이터 예시

충분하지 않은 트레이닝 데이터

 

데이터의 중요성

  • 충분한 양의 데이터가 주어졌을 때 각각의 다른 알고리즘에도 불구 정확한 수행율을 보임
  • 충분한 양의 데이터가 있다면, 알고리즘보다는 데이터가 더욱 중요

 

Nonrepresentative Training Data

  • 빠진 정보를 몇 개 더 넣는 것만으로도 훨씬더 정확한 모델을 만들 수 있음
  • 트레이닝 데이터셋이 실제로 예측하고자 하는 모든 예제의 대표격인지를 확신할 수 있어야 함
    • Sampling noise : 데이터의 양이 적을 경우
    • Sampling bias : 샘플링 방법이 좋지 않으면, 데이터가 많아도 문제가 생길 수 있음

 

Poor Quality Data

  • 에러, 아웃라이어, 노이즈
  • 이런 데이터일 경우 먼저 데이터 클리닝 작업을 거쳐야 함

 

Irrelevant Features

  • garbage in, garbage out : 쓰레기를 넣으면 쓰레기가 나온다.
  • 트레이닝 데이터는 충분하게 상황에 맞는 특성을 가져야 한다.
  • feature engineering(특성공학) : 특성을 만드는 과정
    • feature selection : 다양한 특성 중에서 유효한 것만 고르는 작업
    • feature extraction : 차원축소와 비슷한 개념, 더 좋은 특성을 갖추게 하기 위해 합치는 과정.
    • 새로운 데이터를 구해 새로운 특성을 만듬 

 

 

안좋은 알고리즘 예시

데이터 과최적화

  • 지나친 일반화를 야기함
    딥뉴럴네트워크와 같은 복잡한 모델을 사용했을 때, 트레이닝셋이 noisy하거나 너무 작을 경우 노이즈에서 무의미한 패턴을 찾게 됨
    • 예컨데 삶의 만족도 조사를 하는 과정에 무의미한 정보인 나라이름 같은 요소를 넣는다면?
      나라이름에 w가 들어가는 나라는 삶의 만족도가 7이상이 된다는 패턴을 발견할 수도 있다.
      w-satisfation 법칙이 Rwanda 혹은 Zimbabwe에는 적용되지 않는다.
    • 해결책(regularization)
      • 파라미터를 줄인다
      • 데이터를 더 모은다
      • 데이터의 노이즈를 줄인다

 

데이터 과소적화(Underfitting)

  • 과최적화의 반대
  • 너무 심플한 경우임
  • 해결책
    • 더 많은 파라미터와 함께 더 강력한 모델을 선택
    • feature engineering
    • reducing regularization hyper-parameter(모델에서 제약을 줄임)
반응형