반응형
머신러닝 결과를 나쁘게 하는 것
- 안좋은 데이터
- 안좋은 알고리즘
안좋은 데이터 예시
충분하지 않은 트레이닝 데이터
- 충분한 양의 데이터가 주어졌을 때 각각의 다른 알고리즘에도 불구 정확한 수행율을 보임
- 충분한 양의 데이터가 있다면, 알고리즘보다는 데이터가 더욱 중요
Nonrepresentative Training Data
- 빠진 정보를 몇 개 더 넣는 것만으로도 훨씬더 정확한 모델을 만들 수 있음
- 트레이닝 데이터셋이 실제로 예측하고자 하는 모든 예제의 대표격인지를 확신할 수 있어야 함
- Sampling noise : 데이터의 양이 적을 경우
- Sampling bias : 샘플링 방법이 좋지 않으면, 데이터가 많아도 문제가 생길 수 있음
Poor Quality Data
- 에러, 아웃라이어, 노이즈
- 이런 데이터일 경우 먼저 데이터 클리닝 작업을 거쳐야 함
Irrelevant Features
- garbage in, garbage out : 쓰레기를 넣으면 쓰레기가 나온다.
- 트레이닝 데이터는 충분하게 상황에 맞는 특성을 가져야 한다.
- feature engineering(특성공학) : 특성을 만드는 과정
- feature selection : 다양한 특성 중에서 유효한 것만 고르는 작업
- feature extraction : 차원축소와 비슷한 개념, 더 좋은 특성을 갖추게 하기 위해 합치는 과정.
- 새로운 데이터를 구해 새로운 특성을 만듬
안좋은 알고리즘 예시
데이터 과최적화
- 지나친 일반화를 야기함
딥뉴럴네트워크와 같은 복잡한 모델을 사용했을 때, 트레이닝셋이 noisy하거나 너무 작을 경우 노이즈에서 무의미한 패턴을 찾게 됨
- 예컨데 삶의 만족도 조사를 하는 과정에 무의미한 정보인 나라이름 같은 요소를 넣는다면?
나라이름에 w가 들어가는 나라는 삶의 만족도가 7이상이 된다는 패턴을 발견할 수도 있다.
w-satisfation 법칙이 Rwanda 혹은 Zimbabwe에는 적용되지 않는다. - 해결책(regularization)
- 파라미터를 줄인다
- 데이터를 더 모은다
- 데이터의 노이즈를 줄인다
- 예컨데 삶의 만족도 조사를 하는 과정에 무의미한 정보인 나라이름 같은 요소를 넣는다면?
데이터 과소적화(Underfitting)
- 과최적화의 반대
- 너무 심플한 경우임
- 해결책
- 더 많은 파라미터와 함께 더 강력한 모델을 선택
- feature engineering
- reducing regularization hyper-parameter(모델에서 제약을 줄임)
반응형
'Mathematics > Machine Learning' 카테고리의 다른 글
Testing and validating machine learning (0) | 2022.01.17 |
---|---|
사례기반 vs 모델 기반 머신러닝 (0) | 2022.01.17 |
배치 학습과 온라인 학습 (0) | 2022.01.17 |
머신러닝의 종류(2) - 비지도학습 (0) | 2022.01.16 |
머신러닝의 종류(1) - 지도학습 (0) | 2022.01.16 |