sailorCat
카테고리
작성일
2022. 1. 13. 18:45
작성자
sailorCat
728x90

복잡한 문제에서 알고리즘보다 데이터가 더 중요하다.

전세계 국가에서 일부 국가가 빠져있다면 대표성이 완벽하지 않다.

일반화하려는 사례를 대표하는 훈련세트를 사용하는 것이 중요하다.

샘플이 작으면 샘플링 잡음 sampling noise가 생기고, 매우 큰 샘플도 표본 추출 방법이 잘못되면 샘플링 편향 sampling bias가 나타난다.

 

훈련데이터가 에러, 이상치, 잡음이 다수 발생한다면 ML 시스템이 내재된 패턴을 찾기가 어렵다.

따라서 훈련데이터 정제에 시간을 투자하여 정확한 패턴을 찾아야 한다.

 

훈련데이터의 특성을 추출할 때 가장 유용한 선택을 해야하고, 특성들을 결합하는 차원 축소 알고리즘과 같은 것으로 새로운 특성을 만들어야 한다.

 

과대적합 Overfitting

과도한 일반화를 통해 훈련 데이터에 적합하지만 테스트 데이터에서는 낮은 적중률을 보이는 경우.

훈련데이터의 잡음의 양에 비해 모델이 너무 복잡할 때 일어난다.

 

과대적합을 해결하는 방법

- 파라미터 수가 적은 모델 선택

- 훈련데이터의 특성 수 줄이기

- 제약을 통해 단순화, 규제 Regularization

- 훈련데이터를 더 많이 모음

- 훈련데이터의 이상치 제거 오류 데이터 수정으로 잡음 줄이기

 

규제 Regularization

모델을 단순하게 하고 과대적합의 위험을 감소시키기 위해 모델에 제약을 가하는 것

y = wx + b 에서 w값을 인위적으로 줄인다.

이 기울기의 규제 값은 하이퍼 파라미터 값을 통해 결정한다.

 

 

과소적합 Underfitting

모델이 너무 단순해서 데이터의 내재된 구조를 학습하지 못하는 경우

 

과소적합을 해결하기 위한 방법

- 모델 파라미터가 더 많은 강력한 모델을 선택

- 학습 알고리즘에 더 좋은 특성을 제공

- 모델의 제약을 줄인다.

728x90