sailorCat
카테고리
작성일
2022. 3. 14. 15:47
작성자
sailorCat
728x90

ML 라이브러리의 모델 튜닝은 최적의 하이퍼 파라미터를 선택하는 것에서 시작한다.

하나씩 테스트 해보는 것과 다수를 동시에 테스트 하는 방법이 있다.

 

모델 선택에서 테스트 방법으로는 

교차검증 Cross Validation

홀드아웃 Train-Validation Split 

 

이 두가지 테스트는 보통 ML Pipeline과 함께 사용된다.

 

교차검증이 홀드아웃 테스트보다 오버피팅 문제가 감소하기 때문에 안정적이다.

 

Estimator 머신러닝 모델 혹은 ML Pipeline

Evaluator 머신러닝 모델의 성능

Parameter 훈련 반복 회수 등의 하이퍼 파라미터

- ParamGridBuilder을 사용해 ParamGrid 타입의 변수를 생성한다.

- 주로 트리 관련 알고리즘에서 깊이, 훈련횟수와 관련있다.

 

이 지표들을 통해 최종적으로 결과가 가장 좋은 모델을 리턴한다.

 

Evaluator

evaluate 함수

- 테스트셋의 결과가 들어있는 데이터 프레임, 파라미터가 인자로 제공된다.

 

머신러닝 알고리즘에 따라 다양한 Evaluator가 제공된다.

- RegressionEvaluator

- BinaryClassificationEvaluator (AUC: Area Under the Curve)

- MulticlassClassificationEvaluator

- MultilabelClassificationEvaluator

- RankingEvaluator

- LogisticRegression (probability 제공)

 

 

ML 모델 빌딩 프로세스

 

728x90