728x90
ML 라이브러리의 모델 튜닝은 최적의 하이퍼 파라미터를 선택하는 것에서 시작한다.
하나씩 테스트 해보는 것과 다수를 동시에 테스트 하는 방법이 있다.
모델 선택에서 테스트 방법으로는
교차검증 Cross Validation
홀드아웃 Train-Validation Split
이 두가지 테스트는 보통 ML Pipeline과 함께 사용된다.
교차검증이 홀드아웃 테스트보다 오버피팅 문제가 감소하기 때문에 안정적이다.
Estimator 머신러닝 모델 혹은 ML Pipeline
Evaluator 머신러닝 모델의 성능
Parameter 훈련 반복 회수 등의 하이퍼 파라미터
- ParamGridBuilder을 사용해 ParamGrid 타입의 변수를 생성한다.
- 주로 트리 관련 알고리즘에서 깊이, 훈련횟수와 관련있다.
이 지표들을 통해 최종적으로 결과가 가장 좋은 모델을 리턴한다.
Evaluator
evaluate 함수
- 테스트셋의 결과가 들어있는 데이터 프레임, 파라미터가 인자로 제공된다.
머신러닝 알고리즘에 따라 다양한 Evaluator가 제공된다.
- RegressionEvaluator
- BinaryClassificationEvaluator (AUC: Area Under the Curve)
- MulticlassClassificationEvaluator
- MultilabelClassificationEvaluator
- RankingEvaluator
- LogisticRegression (probability 제공)
728x90
'SQL > Spark, Hadoop' 카테고리의 다른 글
Spark Pyspark PMML 범용 머신러닝 모델 파일 포맷 ML API (0) | 2022.03.15 |
---|---|
Spark ML Tuning Hyper Parameter ParamGrid 파라미터 찾기 (0) | 2022.03.14 |
Spark colab 타이타닉 데이터 Pipeline ML Evaluation GBT (0) | 2022.03.13 |
Spark 타이타닉 데이터 분석 MLib feature 변환 imputer, minmax scale, vector assembler (0) | 2022.03.13 |
Taipei Housing ML Spark Colab 주택 가격 예측 모델 선형회귀 (0) | 2022.03.05 |