'SQL' 태그의 글 목록

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

from pyspark2pmml import PMMLBuilder pmmlBuilder = PMMLBuilder(spark.sparkContext, train, cvModel) pmmlBuilder.buildFile("Titanic.pmml") ## 빌딩 예제 from pypmml import Model model = Model.load("Titanic.pmml") model.predict(df) ## 로딩, 호출 예제 범용 머신러닝 모델 파일 포멧 Scikit-Learn, PyTorch, Tensorflow, Spark MLlib 등의 다양한 머신러닝 개발 플랫폼의 환경에서 통용되는 머신러닝 파일 포맷이 있다. PMML과 MLeap 등이 있다. 이 공통 파일 포맷을 이용하면 어디서나 호환이 가능하다. ..

SQL/Spark, Hadoop

Spark Pyspark PMML 범용 머신러닝 모델 파일 포맷 ML API NEW

2022.03.15

댓글 개

Logistic Regression으로 모델을 훈련한 결과 반복횟수에 따라 값을 찾는다. GBT로 모델학습을 진행한 결과 똑같은 코드로 하이퍼 파라미터 값들을 찾았다.

SQL/Spark, Hadoop

Spark ML Tuning Hyper Parameter ParamGrid 파라미터 찾기 NEW

2022.03.14

댓글 개

ML 라이브러리의 모델 튜닝은 최적의 하이퍼 파라미터를 선택하는 것에서 시작한다. 하나씩 테스트 해보는 것과 다수를 동시에 테스트 하는 방법이 있다. 모델 선택에서 테스트 방법으로는 교차검증 Cross Validation 홀드아웃 Train-Validation Split 이 두가지 테스트는 보통 ML Pipeline과 함께 사용된다. 교차검증이 홀드아웃 테스트보다 오버피팅 문제가 감소하기 때문에 안정적이다. Estimator 머신러닝 모델 혹은 ML Pipeline Evaluator 머신러닝 모델의 성능 Parameter 훈련 반복 회수 등의 하이퍼 파라미터 - ParamGridBuilder을 사용해 ParamGrid 타입의 변수를 생성한다. - 주로 트리 관련 알고리즘에서 깊이, 훈련횟수와 관련있다. ..

SQL/Spark, Hadoop

Spark MLlib 모델 튜닝 하이퍼파라미터 NEW

2022.03.14

댓글 개

SQL/Spark, Hadoop

Spark colab 타이타닉 데이터 Pipeline ML Evaluation GBT NEW

2022.03.13

댓글 개

SQL/Spark, Hadoop

Spark 타이타닉 데이터 분석 MLib feature 변환 imputer, minmax scale, vector assembler NEW

2022.03.13

댓글 개

SQL/Spark, Hadoop

Spark 외부 데이터베이스 연결 AWS Redshift colab NEW

2022.03.03

댓글 개

세 가지의 테이블을 JOIN 하여 사용한다. 여기에서 session_timestamp, user_session_channel 두 개의 테이블은 sessionId 가 같은 수로 존재하지만 session_transaction 테이블에는 sessionId가 덜 존재한다. 그래서 두 테이블은 Inner JOIN 하고, session_transaction 테이블은 LEFT JOIN한다. 없는 sessionId는 NULL값으로 채워지게 된다. 매칭이 안되는 sessionId가 있는지 알아본다. 두 개의 방향을 모두 검사해야 한다. FROM schema.table1 A JOIN schema.table2 B ON A.primary = B.primary LEFT JOIN schema.table3 C ON A.primar..

SQL/AWS Redshift

AWS Redshift 채널 별 월 매출액 테이블 생성 NEW

2022.02.28

댓글 개

공백이 들어있는 필드 이름을 사용하기 위해서 더블 쿼트 " " 로 감싸주어야 한다. 이런 방식으로 필드 이름을 지으면 사용할 때도 " "로 감싸야 해서 번거롭다. value값이 NULL이면 뒤에 있는 숫자를 반환한다. COALESCE( value, 0 ) 콜레스

SQL/AWS Redshift

AWS Redshift colab db sql " " COALESCE NEW

2022.02.28

댓글 개

Boolean 값에서 항상 True False 값만 있는 것이 아니라 Null값도 존재할 수 있다. Flag is True = Flag is not False 만약 Flag에 Null 값이 없고 오직 True, False로만 이루어져 있다면 이 식이 맞지만 Null값이 존재할 경우 not False가 반드시 True라고 할 수 없다. flag가 식에 해당되면 1을 더하는 문장을 실행한다. CASE WHEN flag = True THEN 1 END 여기에 COUNT() true_cnt1으로 출력한다. NULL의 비교와 연산은 항상 IS, IS NOT으로 수행한다. 만약에 =, !=, 로 수행하면 잘못된 결과가 나온다.

SQL/AWS Redshift

Redshift AWS DB SQL Boolean NEW

2022.02.27

댓글 개

SQL/AWS Redshift

AWS Redshift 쿼리 db sql JOIN 실습 NEW

2022.02.26

댓글 개

SQL 16

티스토리툴바