sailorCat

SQL 19

카테고리 설명
  • from pyspark2pmml import PMMLBuilder pmmlBuilder = PMMLBuilder(spark.sparkContext, train, cvModel) pmmlBuilder.buildFile("Titanic.pmml") ## 빌딩 예제 from pypmml import Model model = Model.load("Titanic.pmml") model.predict(df) ## 로딩, 호출 예제 범용 머신러닝 모델 파일 포멧 Scikit-Learn, PyTorch, Tensorflow, Spark MLlib 등의 다양한 머신러닝 개발 플랫폼의 환경에서 통용되는 머신러닝 파일 포맷이 있다. PMML과 MLeap 등이 있다. 이 공통 파일 포맷을 이용하면 어디서나 호환이 가능하다. ..

  • Logistic Regression으로 모델을 훈련한 결과 반복횟수에 따라 값을 찾는다. GBT로 모델학습을 진행한 결과 똑같은 코드로 하이퍼 파라미터 값들을 찾았다.

  • ML 라이브러리의 모델 튜닝은 최적의 하이퍼 파라미터를 선택하는 것에서 시작한다. 하나씩 테스트 해보는 것과 다수를 동시에 테스트 하는 방법이 있다. 모델 선택에서 테스트 방법으로는 교차검증 Cross Validation 홀드아웃 Train-Validation Split 이 두가지 테스트는 보통 ML Pipeline과 함께 사용된다. 교차검증이 홀드아웃 테스트보다 오버피팅 문제가 감소하기 때문에 안정적이다. Estimator 머신러닝 모델 혹은 ML Pipeline Evaluator 머신러닝 모델의 성능 Parameter 훈련 반복 회수 등의 하이퍼 파라미터 - ParamGridBuilder을 사용해 ParamGrid 타입의 변수를 생성한다. - 주로 트리 관련 알고리즘에서 깊이, 훈련횟수와 관련있다. ..

  • 빅데이터 - 서버 한대로 처리할 수 없는 규모의 데이터 2012 04 아마존 클라우드 컨퍼런스에서 데이터 사이언티스트 존 브라우저가 내린 정의 분산 환경이 필요한가? - 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 소프트웨어 오라클, MySQL과 같은 관계형 데이터 베이스가 감당할 수 없는 규모 분산 환경에 대해 생각해 보지 않은 기존의 시스템 Pandas로 감당할 수 없을 정도의 크기의 엄청난 양의 데이터? 빅데이터 4V Volume : 데이터의 크기가 대용량인지 Velocity : 데이터의 처리 속도가 중요한지 Variety : 구조화된 데이터, 비구조화된 데이터 모두 존재하는지 Veracity : 데이터의 품질이 좋은지 모바일 디바이스의 위치정보 스마트 TV 센서 데이터 네트워킹 디바이스 웹..

  • 세 가지의 테이블을 JOIN 하여 사용한다. 여기에서 session_timestamp, user_session_channel 두 개의 테이블은 sessionId 가 같은 수로 존재하지만 session_transaction 테이블에는 sessionId가 덜 존재한다. 그래서 두 테이블은 Inner JOIN 하고, session_transaction 테이블은 LEFT JOIN한다. 없는 sessionId는 NULL값으로 채워지게 된다. 매칭이 안되는 sessionId가 있는지 알아본다. 두 개의 방향을 모두 검사해야 한다. FROM schema.table1 A JOIN schema.table2 B ON A.primary = B.primary LEFT JOIN schema.table3 C ON A.primar..