Mathematics for ai/확률 통계학 Statistics 18
-
밀도추정 Density Estimation 𝑁N개의 관찰데이터 observations 𝐱1,…𝐱𝑁x1,…xN가 주어졌을 때 분포함수 𝑝(𝐱)p(x)를 찾는 것 - 𝑝(𝐱)p(x)를 파라미터화된 분포로 가정한다. 회귀, 분류문제에서는 주로 𝑝(𝑡|𝐱)p(t|x), 𝑝(|𝐱)p(C|x)를 추정한다 - 그 다음 분포의 파라미터를 찾는다. 빈도주의 방법 Frequentist's way : 어떤 기준 예를 들어 likelihood을 최적화시키는 과정을 통해 파라미터 값을 정한다. 파라미터의 하나의 값을 구하게 된다. 베이지언 방법 Bayesian way : 먼저 파라미터의 사전확률 prior distribution 을 가정하고 Bayes' rule을 통해 파라미터의 사후확률 posterior distributi..
-
결정이론 Decision Theory 새로운 값 x가 주어졌을 때 확률모델 P(x, t)에 기반해 최적의 결정을 내리는 것 - 추론단계 : 결합확률분포 P(x, Ck)를 구하는 것 - 결정단계 : 상황에 대한 확률이 주어졌을 때 어떻게 최적의 결정을 내릴 것인가 ex) X-ray 이미지로 암 판별 x-ray image = x 암 = C1 암이 아닌 경우 = C2 P(Ck | x)의 값을 알아낸다. P(Ck | x)를 최대화 시키는 k를 구하는 것이 좋은결정. 이진분류 Binary Classification 결정영역 Decision Region i의 Classification에서 예측 되는 모든 x의 영역 = Ri P( x in R1, C2) 와 P( x in R2, C1) 의 영역인, 그래프에서 색깔이 ..
-
교차 엔트로피 Cross Entropy 두 가지 확률분포가 얼마나 비슷한지 숫자 하나로 나타내는 개념이다 집합 S상에서 확률분포 P에 대한 확률분포 Q의 교차 엔트로피 H( P, Q ) 확률분포 P에서 사건 A가 발생할 확률 P(A) 확률분포 Q에서 사건 A가 발생할 확률 Q(A) 확률분포 Q에서 사건 A의 자기정보 i(A) 사건 A를 비트 수로 표현하는 자기정보 i(A) 잘못된 확률분포 Q를 사용하면, 최적의 비트수를 사용하지 못한다. X P(X) i(X) Q(X) i(X) code A 1/2 1 1/8 3 000 B 1/4 2 1/8 3 001 C 1/8 3 1/4 2 01 D 1/8 3 1/2 1 1 평균비트수 H(P, Q) = 3*1/2 + 3*1/4 + 2*1/8 + 2*1/8 = 21/8 비트..
-
자기정보 Self - Information i(A) A - 사건 확률이 높은 사건 - 정보가 많지 않음 - 도둑을 보고 개가 짖는 경우보다 도둑을 보고 개가 안 짖는 경우가 더 많은 정보를 포함 정보의 단위 - b = 2:bits - b = e:nats - b = 10:hartleys A와 B사건이 동시에 일어나는 경우 계산은 다음과 같다 P(H) = 1/8 P(T) = 7/8 일때 i(H) = log2(8/7) = 3비트 i(T) = log2(7) = 0.193비트 i(HT) = 3.193비트 엔트로피 Entropy 분자들의 무질서도 혹은 에너지의 분산정도를 나타내는 물리학 용어에서 시작 확률분포의 무질서도나 불확실성 정보 혹은 표현의 부담정도를 나타내는 정보 엔트로피 개념을 고안했다. 새롭고 특이하여..
-
대립가설 Alternative Hypothesis 대립가설 H1의 채택을 위한 통계적 증거가 필요하다. 증거가 없을 때는 귀무가설 H0을 채택한다. 모평균의 검정 1) 기본 가정의 만족여부를 확인 - 모집단의 표준편차를 알고 있는지 파악한다 - 모집단의 표준편차가 변화 되었는가 파악한다 - 변화 여부의 파악은 한개의 모분산에 관하여 검정한다 모평균의 검정 모분산의 검정 Var(x)가 기지 정규분포 적용 X^2 분포 적용 Var(x)가 미지 t 분포 적용 F 분포 적용 2) 주장하는 사실(대립가설)을 바탕으로 귀무가설과 대립가설 설정 3) 검정 Q) 농장에서 생산되는 계란의 평균 무게가 10.5그램일 때, 새로운 사료의 도입 후 생산된 계란 30개의 표본 평균을 계산하여 11.4그램이 나왔다. 새로운 사료..
-
가설검정 Statistical Hypothesis Test 증명되지 않은 주장이나 가설을 표본통계량에 입각하여 진위여부를 판단, 증명, 검정하는 통계적 추론 방식 귀무가설 Null Hypothesis - 직접 검정대상이 되는 가설 H0 표본을 관찰하고 세운 가설이며, 증명된 바 없는 주장이나 가설이다. 진실이 가능성이 적기 때문에, 옳다는 가정하에 이것이 옳지 않음을 증명한다. Reject 대립가설 Alternative Hypothesis - 귀무가설에 대립되는 가설 H1 귀무가설이 기각될 때 받아들여지는 가설 새로운 주장이나 실제로 입증하고픈 가설로, 옳다는 것을 증명한다. Accept 귀무가설을 표본을 통해 확인하고, 기각이 되면 자동으로 대립가설이 채택 된다. 임계값 Critical Value - ..
-
점추정 확률변수 X - n 개의 표본에서 특정 속성을 갖는 표본의 개수 모비율 p의 점추정량 p = x/n Q) 대학교 1학년생의 흡연률 조사를 위해 150명을 랜덤으로 선택해 흡연 여부를 조사하였고, 48명이 흡연자였다. 대학교 1학년 학생의 흡연률의 평균을 점추정 하시오 n=150 X=48 p=48/150=0.32 A) 평균흡연률 32% 추정 구간추정 n이 충분히 클 때 np > 5 n( 1-p ) > 5 평균 = np 분산 = np( 1 - p ) 근사적으로 표준정규분포 N( 0, 1 )을 따른다. 따라서 모비율 p의 100( 1-a )% 신뢰구간은 다음과 같다.
-
통계적 추론 추출된 표본으로 모집단의 일반적인 특성을 추론 평균, 분산, 표준편차 등을 알 수 있다. 모집단의 특성을 알기위해 표본을 조사하는 것 - 모수의 추정 Estimation : 미지수인 모수에 대한 추측, 추측치를 수치화된 정확도와 제시 - 모수에 대한 가설검정 Statistical Hypothesis Test : 모수에 대한 여러 가설이 적합한지를 판단 Q) 청소년 성장 연구를 위해 중학생 30명을 임의 추출하여 키를 측정하였다. 도시 전체의 중학생의 평균기를 추론한다. - 점추정 : 평균을 하나의 값으로 추정 - 구간추정 : 평균을 포함하는 적당한 구간을 제시 - 가설검정 : 평균이 5년전 평균값과 다른지 판단 점 추정 Point Estimation 평균을 하나의 값으로 추정할 때 점 추정을..
-
표본분포 Sampling Distribution 표본조사를 통해 모집단에 대한 해석 전수조사가 실제로 불가능한 경우 ex) 선거 출구조사 표본조사는 전체 모집단에 대한 전수조사가 아니기 때문에, 오차가 발생한다. 단순랜덤추출법 Random Sampling 난수표 사용 랜덤넘버 생성 사용 https://colab.research.google.com Google Colaboratory colab.research.google.com import random [random.randint(1, 10) for i in range(10)] 표본 평균의 분포 표본조사를 통해 모수 Parameter을 알아낸다. 모수 Parameter - 모평균 - 모분산 - 모비율 모수를 측정하기 위해 표본을 선택하여 표본평균과 표본분..
-