결정이론 Decision Theory
새로운 값 x가 주어졌을 때 확률모델 P(x, t)에 기반해 최적의 결정을 내리는 것
- 추론단계 : 결합확률분포 P(x, Ck)를 구하는 것
- 결정단계 : 상황에 대한 확률이 주어졌을 때 어떻게 최적의 결정을 내릴 것인가
ex) X-ray 이미지로 암 판별
x-ray image = x
암 = C1
암이 아닌 경우 = C2
P(Ck | x)의 값을 알아낸다.
P(Ck | x)를 최대화 시키는 k를 구하는 것이 좋은결정.
이진분류 Binary Classification
결정영역 Decision Region
i의 Classification에서 예측 되는 모든 x의 영역 = Ri
P( x in R1, C2) 와 P( x in R2, C1) 의 영역인, 그래프에서 색깔이 칠해진 부분을 의미한다.
이 부분의 넓이는 적분으로 구할 수 있고, 이 넓이가 분류에서 오류가 생길 확률이다.
x-ray 에서의 암 판별 문제로 보면, 암인데 아니라고 분류가 된 경우, 암이 아닌데 암이 맞다고 분류된 경우가 이 오류의 영역에 해당 된다.
실제로 암에 걸림 C1 | 실제로 건강함 C2 | |
암진단 R1 | True Positive | False Negative |
건강함 진단 R2 | False Positive | True Negative |
다음 조건을 만족하면 x를 R1에 할당해야 한다.
만약 분류 문제에서 두가지의 종류만 있는 것이 아니라 Multiclass일 경우에는 오류가 되는 부분을 찾는 것보다 정확한 부분을 찾는 것이 더 낫다.
input x가 주어졌을 때 Classification의 정확도가 최대화 되는 k를 찾으면 된다.
결정이론의 목표
결합확률분포 P(x, Ck)가 주어졌을 때 최적의 결정영역들 R1, ... Rk를 찾는것이다.
input x가 주어졌을 때 예측값을 돌려주는 최적의 함수 C(x)를 찾는다.
최적의 함수를 찾는 방법
- 기대손실 최소화 Minimizing the Expected Loss
ex) 암 진단에서 모든 결정이 동일한 리스크를 갖지 않는다.
암이 아닌데 암으로 진단
암인데 암이 아닌 것으로 진단
둘 중에 후자가 더 리스크가 더 크다.
손실행렬 Loss Matrix
행렬에서 열은 분류이고, 행은 실제로 어떠한 값을 가지고 있는지 표시한다.
k=실제값 j=분류값
input x가 주어졌을 때 기대손실값의 값이 최소화 되는 k를 찾으면 된다.
암 진단 문제에서
손실행렬 L의 값을 나타냈다.
정확한 진단인 경우 0, 오진인 경우는 손실 값이 들어있다.
100인 부분은 암이지만 건강하다고 오진이 생긴 경우, 1인 부분은 건강하지만 암진단을 받은 경우이다.
이 경우에 기대손실 값은
오차를 적분으로 나온 넓이의 값에 각자의 손실행렬 값을 곱해서 더한 값이다.
회귀 결정이론
'Mathematics for ai > 확률 통계학 Statistics' 카테고리의 다른 글
밀도추정 Density Estimation 확률변수 Probability Distributions (0) | 2022.01.20 |
---|---|
교차 엔트로피 Cross Entropy 손실함수 (0) | 2021.12.18 |
엔트로피 Entropy 자기정보 Self-information (0) | 2021.12.18 |
검정 모평균의 검정 (0) | 2021.12.18 |
통계적 가설검정 Statistical Hypothesis Test (0) | 2021.12.17 |