sailorCat
작성일
2022. 1. 18. 08:49
작성자
sailorCat
728x90

결정이론 Decision Theory

 

새로운 값 x가 주어졌을 때 확률모델 P(x, t)에 기반해 최적의 결정을 내리는 것

 

- 추론단계 : 결합확률분포 P(x, Ck)를 구하는 것

- 결정단계 : 상황에 대한 확률이 주어졌을 때 어떻게 최적의 결정을 내릴 것인가

 

ex) X-ray 이미지로 암 판별

 

x-ray image = x

암 = C1

암이 아닌 경우 = C2

P(Ck | x)의 값을 알아낸다.

P(Ck | x)를 최대화 시키는 k를 구하는 것이 좋은결정.

 

 

 

 

 

 

이진분류 Binary Classification

 

 

 

결정영역 Decision Region

결정영역

i의 Classification에서 예측 되는 모든 x의 영역 = Ri

 

 

 

 

 

분류에서 오류가 생길 확률

P( x in R1, C2) 와 P( x in R2, C1) 의 영역인, 그래프에서 색깔이 칠해진 부분을 의미한다.

이 부분의 넓이는 적분으로 구할 수 있고, 이 넓이가 분류에서 오류가 생길 확률이다.

 

 

 

 

x-ray 에서의 암 판별 문제로 보면, 암인데 아니라고 분류가 된 경우, 암이 아닌데 암이 맞다고 분류된 경우가 이 오류의 영역에 해당 된다.

 

 

  실제로 암에 걸림 C1 실제로 건강함 C2
암진단 R1 True Positive False Negative
건강함 진단 R2 False Positive True Negative

 

 

 

 

 

오류 최소화

다음 조건을 만족하면 x를 R1에 할당해야 한다.

 

 

 

 

 

 

만약 분류 문제에서 두가지의 종류만 있는 것이 아니라 Multiclass일 경우에는 오류가 되는 부분을 찾는 것보다 정확한 부분을 찾는 것이 더 낫다.

분류가 맞는 부분

input x가 주어졌을 때 Classification의 정확도가 최대화 되는 k를 찾으면 된다.

 

 

 

결정이론의 목표

결합확률분포 P(x, Ck)가 주어졌을 때 최적의 결정영역들 R1, ... Rk를 찾는것이다.

input x가 주어졌을 때 예측값을 돌려주는 최적의 함수 C(x)를 찾는다.

 

최적의 함수를 찾는 방법

- 기대손실 최소화 Minimizing the Expected Loss

 

ex) 암 진단에서 모든 결정이 동일한 리스크를 갖지 않는다.

암이 아닌데 암으로 진단

암인데 암이 아닌 것으로 진단

 

둘 중에 후자가 더 리스크가 더 크다.

 

손실행렬 Loss Matrix

 

행렬에서 열은 분류이고, 행은 실제로 어떠한 값을 가지고 있는지 표시한다.

k=실제값 j=분류값

 

 

input x가 주어졌을 때 기대손실값의 값이 최소화 되는 k를 찾으면 된다.

 

 

 

 

암 진단 문제에서

손실행렬 L의 값을 나타냈다.

정확한 진단인 경우 0, 오진인 경우는 손실 값이 들어있다.

100인 부분은 암이지만 건강하다고 오진이 생긴 경우, 1인 부분은 건강하지만 암진단을 받은 경우이다.

 

이 경우에 기대손실 값은

오차를 적분으로 나온 넓이의 값에 각자의 손실행렬 값을 곱해서 더한 값이다.

 

 

 

회귀 결정이론

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90