Mathematics for ai/확률 통계학 Statistics
엔트로피 Entropy 자기정보 Self-information
sailorCat
2021. 12. 18. 00:32
728x90
자기정보 Self - Information
i(A)
A - 사건
확률이 높은 사건
- 정보가 많지 않음
- 도둑을 보고 개가 짖는 경우보다 도둑을 보고 개가 안 짖는 경우가 더 많은 정보를 포함
정보의 단위
- b = 2:bits
- b = e:nats
- b = 10:hartleys
A와 B사건이 동시에 일어나는 경우 계산은 다음과 같다
P(H) = 1/8
P(T) = 7/8
일때
i(H) = log2(8/7) = 3비트
i(T) = log2(7) = 0.193비트
i(HT) = 3.193비트
엔트로피 Entropy
분자들의 무질서도 혹은 에너지의 분산정도를 나타내는 물리학 용어에서 시작
확률분포의 무질서도나 불확실성 정보 혹은 표현의 부담정도를 나타내는 정보 엔트로피 개념을 고안했다.
새롭고 특이하여 사람들을 놀라게 하는 정도가 정보의 양을 의미한다.
새롭고 놀라운 정보는 정보량이 크다.
진부한 정보는 정보량이 적다.
정보 엔트로피는 어떤 확률분포로 일어나는 사건을 표현하는데 필요한 정보량이다.
값이 크면 확률분포의 불확실성, 놀람의 정도가 커지며 결과를 예측하기 어렵다.
자기 정보의 평균을 엔트로피라고 한다
0<=H(X)<=log2(K)
K : 사건의 수
모든 수의 확률이 같을 때 P(A) = 1/K 이고 H(X) = log2(K) 이며, 가장 큰 값이다
엔트로피의 활용
- 평균비트수를 표현
- 데이터 압축에 필요
4가지 정보를 표현할 때 2비트를 사용한다
X | P(X) | i(X) | code |
A | 1/2 | 1 | 0 |
B | 1/4 | 2 | 10 |
C | 1/8 | 3 | 110 |
D | 1/8 | 3 | 111 |
i(X)를 활용하는 경우의 평균비트수는 다음과 같다.
1*1/2+2*1/4+3*1/8+3*1/8 = 14/8 = 7/4 비트
728x90