인공지능 AI/ML

ML 특징 공간에 대한 이해

sailorCat 2022. 1. 11. 00:09
728x90

특징공간

모든 데이터는 정량적으로 표현되며, 특징 공간상에 존재한다.

특징벡터 x = ( a, b, c, d, ... )

 

 

다차원 특징공간 d-demension

특징벡터 x = ( x1, x2, x3, x4, ... )^T

 

직선 모델을 사용하는 경우 매개변수의 수 (d+1)

 

2차 곡선 모델을 사용하는 경우 매개변수의 수 (d^2+d+1)

지수적으로 증가한다.

 

거리의 경우 차원과 무관하게 수식 적용이 가능함

거리가 가까우면 데이터가 유사한 것으로 취급

두 점 a = (a1, a2, a3, ...)^T와 b = (b1, b2, b3, ...)^T 사이의 유클리드 거리는 모든 d에 성립한다.

 

 

 

차원의 저주 curse of dimensionality (=number of features)

차원이 고차원이 될 수록 발생하는 현실적인 문제들

 

ex) MNIST 샘플의 차원 d = 784 일 경우 샘플의 화소가 0과 1을 가진다면 2의 784제곱 개의 칸이 생긴다.

이 공간에 고작 6만 개의 샘플을 흩뿌린 매우 희소한 분포가 된다.

규칙을 찾기가 어려워진다.

 

차원이 높아질수록 유의미한 표현을 찾기위해 지수적으로 많은 데이터가 필요하다.

 

선형 분리 불가능 Linearly non - seperable

선형 분리가 불가능한 특징 공간을 공간변환을 통해 직선 모델로 만들 수 있다.

ex) 표현문제 representations matter

직교좌표계로 변환하면 규칙을 찾아 구분 가능해진다.

 

표현학습 representation learning

좋은 특징 공간을 자동으로 찾는 작업

ex) 개구리 사진의 특성을 분석해 개구리라고 알아내는 것

 

심층학습 Deep Learning

표현 학습의 하나로 다수의 은닉층을 가진 신경망을 이용하여 최적의 계층적인 특징을 학습

아래쪽 Layer는 저급 특징인 선, 구석점 등을 알아내고

위쪽 Layer는 이미지의 추상화된 측징 얼굴, 모자 등을 알아낸다.

 

이미지 

Pixel - Edge - Texton - Motif - Part - Object

텍스트

Character - Word - Word Group - Clause - Sentence - Story

음성

Sample - Spectral Band - Sound - ... - Phone - Phoneme - Word - ...

 

 

인공신경망의 역사

 

1940 - 1960 인공두뇌학 Cybermetics

1980 - 1990 결합설 Connectionism for Parallel Distributed Processing

2006 - 현재 심층학습 Deep Learning

 

초인공지능 Super AI

인공지능의 발전이 가속화되어 모든 인류의 지성을 합친 것보다 뛰어남

강인공지능 Strong AI

인간이 할 수 있는 어떠한 지적인 업무도 성공적으로 해내는 지능

약인공지능 Weak AI

인간이 지시한 명령의 틀 안에서만 일하기 때문에 예측, 관리가 용이

728x90