인공지능 AI/DL 6
-
규제 Regulation 드롭아웃 Dropout 규제기법 많은 부분 신경망을 만들고, 앙상블 결합하는 기법으로 볼 수 있다. 앙상블 Ensemble 하이퍼 파라미터 Hyper Parameter 최적화 2차 미분을 통해 최적화하는 방법 - 뉴턴 방법 - 켤레 경사도 방법 - 유사 뉴턴 방법 지금은 잘 사용하지 않지만 발전 가능성이 있는 부분이다. 1차 미분은 그레디언트 디센트, 2차 미분은 뉴턴 방법이다. 켤레 경사도 방법 Conjugate Gradient Method 이전 그레디언트와 현재 그레디언트 값의 중간 값인 P2 값을 찾는다. 유사 뉴턴 방법 Quasi - Newton Methods
-
활성함수 Activation Function 보통 심층학습에서는 ReLU 함수를 많이 사용한다. ReLU의 단점을 보완하기 위한 변형 ReLU 함수도 나오게 되었다. 최근의 활성함수는 다양한 문제들을 해결하려 한다. - 포화된 영역의 경사도가 작아지는 문제 - 출력값이 0 중심이 아닌 문제 - 다소 높은 연산량 배치 정규화 Batch Normalization 배치 단위로 정규화한다. 레이어를 지날 수록 분포가 흐트러지는 모습을 확인할 수 있다. 이런 것들이 학습을 방해하게 된다. 배치정규화는 레이어 단위로 분포를 정규화시킨다. 활성함수를 통과하기 바로 이전에, 선형함수를 통과한 후에 정규화를 적용하는 것이 좋다. 선형 -> 정규화 -> 활성 미니배치를 수행한 후 전체 평균을 다시 평균낸다. 규제 Regu..
-
심층학습 최적화를 위한 다양한 방법들을 소개한다. 절대적인 기준이 아니지만 일반적인 방법들이다. 1. 목적함수 (손실함수) - 이전 게시물로 작성했다. 2. 데이터 전처리 3. 가중치 초기화 4. 탄력 (가속도, 관성) 5. 활성함수 6. 배치 정규화 데이터 전처리 Preprocessing 데이터 feature들의 스케일을 비슷하게 맞춰주어야 한다. 이런 문제를 해결하기 위해 정규화 Normalization 를 진행한다. 데이터의 분포를 알 수 있고, 양수나 음수 한쪽으로 치우치는 문제를 해결할 수 있다. 또한 한쪽의 노드로 끌려가는 현상을 방지할 수 있다. 가중치 초기화 Weight Initialization 초기 가중치 값을 어떤 값으로 설정하는 지가 중요하다. 탄력 (가속도, 관성) Momentum..
-
평균제곱오차 MSE 오차가 클 수록 e 값이 크므로 벌점(정량적 성능)으로 활용된다. 하지만 허점이 존재한다. 경사도를 계산하면 왼쪽의 경사도가 더 크지만 더 많은 오류가 있는 상황이 더 낮은 벌점을 받았다. 교차 엔트로피 Cross Entropy 소프트맥스 함수 Softmax 출력층의 활성함수로 로지스틱 시그모이드와 softmax를 비교한다. 출력층의 변화에 따라 소프트맥스의 결과도 최대 출력에 더 가까워진다 따라서 부드러운 최대 함수로 불린다. 소프트맥스함수와 교차엔트로피 목적함수 로그우도 손실함수에서 교차 엔트로피가 최소화 됨
-
해당하는 식의 가중치로 연산하고 ReLU 연산하고 다음 층으로 가게된다. 이론적으로 거의 MLP와 유사하기 때문에 설명은 생략한다. 전방계산으로 실제값 예측값의 차이를 알고, 가중치를 구한다. 이것을 반복해서 미니배치 단위로 진행하고 오류역전파한다. 퍼셉트론 Perceptron 다층 퍼셉트론 MLP 깊은 다층 퍼셉트론 DMLP 활성함수 계단함수 시그모이드 함수 ReLU와 변형들 목적함수 평균제곱 오차 평균제곱 오차 교차 엔트로피 또는 로그우드 합성곱 신경망 Convolutional Neural Networks CNN 깊은 다층 퍼셉트론에서 파생된 새로운 알고리즘 사진 영상 인식에서 DMLP보다 인식률이 좋다. 심층학습은 종단간 End-to-End에 최적화된 학습이 가능하다.
-
심층학습 Deep Learning 다층 퍼셉트론에 은닉층을 여러개 추가하면 깊은 신경망이 된다. 심층학습은 깊은 신경망의 학습을 의미한다. 심층학습은 새로운 응용을 창출하고 인공지능 제품의 성능을 향상시킨다. 현대 기계학습을 주도한다. 심층학습의 등장 1980년대에 이미 깊은 신경망의 아이디어가 등장했지만, 당시에 깊은 신경망의 학습이 불가능했다. - 경사 소멸 Vanishing Gradient - 적은 훈련집합 - 과다한 연산과 시간의 소요 - 낮은 성능의 범용 컴퓨터 미분으로 오류 역전파 할때 가중치를 갱신할 때 경사 소멸 문제가 발생한다. 중간에 0에 수렴하는 값이 생길때 그레디언트가 희미해진다. 이러한 배경에도 토론토의 연구자들은 지속적인 연구를 통해 심층학습의 이론을 발전시켰다. - 학습률에 따..