hojeomi blog
Day 8. 딥러닝 학습방법 이해하기 본문
1. 신경망
- 비선형모델
- 수식을 분해해보면 선형모델이 숨겨져 있음 → 선형모델과 비선형모델의 결합으로 이루어져 있음
- W는 행렬X를 다른 차원으로 보내주는 행렬
- d개의 변수들을 p개의 선형모델을 만듦으로써 p개의 잠재변수를 설명하는 모델 만들기
- 즉, 신경망은 선형모델과 활성함수(activation function)를 합성한 함수
2. 활성함수(activation function)
- R 위에 정의된 비선형함수
- 활성함수를 쓰지 않으면 딥러닝은 선형모형과 차이가 없음
- 시그모이드(sigmoid) 함수나 tanh 함수는 전통적으로 많이 쓰이던 활성함수지만 딥러닝에서는 ReLU 함수를 많이 씀
3. 소프트맥스(softmax) 연산
- 딥러닝에서 분류문제를 풀 때 사용
- 소프트맥스 함수는 모델의 출력을 확률로 해설할 수 있게 변환해주는 연산
- 분류문제를 풀 때 선형모델과 소프트맥스 함수를 결합하여 예측
- 선형모델의 값이 확률값이 아닌 경우가 많음
- 이유: 선형 결합은 모든 실수값에 해당하는 값들을 구성성분으로 가질 수 있기 때문
- 따라서, 소프트맥스를 사용해서 확률벡터로 변환해줌
- 추론을 하려면 최댓값을 1로 출력하는 one-hot 벡터 사용, 학습을 하려면 소프트맥스 사용
- 파이썬 원핫인코딩/소프트맥스 예제는 '예제연습' 메뉴 참고
4. 다층(multi-layer) 퍼셉트론(MLP)
- 신경망이 여러층 합성된 함수
- 이론적으로는 2층 신경망으로도 임의의 연속함수를 근사할 수 있음(universal approximation theorem)
- 하지만, 더 쌓음. 이유는?
- 층이 깊을수록 목적함수를 근사하는데 필요한 뉴런(노드)의 숫자가 훨씬 빨리 줄어들어 좀 더 효율적으로 학습이 가능함
- 하지만, 층이 깊어질수록 학습 자체가 어려워질 수 있음
- [참고] 층이 얇으면(얕으면) 필요한 뉴런의 숫자가 기하급수적으로 늘어나서 넓은(wide) 신경망이 되어야 함
5. 역전파(backpropagation) 알고리즘
'AI > Course' 카테고리의 다른 글
Day 11-1. 조건부 확률, 베이즈 정리 (0) | 2021.02.02 |
---|---|
Day 10. 통계학 맛보기 (0) | 2021.01.29 |
Day 7. 경사하강법 (0) | 2021.01.26 |
Day 6-3. 행렬 (0) | 2021.01.25 |
Day 6-2. 벡터 (0) | 2021.01.25 |
Comments