hojeomi blog

Day 8. 딥러닝 학습방법 이해하기 본문

AI/Course

Day 8. 딥러닝 학습방법 이해하기

호저미 2021. 1. 29. 20:03

1. 신경망

  • 비선형모델
  • 수식을 분해해보면 선형모델이 숨겨져 있음 → 선형모델과 비선형모델의 결합으로 이루어져 있음

  • W는 행렬X를 다른 차원으로 보내주는 행렬
  • d개의 변수들을 p개의 선형모델을 만듦으로써 p개의 잠재변수를 설명하는 모델 만들기
  • 즉, 신경망은 선형모델과 활성함수(activation function)를 합성한 함수

 

 

 

2. 활성함수(activation function)

  • R 위에 정의된 비선형함수
  • 활성함수를 쓰지 않으면 딥러닝은 선형모형과 차이가 없음
  • 시그모이드(sigmoid) 함수나 tanh 함수는 전통적으로 많이 쓰이던 활성함수지만 딥러닝에서는 ReLU 함수를 많이 씀

 

 

 

3. 소프트맥스(softmax) 연산

  • 딥러닝에서 분류문제를 풀 때 사용
  • 소프트맥스 함수는 모델의 출력을 확률로 해설할 수 있게 변환해주는 연산
  • 분류문제를 풀 때 선형모델과 소프트맥스 함수를 결합하여 예측
  • 선형모델의 값이 확률값이 아닌 경우가 많음
    • 이유: 선형 결합은 모든 실수값에 해당하는 값들을 구성성분으로 가질 수 있기 때문
    • 따라서, 소프트맥스를 사용해서 확률벡터로 변환해줌
  • 추론을 하려면 최댓값을 1로 출력하는 one-hot 벡터 사용, 학습을 하려면 소프트맥스 사용
  • 파이썬 원핫인코딩/소프트맥스 예제는 '예제연습' 메뉴 참고

 

 

 

 

4. 다층(multi-layer) 퍼셉트론(MLP)

  • 신경망이 여러층 합성된 함수
  • 이론적으로는 2층 신경망으로도 임의의 연속함수를 근사할 수 있음(universal approximation theorem)
  • 하지만, 더 쌓음. 이유는?
    • 층이 깊을수록 목적함수를 근사하는데 필요한 뉴런(노드)의 숫자가 훨씬 빨리 줄어들어 좀 더 효율적으로 학습이 가능함
    • 하지만, 층이 깊어질수록 학습 자체가 어려워질 수 있음
    • [참고] 층이 얇으면(얕으면) 필요한 뉴런의 숫자가 기하급수적으로 늘어나서 넓은(wide) 신경망이 되어야 함

 

 

 

5. 역전파(backpropagation) 알고리즘

  •  

'AI > Course' 카테고리의 다른 글

Day 11-1. 조건부 확률, 베이즈 정리  (0) 2021.02.02
Day 10. 통계학 맛보기  (0) 2021.01.29
Day 7. 경사하강법  (0) 2021.01.26
Day 6-3. 행렬  (0) 2021.01.25
Day 6-2. 벡터  (0) 2021.01.25
Comments