hojeomi blog

Day 12-1. 최적화 본문

AI/Course

Day 12-1. 최적화

호저미 2021. 2. 2. 21:30

1. 최적화의 중요한 컨셉들

  • Generalization
  • Under-fitting vs Over-fitting
  • Cross validation
  • Bias-variance tradeoff
  • Bootstrapping
  • Bagging and boosting

 

 

 

1-1) Generalization

  • Training error와 Test error의 차이를 줄이는 것
  • 일반적으로 iteration이 커질수록 test error는 다시 커짐

 

 

 

1-3) Cross-validation

  • validation set 없이 test set으로 모델의 성능을 확인하고 파라미터를 수정하면, test set에만 잘 작동함. 즉, test set에 과적합(over-fitting)하게 됨
  • 위 문제의 원인은 test set이 전체 데이터의 일부분으로 '고정'되어 있기 때문
  • 따라서, validation set에 모델 성능을 확인하고 파라미터(특히 하이퍼파라미터)를 수정하는 것을 k번 한 뒤 각 검증 정확도의 평균을 내는 것이 cross-validation

  • training set, validation set, test set

출처: https://bjy2.tistory.com/95

 

3.1. Cross-validation: evaluating estimator performance — scikit-learn 0.24.1 documentation

3.1. Cross-validation: evaluating estimator performance Learning the parameters of a prediction function and testing it on the same data is a methodological mistake: a model that would just repeat the labels of the samples that it has just seen would have

scikit-learn.org

 

교차 검증(cross validation)

이번 시간에는 머신러닝에서 평가에 필수적으로 사용되는 교차 검증(cross validation)에 대해서 알아보자....

blog.naver.com

 

 

 

 

1-4) Bias-variance tradeoff

  • Error = Variance + Bias + Noise
  • Bias: 결과 뭉치가 목표와 얼마나 떨어져 있는지
  • Variance: 결과 뭉치가 얼마나 흩어져 있는지

  • f_hat = 예측값
  • f = true function
  • t = target value
  • t = f(x) + e

출처: https://untitledtblog.tistory.com/143

  • bias를 줄이면 variance가 커지는 등 tradeoff 관계임

 

 

 

1-5) Bootstrapping

  • 원래의 데이터 셋으로부터 관측치를 반복적으로 추출(복원 반복 추출)하여 데이터 셋을 얻는 방법
  • 데이터 양을 임의적으로 늘리고, 데이터 셋의 분포가 고르지 않을 때 고르게 만드는 효과가 있음
  • [참고] bkshin.tistory.com/entry/DATA-12
 

DATA - 12. 부트스트랩(Bootstrap)

부트스트랩(Bootstrap) 모수의 분포를 추정하는 파워풀한 방법은 현재 있는 표본에서 추가적으로 표본을 복원 추출하고 각 표본에 대한 통계량을 다시 계산하는 것입니다. 이러한 절차를 부트스트

bkshin.tistory.com

 

 

 

1-6) Bagging and boosting

 

[Python 머신러닝] 7장. 앙상블 (Ensemble) - (1) 앙상블의 개념

앙상블 (Ensemble) 이란? - 여러 가지 우수한 학습 모델을 조합해 예측력을 향상시키는 모델 - 장점 : 단일 모델에 비해서 분류 성능 우수 - 단점 : 모델 결과의 해석이 어렵고, 예측 시간이 많이 소요

joyfuls.tistory.com

 

 

 

2. Gradient Descent Methods

 

Batch, Mini-Batch, SGD 정의와 설명 및 예시

머신러닝에서 말하는 Batch의 정의 모델을 학습할 때 한 Iteration당(반복 1회당) 사용되는 example의 set 모임 여기서 iteration은 정해진 batch size를 이용하여 학습(forward - backward)를 반복하는 횟수를..

nonmeyet.tistory.com

 

 

 

3. Gradient descent algorithms

  • Stochastic gradient descent
  • Momentum
  • Nesterov accelerated gradient
  • Adagrad
  • Adadelta
  • RMSprop
  • Adam

yjjo.tistory.com/6 

 

Gradient Descent Algorithms

본 내용은 "An overview of gradient descent optimization algorithms."을 참고하여 작성하였습니다. 기울기 강하법 기본 포스팅에서 기울기 강하법의 기초적인 내용과 강하법시 이용되는 데이터의 크기에 따

yjjo.tistory.com

 

 

 

4. Regularization

  • Early stopping
  • Parameter norm penalty
  • Data augmentation
  • Noise robustness
  • Label smooting
  • Dropout
  • Batch normalization

'AI > Course' 카테고리의 다른 글

Day 13. CNN  (0) 2021.02.04
Day 12-2. CNN  (0) 2021.02.02
Day 11-1. 조건부 확률, 베이즈 정리  (0) 2021.02.02
Day 10. 통계학 맛보기  (0) 2021.01.29
Day 8. 딥러닝 학습방법 이해하기  (0) 2021.01.29
Comments