hojeomi blog
Day 12-1. 최적화 본문
1. 최적화의 중요한 컨셉들
- Generalization
- Under-fitting vs Over-fitting
- Cross validation
- Bias-variance tradeoff
- Bootstrapping
- Bagging and boosting
1-1) Generalization
- Training error와 Test error의 차이를 줄이는 것
- 일반적으로 iteration이 커질수록 test error는 다시 커짐
1-3) Cross-validation
- validation set 없이 test set으로 모델의 성능을 확인하고 파라미터를 수정하면, test set에만 잘 작동함. 즉, test set에 과적합(over-fitting)하게 됨
- 위 문제의 원인은 test set이 전체 데이터의 일부분으로 '고정'되어 있기 때문
- 따라서, validation set에 모델 성능을 확인하고 파라미터(특히 하이퍼파라미터)를 수정하는 것을 k번 한 뒤 각 검증 정확도의 평균을 내는 것이 cross-validation
- training set, validation set, test set
3.1. Cross-validation: evaluating estimator performance — scikit-learn 0.24.1 documentation
3.1. Cross-validation: evaluating estimator performance Learning the parameters of a prediction function and testing it on the same data is a methodological mistake: a model that would just repeat the labels of the samples that it has just seen would have
scikit-learn.org
교차 검증(cross validation)
이번 시간에는 머신러닝에서 평가에 필수적으로 사용되는 교차 검증(cross validation)에 대해서 알아보자....
blog.naver.com
1-4) Bias-variance tradeoff
- Error = Variance + Bias + Noise
- Bias: 결과 뭉치가 목표와 얼마나 떨어져 있는지
- Variance: 결과 뭉치가 얼마나 흩어져 있는지
- f_hat = 예측값
- f = true function
- t = target value
- t = f(x) + e
- bias를 줄이면 variance가 커지는 등 tradeoff 관계임
1-5) Bootstrapping
- 원래의 데이터 셋으로부터 관측치를 반복적으로 추출(복원 반복 추출)하여 데이터 셋을 얻는 방법
- 데이터 양을 임의적으로 늘리고, 데이터 셋의 분포가 고르지 않을 때 고르게 만드는 효과가 있음
- [참고] bkshin.tistory.com/entry/DATA-12
DATA - 12. 부트스트랩(Bootstrap)
부트스트랩(Bootstrap) 모수의 분포를 추정하는 파워풀한 방법은 현재 있는 표본에서 추가적으로 표본을 복원 추출하고 각 표본에 대한 통계량을 다시 계산하는 것입니다. 이러한 절차를 부트스트
bkshin.tistory.com
1-6) Bagging and boosting
[Python 머신러닝] 7장. 앙상블 (Ensemble) - (1) 앙상블의 개념
앙상블 (Ensemble) 이란? - 여러 가지 우수한 학습 모델을 조합해 예측력을 향상시키는 모델 - 장점 : 단일 모델에 비해서 분류 성능 우수 - 단점 : 모델 결과의 해석이 어렵고, 예측 시간이 많이 소요
joyfuls.tistory.com
2. Gradient Descent Methods
- Stochastic gradient descent: Update with the gradient computed from a single sample
- Mini-batch gradient descent: from a subset of date
- Batch gradient descent: from the whole data
- [참고] nonmeyet.tistory.com/entry/Batch-MiniBatch-Stochastic-%EC%A0%95%EC%9D%98%EC%99%80-%EC%84%A4%EB%AA%85-%EB%B0%8F-%EC%98%88%EC%8B%9C
Batch, Mini-Batch, SGD 정의와 설명 및 예시
머신러닝에서 말하는 Batch의 정의 모델을 학습할 때 한 Iteration당(반복 1회당) 사용되는 example의 set 모임 여기서 iteration은 정해진 batch size를 이용하여 학습(forward - backward)를 반복하는 횟수를..
nonmeyet.tistory.com
3. Gradient descent algorithms
- Stochastic gradient descent
- Momentum
- Nesterov accelerated gradient
- Adagrad
- Adadelta
- RMSprop
- Adam
Gradient Descent Algorithms
본 내용은 "An overview of gradient descent optimization algorithms."을 참고하여 작성하였습니다. 기울기 강하법 기본 포스팅에서 기울기 강하법의 기초적인 내용과 강하법시 이용되는 데이터의 크기에 따
yjjo.tistory.com
4. Regularization
- Early stopping
- Parameter norm penalty
- Data augmentation
- Noise robustness
- Label smooting
- Dropout
- Batch normalization
'AI > Course' 카테고리의 다른 글
Day 13. CNN (0) | 2021.02.04 |
---|---|
Day 12-2. CNN (0) | 2021.02.02 |
Day 11-1. 조건부 확률, 베이즈 정리 (0) | 2021.02.02 |
Day 10. 통계학 맛보기 (0) | 2021.01.29 |
Day 8. 딥러닝 학습방법 이해하기 (0) | 2021.01.29 |