hojeomi blog
Day 14-2. Transfomer 본문
0. Intro
- 시퀀스 모델의 문제점은 omited sequence, pernuted sequence 등과 같이 시퀀스 데이터의 순서가 달라지거나 바꿔면 다루기 매우 힘든 것임
- 이 문제를 해결하기 위해 Transfomer 사용
- attention을 활용한 게 제일 큰 핵심(RNN은 재귀적인 것과 다른 특징임)
- RNN에 3개 단어가 들어가면 3번 돎. 하지만 Transformer는 100개든 1000개든 한번에 찍어냄. 단, nxn의 처리를 한 번에 처리하기 위해 복잡한 computation과 큰 메모리 등이 필요함
- 시퀀스 데이터를 처리하고 인코딩하는 방법론이기에 NLP 뿐만 아니라 이미지 등에도 활용됨
- [참고] github.com/orgs/bcaitech1/teams/team08/discussions
1. Transfomer
- self-attention: 인코딩할 때 다른 단어들과의 관계를 봄
- Q vector와 K vector는 내적하기 때문에 차원이 같아야 함
- sqrt(d_k)는 score 벡터가 specific range에 들어가도록 하기 위해 K 벡터의 차원 또는 Q 벡터의 타원(이 두 벡터의 차원은 같아야 함)으로 나눔
- 가중치 벡터인 W 벡터는 모든 단어들에 일정하기에 이 가중치 벡터를 곱함으로써 생성된 K 벡터와 Q 벡터를 내적한 값으로 다른 단어들과 얼마나 연관있는지 알 수 있음
'AI > Course' 카테고리의 다른 글
Day 16-2. Word Embedding: Word2Vec, GloVe (0) | 2021.02.15 |
---|---|
Day 16-1. Intro to NLP, Bag-of-Words (0) | 2021.02.15 |
Day 14-1. RNN (0) | 2021.02.05 |
Day 13. CNN (0) | 2021.02.04 |
Day 12-2. CNN (0) | 2021.02.02 |
Comments