hojeomi blog

Day 14-2. Transfomer 본문

AI/Course

Day 14-2. Transfomer

호저미 2021. 2. 5. 01:47

0. Intro

  • 시퀀스 모델의 문제점은 omited sequence, pernuted sequence 등과 같이 시퀀스 데이터의 순서가 달라지거나 바꿔면 다루기 매우 힘든 것임
  • 이 문제를 해결하기 위해 Transfomer 사용
  • attention을 활용한 게 제일 큰 핵심(RNN은 재귀적인 것과 다른 특징임)
    • RNN에 3개 단어가 들어가면 3번 돎. 하지만 Transformer는 100개든 1000개든 한번에 찍어냄. 단, nxn의 처리를 한 번에 처리하기 위해 복잡한 computation과 큰 메모리 등이 필요함
  • 시퀀스 데이터를 처리하고 인코딩하는 방법론이기에 NLP 뿐만 아니라 이미지 등에도 활용됨
  • [참고] github.com/orgs/bcaitech1/teams/team08/discussions
 

GitHub: Where the world builds software

GitHub is where over 56 million developers shape the future of software, together. Contribute to the open source community, manage your Git repositories, review code like a pro, track bugs and feat...

github.com

 

 

 

 

1. Transfomer

  •  self-attention: 인코딩할 때 다른 단어들과의 관계를 봄
  • Q vector와 K vector는 내적하기 때문에 차원이 같아야 함
  • sqrt(d_k)는 score 벡터가 specific range에 들어가도록 하기 위해 K 벡터의 차원 또는 Q 벡터의 타원(이 두 벡터의 차원은 같아야 함)으로 나눔
  • 가중치 벡터인 W 벡터는 모든 단어들에 일정하기에 이 가중치 벡터를 곱함으로써 생성된 K 벡터와 Q 벡터를 내적한 값으로 다른 단어들과 얼마나 연관있는지 알 수 있음

'AI > Course' 카테고리의 다른 글

Day 16-2. Word Embedding: Word2Vec, GloVe  (0) 2021.02.15
Day 16-1. Intro to NLP, Bag-of-Words  (0) 2021.02.15
Day 14-1. RNN  (0) 2021.02.05
Day 13. CNN  (0) 2021.02.04
Day 12-2. CNN  (0) 2021.02.02
Comments