목록전체 글 (50)
hojeomi blog
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cprhoY/btqXD3zMATS/KG3tLM6p4QMOCkh2djId4K/img.png)
출처: wikidocs.net/24996 1. Seq2Seq: many-to-many 예) 챗봇, 번역기 크게 두 개로 구성된 아키텍처 - 인코더, 디코더 인코더는 입력 문장의 모든 단어들을 순차적으로 입력받은 뒤에 마지막에 이 모든 단어 정보들을 압축해서 하나의 벡턱로 만듦 → 컨텍스트 벡터(context vector) 입력 문장의 정보가 하나의 컨텍스트 벡터로 모두 압축되면 인코더는 컨텍스트 벡터를 디코더로 전송함 디코더는 컨텍스트 벡터를 받아서 번역된 단어를 한 개씩 순차적으로 출력함 인코더 아키텍처와 디코더 아키덱처의 내부는 각각 RNN 아키텍처 입력 문장을 받는 RNN 셀을 인코더, 출력 문장을 출력하는 RNN 셀을 디코더 실제로는 성능문제로 바닐라RNN이 아닌 LSTM, 또는 GRU 셀로 구성..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/etrv8p/btqXu5pVwSw/LeBWJ3YlnAoChm3KyUJjB1/img.png)
sorted(word_count.items(), key=lambda x: x[1], reverse=True) ('정말', 1)에서 인덱스 1인 숫자를 기준으로 sort
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dSAuP7/btqXrDHrD5N/bKuFw9ffNZVxqYzGuSg1z1/img.png)
0. Intro 워드 임베딩이란? 비슷한 의미가 좌표상 가까이 위치하도록 하는 것 → 유사도 계산 1. Word2Vec An algorithm for training vector representation of a word from context words (adjacent words) Assumption: words in similar context will have similar meanings CBOW(Continuous Bag of Words)와 Skip-Gram 두 가지 방식이 있음 CBOW는 주변 단어들로 중간 단어 예측, Skpi-Gram은 중간 단어로 주변 단어들 예측 손실함수를 최소화하는 가중치 행렬인 W와 W'를 구하는 문제 역전파를 이용해서 가중치 행렬을 리뉴얼한 후 손실함수 측정
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cB5QUt/btqXn96QVv6/8qcjLB7vloaTgIIQtxCDxk/img.png)
[../주재걸교수님_자연어처리/01_자연어처리_upstage_1일차 (1).pdf] 0. Intro 자연어처리 최근 발전 동향: NLU(자연어 이해), NLG(자연어 처리)로 나뉨 1. Natural language processing 주요 학회: ACL, EMNLP, NAACL low-level parsing tokenization: I/love/me 이렇게 나눔 stemming: 어근 추출 word and phase level Named entity recognition(NER): 'newyork times'를 한 단어로 인식할 수 있도록 part-of-speech(POS) tagging: 문장 내 품사 및 성분을 알아내는 것 예) 주어, 형용사, 부동사, 목적어, 부사구 noun-phrase chu..