
AuthorJacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova PDFhttps://arxiv.org/abs/1810.04805 1. BERT의 특징GPT-1의 Unidirectional 학습 방법은 일부 작업에서는 효과적이었지만, 다양한 NLP 작업에서의 범용성을 제한했다.이러한 한계를 극복하기 위해 BERT는 Bidirectional 컨텍스트를 활용하여 더욱 강력한 표현 학습 능력을 제공한다.BERT는 양방향으로 문장을 읽으며 문맥을 이해할 수 있는 모델 개발에 초점을 맞춘다.사전 학습 모델 (Pre-Training)BERT는 기본적으로 대량의 단어 임베딩 등에 대해 사전 학습이 되어 있는 모델을 제공하기 때문에, 상대적으로 적은 자원만으로도 충분..

AuthorDzmitry Bahdanau, KyungHyun Cho, Yoshua BengioPDFhttps://arxiv.org/abs/1409.0473 ABSTRACTNMT(Neural Machine Translation)은 최근에 제안된 기계 번역 방법이다. 전통적인 통계 기계 번역과 달리, 번역 성능을 최대화하기 위해 공동으로 조정될 수 있는 단일 신경망을 구축하는 것을 목표로 한다.기존 방식은 전체 문장 정보를 한 벡터로 압축하여 사용했다. 이 단일 벡터는 길이가 제한되어 있어, 문장이 길어질수록 번역 정확도가 떨어진다는 단점이 있다.본 논문에서는 단일 벡터 대신, 모델이 각 단어 생성 시 필요한 부분을 자동으로 찾아 활용할 수 있도록 개선을 제안한다. 이를 통해 문장의 모든 정보를 활용..

AuthorIlya Sutskever, Oriol Vinyals, Quoc V. Le PDFhttps://arxiv.org/abs/1409.3215 AbstractDNNs는 다양한 분야에서 높은 성능을 보여주고 있으며, 본 논문은 어떠한 시퀀스를 학습하는 과정에서 일반적으로 사용할 수 있는 end-to-end approach를 제안한다.LSTM도 일반적으로 그대로 사용하지 않고 Multilayer를 이용해 여러 번 쌓아서 사용한다. 본 논문은 LSTM을 총 4번 쌓아서 사용한다.LSTM을 사용했을 때 상당히 긴 문장이라도 높은 성능을 보인다.SMT에서 나온 1000개의 hypothese에 대해서 LSTM에 다시 랭크를 매기는 방법을 적용해서 딥러닝과 통계적 기계번역을 접목하여 실험했을 때, BLEU sc..