Altiora Petamus
fast text 본문
라벨이 부착되지 않은 대형 코퍼스에서 훈련된 연속적인 단어 표현은 많은 자연어 처리 작업에 유용하다.
이러한 표현을 학습하는 인기 있는 모델은 각 단어에 고유한 벡터를 할당하여 단어의 형태학을 무시한다.
이것은 특히 큰 어휘와 많은 희귀한 단어를 가진 언어들에 대한 한계이다.
이 논문에서 skipgram model 을 기반으로 한 새로운 접근법을 제안하는데 여기서 각 단어는 문자는 bag of character n-grams으로 표현된다.
벡터 표현은 각 character n-grams 과 연관되어 있으며 , 단어는 이러한 표현의 합으로 표현된다.
이 방법은 빠르고 large corpora 에서 모델을 빠르게 학습할 수 있으며 훈련 데이터에 나타나지 않은 단어에 대한 단어 표현을 계산할 수 있다.
이 논문에서 제안한 모델은 단어 유사성과 비교 작업에서 9개의 다른 언어로 단어 표현에 대한 평가가 되어 있다.
최근에 제안된 형태학적 단어 표현과 비교함으로써, 사용한 벡터가 이러한 작업에서 최고 성능을 달성한다는 것을 보여준다.
'SSAC X AIffel > 논문 읽기' 카테고리의 다른 글
UPSNet (0) | 2021.05.24 |
---|---|
Greedy algorithm(탐욕 알고리즘) (0) | 2021.05.07 |
ELMo (0) | 2021.04.26 |
u net (0) | 2021.04.26 |
Fast R-CNN (0) | 2021.04.26 |
Comments