Altiora Petamus
gpt2 본문
질문 답변, 기계 번역, 읽기 이해 및 요약과 같은 자연어 처리 작업은 일반적으로 작업별 데이터 세트에 대한 지도 학습으로 접근한다. 이 논문에서 언어 모델이 웹 텍스트라고 하는 수백만 개의 새로운 웹 페이지 데이터 세트에서 훈련될 때 명시적 supervision 없이 이러한 작업을 배우기 시작한다는 것을 보여준다.
문서에 질문을 더하여 조건화했을 때, 언어 모델에 의해 생성된 답변은 CoQA 데이터 세트에서 55F1에 도달하여 127,000개 이상의 training examples를 사용하지 않고 4개 기준 시스템 중 3개 시스템의 성능을 일치시키거나 초과한다.
언어 모델의 용량은 zero-shot task transfer 의 성공에 필수적이며 이를 늘리면 작업 전반에 걸쳐 로그 선형 방식으로 성능이 향상된다. 우리의 가장 큰 모델인 GPT-2는 제로샷 설정에서 테스트된 언어 모델링 데이터 세트 8개 중 7개에서 sota 를 달성하는1.5B 매개 변수 Transformer이지만 여전히 웹 텍스트에는 적합하지 않다.
모델의 샘플은 이러한 개선 사항을 반영하며 일관된 텍스트 단락을 포함하고 있습니다. 이러한 결과은 자연스럽게 발생하는 입증을 통해 작업을 수행하는 방법을 배우는 언어 처리 시스템을 구축하는 유망한 경로를 제안한다.
'SSAC X AIffel > 논문 읽기' 카테고리의 다른 글
DEFT (0) | 2021.05.24 |
---|---|
pointRCNN (0) | 2021.05.24 |
MobileDets (0) | 2021.05.24 |
UPSNet (0) | 2021.05.24 |
Greedy algorithm(탐욕 알고리즘) (0) | 2021.05.07 |
Comments