SSAC X AIffel/논문 읽기
Zero-Shot Text-to-Image Generation
현석종
2021. 4. 19. 15:40
text to image generation은 전통적으로 고정 dataset 학습을 위한 더 나은 모델링을 추정하는데 중점을 두었다.
이러한 추정은 훈련 중에 제공되는 복잡한 구조 ,auxiliary losses, 그리고 object part labels와 segmentation masks같은 side information를 포함할 수 있다.
이 논문에서 텍스트 및 이미지 토큰을 데이터의 single stream으로 자동 회귀 모델링하는 transformer를 기반으로 이 작업에 대한 간단한 접근 방식을 설명한다.
충분한 데이터와 규모로, 이 논문에서 제시한 방식은 zero-shot fashion에 대해 평가될때, 이전의 domain-specific models과 비교하면 경쟁력이 있다.