KUMAR, S.; ADELI, E. A Picture is Worth a Thousand Words: Using Cross-Modal Transformers and Variational AutoEncoders to Generate Images from Text. Journal of Student Research, v. 10, n. 4, 30 Nov. 2021.