[1]

S. Kumar and E. Adeli, “A Picture is Worth a Thousand Words: Using Cross-Modal Transformers and Variational AutoEncoders to Generate Images from Text”, J Stud Res, vol. 10, no. 4, Nov. 2021.