Kumar S, Adeli E. A Picture is Worth a Thousand Words: Using Cross-Modal Transformers and Variational AutoEncoders to Generate Images from Text. J Stud Res [Internet]. 2021Nov.30 [cited 2024Apr.30];10(4). Available from: https://www.jsr.org/hs/index.php/path/article/view/2106