Kumar, S. and Adeli, E. (2021) “A Picture is Worth a Thousand Words: Using Cross-Modal Transformers and Variational AutoEncoders to Generate Images from Text”, Journal of Student Research. Houston, USA, 10(4). doi: 10.47611/jsrhs.v10i4.2106.