Kumar, S., and E. Adeli. “A Picture Is Worth a Thousand Words: Using Cross-Modal Transformers and Variational AutoEncoders to Generate Images from Text”. Journal of Student Research, vol. 10, no. 4, Nov. 2021, doi:10.47611/jsrhs.v10i4.2106.