Kumar, S., & Adeli, E. (2021). A Picture is Worth a Thousand Words: Using Cross-Modal Transformers and Variational AutoEncoders to Generate Images from Text. Journal of Student Research, 10(4). https://doi.org/10.47611/jsrhs.v10i4.2106