Singh, Satyam, Aditya Sharma, and Smita Tiwari. “Empirical Benchmarking of Vision-Language Transformer Combinations for Visual Question Answering Tasks”. DMPedia Lecture Notes in Computer Science & Engineering, no. IMPACT26 (March 13, 2026): 199–209. Accessed June 30, 2026. https://digitalmanuscriptpedia.com/conferences/index.php/DMP-LNCSE/article/view/144.