Singh S, Sharma A, Tiwari S. Empirical Benchmarking of Vision-Language Transformer Combinations for Visual Question Answering Tasks. DMP-LNCSE. 2026;(IMPACT26):199-209. Accessed June 30, 2026. https://digitalmanuscriptpedia.com/conferences/index.php/DMP-LNCSE/article/view/144