[1]

Singh, S. et al. 2026. Empirical Benchmarking of Vision-Language Transformer Combinations for Visual Question Answering Tasks. DMPedia Lecture Notes in Computer Science & Engineering. IMPACT26 (Mar. 2026), 199–209.