CINECA IRIS Institutional Research Information System

The proliferation of visual data in Science, Technology, Engineering, and Mathematics (STEM) presents accessibility barriers for blind and low-vision users. While Artificial Intelligence (AI) can generate alternative descriptions of STEM images, research remains fragmented and pratical impact is limited. This systematic survey examines 20 peer-reviewed studies on AI-based STEM visual description, focusing on accessibility and Human–Computer Interaction (HCI). Following PRISMA methodology and a ROBIS-based risk-of-bias assessment, the review analyzes (i) STEM visuals targeted, (ii) AI architectures employed, (iii) datasets and evaluation metrics, and (iv) interaction modalities for delivering descriptions. Findings show a shift from static alt-text toward interactive, multimodal systems integrating conversational interfaces, keyboard navigation, audio, and haptic feedback. However, challenges persist, including hallucinations, limited accessibility-first datasets co-designed with BLV users, and overreliance on automatic text-overlap metrics. The survey identifies future HCI priorities: user-controlled verbosity, explainable AI pipelines, and integration of accessible description into mainstream STEM environments.

A Systematic Survey on Image Description Techniques for STEM Domains

Cardia, Marco;Angileri, Letizia;Buzzi, Marina;Galesi, Giulio;Leporini, Barbara

2026-01-01

Abstract

The proliferation of visual data in Science, Technology, Engineering, and Mathematics (STEM) presents accessibility barriers for blind and low-vision users. While Artificial Intelligence (AI) can generate alternative descriptions of STEM images, research remains fragmented and pratical impact is limited. This systematic survey examines 20 peer-reviewed studies on AI-based STEM visual description, focusing on accessibility and Human–Computer Interaction (HCI). Following PRISMA methodology and a ROBIS-based risk-of-bias assessment, the review analyzes (i) STEM visuals targeted, (ii) AI architectures employed, (iii) datasets and evaluation metrics, and (iv) interaction modalities for delivering descriptions. Findings show a shift from static alt-text toward interactive, multimodal systems integrating conversational interfaces, keyboard navigation, audio, and haptic feedback. However, challenges persist, including hallucinations, limited accessibility-first datasets co-designed with BLV users, and overreliance on automatic text-overlap metrics. The survey identifies future HCI priorities: user-controlled verbosity, explainable AI pipelines, and integration of accessible description into mainstream STEM environments.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2026
			
	Codice DOI
	
				https://dx.doi.org/10.1080/10447318.2026.2668031
			
	Tutti gli autori
	
						Cardia, Marco; Angileri, Letizia; Buzzi, Marina; Galesi, Giulio; Leporini, Barbara

File in questo prodotto:

File	Dimensione	Formato
A Systematic Survey on Image Description Techniques for STEM Domains.pdf non disponibili Tipologia: Versione finale editoriale Licenza: NON PUBBLICO - accesso privato/ristretto Dimensione 2.16 MB Formato Adobe PDF Visualizza/Apri Richiedi una copia	2.16 MB	Adobe PDF	Visualizza/Apri Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11568/1358827

Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni

ND

ND

ND

social impact