CINECA IRIS Institutional Research Information System

Il contributo presenta il problema della valutazione dei testi generati in lingua italiana da LLM collocandolo nel contesto delle pratiche di valutazione esistenti in diversi settori connessi. Nella prima parte viene mostrato il posizionamento della valutazione degli LLM in rapporto ad alcune pratiche ampiamente diffuse, dalla valutazione semiautomatica delle traduzioni automatiche alla valutazione umana di testi di vario genere. Nella seconda parte vengono presentate le condizioni della valutazione in rapporto alle capacità effettive degli LLM, che sono in grado di generare testi di tipo molto diverso. Viene poi presentato l’esame di un campione di testi generati da ChatGPT, eseguito appunto nella prospettiva dell’identificazione delle pratiche di valutazione più adatte. Le produzioni testuali oggetto dell’esame, ricavate da conversazioni condotte con ChatGPT-3.5 e ChatGPT-4, mostrano infatti un avvicinamento notevole alle produzioni professionali di esseri umani, ma anche alcuni punti di divergenza. Complessivamente, il contributo argomenta quindi in favore dell’importanza e dell’utilità della valutazione umana applicata ai testi di buon livello linguistico prodotti dai sistemi attuali basati sull’intelligenza artificiale, purché in questa applicazione venga evitata l’adozione passiva di criteri sviluppati per altri tipi di attività.

Valutare la qualità dei testi generati in lingua italiana

Mirko Tavosanis

2024-01-01

Abstract

Il contributo presenta il problema della valutazione dei testi generati in lingua italiana da LLM collocandolo nel contesto delle pratiche di valutazione esistenti in diversi settori connessi. Nella prima parte viene mostrato il posizionamento della valutazione degli LLM in rapporto ad alcune pratiche ampiamente diffuse, dalla valutazione semiautomatica delle traduzioni automatiche alla valutazione umana di testi di vario genere. Nella seconda parte vengono presentate le condizioni della valutazione in rapporto alle capacità effettive degli LLM, che sono in grado di generare testi di tipo molto diverso. Viene poi presentato l’esame di un campione di testi generati da ChatGPT, eseguito appunto nella prospettiva dell’identificazione delle pratiche di valutazione più adatte. Le produzioni testuali oggetto dell’esame, ricavate da conversazioni condotte con ChatGPT-3.5 e ChatGPT-4, mostrano infatti un avvicinamento notevole alle produzioni professionali di esseri umani, ma anche alcuni punti di divergenza. Complessivamente, il contributo argomenta quindi in favore dell’importanza e dell’utilità della valutazione umana applicata ai testi di buon livello linguistico prodotti dai sistemi attuali basati sull’intelligenza artificiale, purché in questa applicazione venga evitata l’adozione passiva di criteri sviluppati per altri tipi di attività.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2024
			
	Codice DOI
	
				https://dx.doi.org/10.62408/ai-ling.v1i1.14
			
	Tutti gli autori
	
						Tavosanis, Mirko

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11568/1271111

Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni

ND

ND

ND

social impact