Il contributo presenta il problema della valutazione dei testi generati in lingua italiana da LLM collocandolo nel contesto delle pratiche di valutazione esistenti in diversi settori connessi. Nella prima parte viene mostrato il posizionamento della valutazione degli LLM in rapporto ad alcune pratiche ampiamente diffuse, dalla valutazione semiautomatica delle traduzioni automatiche alla valutazione umana di testi di vario genere. Nella seconda parte vengono presentate le condizioni della valutazione in rapporto alle capacità effettive degli LLM, che sono in grado di generare testi di tipo molto diverso. Viene poi presentato l’esame di un campione di testi generati da ChatGPT, eseguito appunto nella prospettiva dell’identificazione delle pratiche di valutazione più adatte. Le produzioni testuali oggetto dell’esame, ricavate da conversazioni condotte con ChatGPT-3.5 e ChatGPT-4, mostrano infatti un avvicinamento notevole alle produzioni professionali di esseri umani, ma anche alcuni punti di divergenza. Complessivamente, il contributo argomenta quindi in favore dell’importanza e dell’utilità della valutazione umana applicata ai testi di buon livello linguistico prodotti dai sistemi attuali basati sull’intelligenza artificiale, purché in questa applicazione venga evitata l’adozione passiva di criteri sviluppati per altri tipi di attività.
Valutare la qualità dei testi generati in lingua italiana
Mirko Tavosanis
2024-01-01
Abstract
Il contributo presenta il problema della valutazione dei testi generati in lingua italiana da LLM collocandolo nel contesto delle pratiche di valutazione esistenti in diversi settori connessi. Nella prima parte viene mostrato il posizionamento della valutazione degli LLM in rapporto ad alcune pratiche ampiamente diffuse, dalla valutazione semiautomatica delle traduzioni automatiche alla valutazione umana di testi di vario genere. Nella seconda parte vengono presentate le condizioni della valutazione in rapporto alle capacità effettive degli LLM, che sono in grado di generare testi di tipo molto diverso. Viene poi presentato l’esame di un campione di testi generati da ChatGPT, eseguito appunto nella prospettiva dell’identificazione delle pratiche di valutazione più adatte. Le produzioni testuali oggetto dell’esame, ricavate da conversazioni condotte con ChatGPT-3.5 e ChatGPT-4, mostrano infatti un avvicinamento notevole alle produzioni professionali di esseri umani, ma anche alcuni punti di divergenza. Complessivamente, il contributo argomenta quindi in favore dell’importanza e dell’utilità della valutazione umana applicata ai testi di buon livello linguistico prodotti dai sistemi attuali basati sull’intelligenza artificiale, purché in questa applicazione venga evitata l’adozione passiva di criteri sviluppati per altri tipi di attività.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.