I medici artificiali potrebbero essere più efficienti di quelli umani, almeno considerando le sole capacità di ragionamento clinico. Ѐ quanto sostiene uno studio pubblicato su JAMA Internal Medicine redatto dai ricercatori del Beth Israel Deaconess Medical Center, centro medico di Boston.
GPT vs medici umani
Lo studio ha comparato le prestazioni di ChatGPT-4 con quelle degli specializzandi di medicina interna e dei medici di due centri accademici.
“È diventato chiaro molto presto che gli LLM possono fare diagnosi, ma chiunque pratichi la medicina sa che c’è molto di più oltre a questo – Ha dichiarato Adam Rodman, medico di medicina interna e ricercatore – Ci sono più passaggi dietro una diagnosi, quindi volevamo valutare se gli LLM sono bravi quanto i medici nel fare questo tipo di ragionamento clinico. È una scoperta sorprendente che queste macchine siano in grado di mostrare un ragionamento equivalente o migliore di quello delle persone durante l’evoluzione del caso clinico”.
Grandi risultati, ma inciampi digitali
L’esperimento ha applicato una scala di punteggio chiamata IDEA-r, usata per valutare il ragionamento clinico. Per lo studio sono stati reclutati 21 medici curanti e 18 specializzandi. A ciascuno di essi è stato chiesto di elaborare uno tra 20 casi clinici. ChatGPT-4 è stato sottoposto alla stessa richiesta, su tutti i casi. Ciascun caso clinico comprendeva quattro diverse fasi sequenziali di ragionamento diagnostico: la raccolta dei dati dal paziente, poi revisione del sistema con la raccolta di informazioni aggiuntive, l’esame fisico e infine i test diagnostici e l’imaging (l’osservazione all’interno del corpo, ad esempio radiografie e simili). Esattamente come nella pratica reale.
I risultati sono stati chiari: il modello artificiale ha ottenuto nell’accuratezza diagnostica un punteggio mediano più alto (10 su 10), superando i medici umani (che hanno ottenuto una media di 9 per i medici e 8 per gli specializzandi). Lo studio ha rilevato però che, sebbene l’accuratezza diagnostica fosse globalmente corretta, l’LLM mostrava occasionalmente passaggi di ragionamento errati con una media più alta di quella umana. Proprio quest’ultimo elemento conduce gli autori dello studio a formulare una ovvia quanto fondamentale consapevolezza, ossia che l’intelligenza artificiale va considerata uno strumento utilissimo da sfruttare esclusivamente in parallelo al lavoro medico umano. Per aumentare, e non sostituire, il processo di ragionamento umano.
La riscoperta dei pazienti
“Ciò che il nostro studio mostra è che l’intelligenza artificiale dimostra un ragionamento reale, forse un ragionamento migliore rispetto alle persone attraverso più fasi del processo – prosegue Rodman – Abbiamo un’opportunità unica di migliorare la qualità e l’esperienza dell’assistenza sanitaria per i pazienti”.
Proprio questo ultimo punto rappresenta probabilmente l’elemento di maggiore importanza della ricerca. I risultati incredibili raggiunti dall’intelligenza artificiale in nemmeno due anni possono sancire una nuovo corso della medicina. L’intelligenza artificiale può liberare sempre più i medici dalle diagnosi permettendo loro di occuparsi della cosa più importante: i pazienti. Una sorta di riscoperta dell’aspetto relazionale del lavoro di medico.
“La mia speranza finale – aggiunge l’autrice principale dello studio Stephanie Cabral – è che l’intelligenza artificiale migliori l’interazione tra medici e pazienti riducendo alcune delle inefficienze che abbiamo attualmente e ci permetta di concentrarci maggiormente sulla conversazione che abbiamo con loro“.