Diagnosi con l'Intelligenza Artificiale nella Salute

L’intelligenza artificiale ha fatto passi da gigante, ma in corsia il camice bianco non è ancora pronto per essere appeso al chiodo. Una recente ricerca pubblicata su JAMA ha analizzato le performance dei più avanzati modelli linguistici di grandi dimensioni (LLM) del 2026 — tra cui GPT-5, Gemini 3.0 e Claude 4.5 Opus — rivelando un paradosso tecnologico: le macchine sono straordinarie nel dare un nome a una malattia quando i dati sono completi, ma brancolano nel buio quando il caso è ancora nelle fasi iniziali e incerte.

In questo articolo

Diagnosi con l’Intelligenza Artificiale: il “gap” del ragionamento clinico

Secondo i ricercatori, esiste una differenza abissale tra la capacità di sintesi finale e il ragionamento diagnostico iniziale. I dati parlano chiaro:

diagnosi differenziale: tutti i modelli testati hanno fallito nel produrre una diagnosi differenziale appropriata in oltre l’80% dei casi nelle fasi iniziali,
diagnosi finale: una volta forniti tutti i dati (test di laboratorio, imaging e anamnesi completa), il tasso di successo è balzato tra il 60% e oltre il 90% a seconda del modello.

Questo suggerisce che, mentre l’AI è un’ottima “enciclopedia logica”, fatica enormemente con l’aspetto più critico della medicina: gestire l’incertezza quando le informazioni sono scarse.

I Top Player del 2026

Nonostante le lacune, lo studio ha identificato un “cluster” di modelli che dominano la classifica per capacità di ragionamento clinico ottimizzato. I nomi che guidano l’innovazione sono:

Grok 4 (xAI),
GPT-5 e GPT-4.5 (OpenAI),
Claude 4.5 Opus (Anthropic),
Gemini 3.0 Flash e Pro (Google).

Questi modelli mostrano miglioramenti significativi soprattutto quando vengono alimentati con dati multimodali, ovvero non solo testo, ma anche risultati diretti di analisi del sangue e immagini radiografiche.

Il verdetto: l’umano è ancora il perno

Nonostante i progressi, gli autori dello studio e gli esperti esterni concordano: i modelli “off-the-shelf” (pronti all’uso) non possiedono ancora quel livello di intelligenza necessario per una distribuzione sicura e autonoma. “I risultati confermano che i modelli linguistici in ambito sanitario richiedono ancora un ‘umano nel loop’ e una supervisione estremamente attenta”, ha sottolineato il ricercatore Succi.

Dello stesso avviso è Susana Manso García, del gruppo di lavoro su AI e Salute Digitale della Sociedad Española de Medicina de Familia y Comunitaria: «L’intelligenza artificiale rappresenta uno strumento promettente, ma il giudizio clinico umano rimane indispensabile. Il consiglio per il pubblico è di usare queste tecnologie con estrema cautela e consultare sempre un professionista sanitario».