News

Diagnosi con l’Intelligenza Artificiale: luci e ombre

Uno studio rivela che modelli come GPT-5 e Gemini 3.0 eccellono nella fase finale della diagnosi, ma falliscono nell’approccio iniziale ai casi complessi.

L’intelligenza artificiale ha fatto passi da gigante, ma in corsia il camice bianco non è ancora pronto per essere appeso al chiodo. Una recente ricerca pubblicata su JAMA ha analizzato le performance dei più avanzati modelli linguistici di grandi dimensioni (LLM) del 2026 — tra cui GPT-5, Gemini 3.0 e Claude 4.5 Opus — rivelando un paradosso tecnologico: le macchine sono straordinarie nel dare un nome a una malattia quando i dati sono completi, ma brancolano nel buio quando il caso è ancora nelle fasi iniziali e incerte.

Diagnosi con l’Intelligenza Artificiale: il “gap” del ragionamento clinico

Secondo i ricercatori, esiste una differenza abissale tra la capacità di sintesi finale e il ragionamento diagnostico iniziale. I dati parlano chiaro:

  • diagnosi differenziale: tutti i modelli testati hanno fallito nel produrre una diagnosi differenziale appropriata in oltre l’80% dei casi nelle fasi iniziali,
  • diagnosi finale: una volta forniti tutti i dati (test di laboratorio, imaging e anamnesi completa), il tasso di successo è balzato tra il 60% e oltre il 90% a seconda del modello.

Questo suggerisce che, mentre l’AI è un’ottima “enciclopedia logica”, fatica enormemente con l’aspetto più critico della medicina: gestire l’incertezza quando le informazioni sono scarse.

I Top Player del 2026

Nonostante le lacune, lo studio ha identificato un “cluster” di modelli che dominano la classifica per capacità di ragionamento clinico ottimizzato. I nomi che guidano l’innovazione sono:

  1. Grok 4 (xAI),
  2. GPT-5 e GPT-4.5 (OpenAI),
  3. Claude 4.5 Opus (Anthropic),
  4. Gemini 3.0 Flash e Pro (Google).

Questi modelli mostrano miglioramenti significativi soprattutto quando vengono alimentati con dati multimodali, ovvero non solo testo, ma anche risultati diretti di analisi del sangue e immagini radiografiche.

Il verdetto: l’umano è ancora il perno

Nonostante i progressi, gli autori dello studio e gli esperti esterni concordano: i modelli “off-the-shelf” (pronti all’uso) non possiedono ancora quel livello di intelligenza necessario per una distribuzione sicura e autonoma. “I risultati confermano che i modelli linguistici in ambito sanitario richiedono ancora un ‘umano nel loop’ e una supervisione estremamente attenta”, ha sottolineato il ricercatore Succi.

Dello stesso avviso è Susana Manso García, del gruppo di lavoro su AI e Salute Digitale della Sociedad Española de Medicina de Familia y Comunitaria: «L’intelligenza artificiale rappresenta uno strumento promettente, ma il giudizio clinico umano rimane indispensabile. Il consiglio per il pubblico è di usare queste tecnologie con estrema cautela e consultare sempre un professionista sanitario».

Leggi anche…

None found

Francesco Bianco

Giornalista professionista dal 1997, ha lavorato per il sito del Corriere della Sera e di Oggi, ha fatto interviste per Mtv e attualmente conduce un programma di attualità tutte le mattine su Radio LatteMiele, dopo aver trascorso quattro anni nella redazione di Radio 24, la radio del Sole 24 Ore. Nel 2012 ha vinto il premio Cronista dell'Anno dell'Unione Cronisti Italiani per un servizio sulle difficoltà dell'immigrazione. Nel 2017 ha ricevuto il premio Redattore del Gusto per i suoi articoli sull'alimentazione.
Pulsante per tornare all'inizio