
L’intelligenza artificiale ha fatto passi da gigante, ma in corsia il camice bianco non è ancora pronto per essere appeso al chiodo. Una recente ricerca pubblicata su JAMA ha analizzato le performance dei più avanzati modelli linguistici di grandi dimensioni (LLM) del 2026 — tra cui GPT-5, Gemini 3.0 e Claude 4.5 Opus — rivelando un paradosso tecnologico: le macchine sono straordinarie nel dare un nome a una malattia quando i dati sono completi, ma brancolano nel buio quando il caso è ancora nelle fasi iniziali e incerte.
In questo articolo
Diagnosi con l’Intelligenza Artificiale: il “gap” del ragionamento clinico
Secondo i ricercatori, esiste una differenza abissale tra la capacità di sintesi finale e il ragionamento diagnostico iniziale. I dati parlano chiaro:
- diagnosi differenziale: tutti i modelli testati hanno fallito nel produrre una diagnosi differenziale appropriata in oltre l’80% dei casi nelle fasi iniziali,
- diagnosi finale: una volta forniti tutti i dati (test di laboratorio, imaging e anamnesi completa), il tasso di successo è balzato tra il 60% e oltre il 90% a seconda del modello.
Questo suggerisce che, mentre l’AI è un’ottima “enciclopedia logica”, fatica enormemente con l’aspetto più critico della medicina: gestire l’incertezza quando le informazioni sono scarse.
I Top Player del 2026
Nonostante le lacune, lo studio ha identificato un “cluster” di modelli che dominano la classifica per capacità di ragionamento clinico ottimizzato. I nomi che guidano l’innovazione sono:
- Grok 4 (xAI),
- GPT-5 e GPT-4.5 (OpenAI),
- Claude 4.5 Opus (Anthropic),
- Gemini 3.0 Flash e Pro (Google).
Questi modelli mostrano miglioramenti significativi soprattutto quando vengono alimentati con dati multimodali, ovvero non solo testo, ma anche risultati diretti di analisi del sangue e immagini radiografiche.
Il verdetto: l’umano è ancora il perno
Nonostante i progressi, gli autori dello studio e gli esperti esterni concordano: i modelli “off-the-shelf” (pronti all’uso) non possiedono ancora quel livello di intelligenza necessario per una distribuzione sicura e autonoma. “I risultati confermano che i modelli linguistici in ambito sanitario richiedono ancora un ‘umano nel loop’ e una supervisione estremamente attenta”, ha sottolineato il ricercatore Succi.
Dello stesso avviso è Susana Manso García, del gruppo di lavoro su AI e Salute Digitale della Sociedad Española de Medicina de Familia y Comunitaria: «L’intelligenza artificiale rappresenta uno strumento promettente, ma il giudizio clinico umano rimane indispensabile. Il consiglio per il pubblico è di usare queste tecnologie con estrema cautela e consultare sempre un professionista sanitario».
Leggi anche…
None found




