Sommario
- L'esperimento: inventare una malattia da zero
- Come è nata bixonimania
- Quando i chatbot hanno abboccato
- Le reazioni delle aziende tecnologiche
- Il problema più profondo: AI e letteratura scientifica
- Cosa resta di questo esperimento
- Domande frequenti
L'esperimento: inventare una malattia da zero
Occhi irritati, palpebre arrossate, troppo tempo davanti allo schermo. Sintomi banali, che chiunque potrebbe digitare in un chatbot per ottenere un consiglio rapido. Ma chi lo ha fatto negli ultimi diciotto mesi potrebbe essersi sentito diagnosticare una condizione chiamata bixonimania, un disturbo cutaneo legato all'esposizione alla luce blu dei dispositivi digitali. Il problema è che bixonimania non esiste. Non è mai esistita. Si tratta di un'invenzione deliberata di Almira Osmanovic Thunström, ricercatrice medica dell'Università di Göteborg, in Svezia, che ha ideato la finta patologia e caricato due studi fasulli su un server di preprint nella primavera del 2024. L'obiettivo era verificare se i grandi modelli linguistici, i cosiddetti large language models (LLM), avrebbero assorbito la disinformazione per poi restituirla agli utenti come informazione sanitaria attendibile. «Volevo capire se fosse possibile creare una condizione medica inesistente nei database e farla accettare dai sistemi AI», ha spiegato Osmanovic Thunström. Il risultato ha superato ogni aspettativa, e non in senso positivo. Nel giro di poche settimane, i principali chatbot sul mercato, da ChatGPT a Gemini, da Copilot a Perplexity, hanno iniziato a trattare bixonimania come una diagnosi reale, completa di prevalenza epidemiologica e consigli terapeutici.
Come è nata bixonimania
La genesi dell'esperimento affonda le radici nella didattica universitaria. Quando Osmanovic Thunström insegna ai suoi studenti il funzionamento dei modelli linguistici, mostra loro come il database Common Crawl, un'enorme raccolta dei contenuti di Internet, alimenti le risposte generate dall'AI. Illustra anche le tecniche di prompt injection, ovvero quei comandi che spingono un chatbot oltre le sue barriere di sicurezza, manipolandone l'output. Da queste lezioni è nata l'idea di creare una patologia fittizia nel campo medico. Il nome bixonimania è stato scelto appositamente perché suonasse assurdo: nessuna condizione oculare verrebbe mai definita con il suffisso "mania", termine riservato alla psichiatria. Osmanovic Thunström ha poi costruito un'intera infrastruttura di finzione attorno alla malattia. L'autore principale dei due preprint è un ricercatore inesistente, Lazljiv Izgubljenovic, il cui ritratto è stato generato con l'intelligenza artificiale. L'affiliazione universitaria rimanda alla fantomatica Asteria Horizon University di Nova City, California, città che non esiste. I ringraziamenti citano la Starfleet Academy e il laboratorio a bordo della USS Enterprise, mentre i finanziamenti provengono dalla Professor Sideshow Bob Foundation for Advanced Trickery. All'interno dei paper, frasi come «this entire paper is made up» avrebbero dovuto mettere in allarme qualsiasi lettore.
Quando i chatbot hanno abboccato
Nonostante gli indizi disseminati con generosità quasi provocatoria, i principali sistemi di intelligenza artificiale hanno trattato bixonimania come una condizione medica legittima. Il 13 aprile 2024, Microsoft Bing Copilot la definiva «una condizione intrigante e relativamente rara». Lo stesso giorno, Google Gemini informava gli utenti che si trattava di «una condizione causata dall'eccessiva esposizione alla luce blu», consigliando di consultare un oftalmologo. Il 27 aprile, Perplexity ne indicava persino la prevalenza: un caso ogni 90.000 individui. ChatGPT, nello stesso periodo, era in grado di valutare se i sintomi descritti dall'utente corrispondessero a bixonimania. Alcune risposte venivano generate in risposta a domande dirette sulla malattia, ma altre emergevano spontaneamente quando gli utenti chiedevano informazioni sull'iperpigmentazione delle palpebre legata alla luce blu. Questo dettaglio è particolarmente inquietante: significa che il termine inventato si era integrato nel tessuto informativo dei modelli linguistici al punto da comparire come risposta a domande generiche. Alex Ruani, ricercatrice in disinformazione sanitaria presso lo University College London, non ha usato mezzi termini: «Se il processo scientifico stesso e i sistemi che lo supportano non riescono a filtrare contenuti come questi, siamo spacciati. Questo è un caso da manuale su come funziona la disinformazione».
Le reazioni delle aziende tecnologiche
Di fronte alla pubblicazione dei risultati dell'esperimento, le risposte delle grandi aziende tecnologiche sono state un misto di ammissione parziale e rassicurazione. Un portavoce di OpenAI ha dichiarato che i modelli alla base dell'attuale versione di ChatGPT «sono significativamente migliori nel fornire informazioni mediche sicure e accurate», aggiungendo che studi condotti prima di GPT-5 riflettono capacità ormai superate. Google ha attribuito le risposte errate a un modello precedente, sottolineando di essere «sempre stata trasparente sui limiti dell'AI generativa» e di incoraggiare gli utenti a verificare le informazioni, specialmente in ambito sanitario. Perplexity ha ribadito che «il vantaggio centrale è l'accuratezza», pur ammettendo di non poter garantire il 100% di precisione. Microsoft non ha risposto alle richieste di commento. Tuttavia, i test condotti nel marzo 2026 mostrano un quadro ancora contraddittorio. ChatGPT in un primo momento ha identificato bixonimania come probabile invenzione, salvo poi, pochi giorni dopo, descriverla come «un nuovo sottotipo proposto di melanosi periorbitale». Copilot ha parlato di «diagnosi non ancora ampiamente riconosciuta, ma discussa in diversi paper emergenti». Queste oscillazioni rivelano quanto i modelli linguistici restino vulnerabili alla contaminazione informativa, anche dopo aggiornamenti significativi.
Il problema più profondo: AI e letteratura scientifica
L'aspetto forse più allarmante dell'intera vicenda non riguarda i chatbot destinati al pubblico, ma la letteratura scientifica peer-reviewed. Secondo Osmanovic Thunström, i paper fasulli su bixonimania sono stati citati in articoli sottoposti a revisione paritaria. Questo suggerisce che alcuni ricercatori stiano utilizzando riferimenti bibliografici generati dall'intelligenza artificiale senza leggere effettivamente gli studi originali. È un cortocircuito che mina le fondamenta stesse del metodo scientifico. La disinformazione online non è certo una novità: Google combatte da anni i tentativi di manipolare i risultati di ricerca con contenuti falsi o fuorvianti, investendo risorse enormi nel perfezionamento degli algoritmi di ranking e filtraggio. Ma i modelli linguistici operano in modo diverso dai motori di ricerca tradizionali. Non si limitano a ordinare risultati, li sintetizzano e li riformulano, conferendo alle informazioni, anche a quelle false, un tono di autorevolezza che le rende più difficili da distinguere. Come ha osservato Ruani, «sembra divertente, ma fermiamoci un momento: abbiamo un problema serio». La capacità di un singolo ricercatore di inquinare l'intero ecosistema informativo dell'AI con due preprint palesemente falsi solleva interrogativi urgenti sulla robustezza dei sistemi di verifica.
Cosa resta di questo esperimento
L'esperimento di Osmanovic Thunström lascia sul tavolo una lezione scomoda. Bastano due studi fasulli, un autore inventato con una foto generata dall'AI e qualche post su un blog per infiltrare una malattia inesistente nei principali sistemi di intelligenza artificiale del pianeta, sistemi che centinaia di milioni di persone consultano quotidianamente anche per questioni di salute. Le aziende tecnologiche assicurano miglioramenti continui, e in effetti alcuni modelli più recenti mostrano una maggiore capacità di riconoscere contenuti sospetti. Ma la coerenza di queste risposte resta fragile, come dimostrano le oscillazioni registrate a distanza di pochi giorni sullo stesso chatbot. Il nodo centrale è strutturale: i large language models non distinguono tra fonti affidabili e contenuti fraudolenti con la stessa efficacia che ci si aspetterebbe da uno strumento utilizzato per ottenere consigli medici. Finché questa asimmetria tra fiducia percepita e affidabilità reale non verrà colmata, episodi come quello di bixonimania continueranno a rappresentare non solo curiosità accademiche, ma campanelli d'allarme concreti. Non è un segreto che i chatbot possano influenzare il nostro pensiero ormai , ed in questi casi la responsabilità, come sempre, ricade anche sugli utenti: nessun chatbot, per quanto sofisticato, può sostituire il parere di un medico in carne e ossa.