- Il peso di un errore su scala globale
- Cosa dice il benchmark SimpleQA di Oumi
- Gemini 3 e il problema delle risposte "ungrounded"
- Le implicazioni per chi cerca informazioni affidabili
- Un nodo che riguarda anche la ricerca e l'istruzione
- Domande frequenti
Il peso di un errore su scala globale
Dieci percento. Sembra poco, detto così. Eppure, quando lo si applica a un sistema che gestisce 5 trilioni di ricerche all'anno, il risultato è un numero che toglie il fiato: oltre 57 milioni di risposte errate ogni singola ora. Non al giorno. Non alla settimana. Ogni ora.
È quanto emerge da un'indagine del New York Times, pubblicata nei giorni scorsi, che ha messo sotto la lente le AI Overviews di Google, quei riquadri generati dall'intelligenza artificiale che compaiono in cima ai risultati di ricerca offrendo risposte sintetiche e apparentemente definitive alle domande degli utenti. Un formato che Mountain View ha progressivamente esteso a miliardi di query, trasformando di fatto il motore di ricerca in un oracolo algoritmico.
Il problema, stando a quanto emerge dall'inchiesta, è che quell'oracolo mente. Non spesso, in termini percentuali. Ma abbastanza da produrre una valanga di disinformazione su scala planetaria.
Cosa dice il benchmark SimpleQA di Oumi
L'analisi si fonda sul benchmark SimpleQA, sviluppato dalla startup Oumi, specializzata nella valutazione delle prestazioni dei modelli di linguaggio di grandi dimensioni. Il test sottopone ai sistemi AI una serie di domande fattuali relativamente semplici, quelle per cui esiste una risposta verificabile e univoca, misurando la percentuale di risposte corrette, errate e non supportate da fonti.
I risultati sono tutt'altro che rassicuranti. Le AI Overviews di Google, alimentate dai modelli della famiglia Gemini, mostrano un tasso di errore compreso tra il 9 e il 10% nelle risposte fattuali. Si tratta di errori netti: informazioni sbagliate presentate con la stessa sicurezza di quelle corrette, senza alcun segnale che permetta all'utente medio di distinguere il vero dal falso.
Va precisato che SimpleQA misura un tipo specifico di accuratezza, quella su domande a risposta chiusa. Le performance su query più sfumate o complesse restano più difficili da quantificare. Ma è proprio la semplicità delle domande testate a rendere il dato più allarmante: se il sistema sbaglia su quesiti elementari, cosa accade con quelli articolati?
Gemini 3 e il problema delle risposte "ungrounded"
C'è un altro dato che merita attenzione, forse ancora più insidioso del tasso di errore puro. Secondo i risultati del benchmark, il 56% delle risposte formalmente corrette risulta ungrounded, cioè prive di un ancoraggio verificabile a fonti attendibili. In pratica, il sistema fornisce la risposta giusta, ma non perché l'abbia ricavata da una fonte affidabile: la produce per via statistica, come un pappagallo particolarmente fortunato.
Con Gemini 3, l'ultima generazione del modello linguistico di Google, il tasso di errore si attesta appunto intorno al 9-10%. Un miglioramento rispetto alle versioni precedenti, certo, ma insufficiente se rapportato alla scala di utilizzo. Google ha dichiarato più volte che le AI Overviews raggiungono ormai miliardi di utenti ogni mese. A questi volumi, anche margini di errore contenuti si traducono in un flusso costante e massiccio di informazioni false.
La questione resta aperta: è accettabile che uno strumento con questa diffusione operi con un margine di errore del 10% su domande fattuali? E soprattutto, chi ne risponde quando una risposta sbagliata causa danni concreti?
Le implicazioni per chi cerca informazioni affidabili
Il cuore del problema non è tanto tecnico quanto culturale. Per anni Google ha funzionato come un intermediario: presentava link, lasciando all'utente il compito di valutare le fonti. Le AI Overviews ribaltano questo paradigma. Il motore di ricerca non si limita più a indicare dove trovare la risposta, ma la fornisce direttamente, in un riquadro ben visibile che scoraggia qualsiasi ulteriore approfondimento.
È un meccanismo che funziona benissimo quando la risposta è corretta. Ma quando non lo è, l'effetto è devastante: l'utente medio non ha motivo di dubitare, non viene indirizzato verso fonti alternative e, nella maggior parte dei casi, non andrà a verificare. Google lo sa. Eppure continua a espandere il formato, perché le AI Overviews aumentano il tempo di permanenza sulla piattaforma e riducono i clic verso siti esterni.
Non è un caso che il dibattito sull'affidabilità dell'intelligenza artificiale nei motori di ricerca stia diventando sempre più acceso, anche al di fuori della cerchia degli addetti ai lavori. L'intelligenza artificiale di Google viene impiegata in ambiti molto diversi tra loro, dalla ricerca su materiali innovativi come l'asfalto autoriparante alla sintesi dei risultati di ricerca per miliardi di utenti. Ma la posta in gioco, quando si parla di informazione quotidiana, è di un ordine di grandezza diverso.
Un nodo che riguarda anche la ricerca e l'istruzione
Le ricadute non si fermano all'utente che chiede a Google chi ha vinto un premio Nobel o quale sia la capitale di un Paese. Il problema investe direttamente il mondo della ricerca accademica e dell'istruzione, dove l'accesso a informazioni accurate non è un optional ma un presupposto.
Studenti universitari, dottorandi e ricercatori utilizzano quotidianamente Google come punto di partenza per le loro indagini. Se le AI Overviews presentano dati errati con la stessa autorevolezza di quelli corretti, il rischio di contaminazione delle fonti è concreto. In un contesto in cui la ricerca universitaria italiana sta vivendo una fase di rilancio, come testimonia il recente stanziamento di 37,5 milioni di euro per il contratto di ricerca 2025, l'ultima cosa di cui c'è bisogno è un inquinamento silenzioso delle basi informative.
Il tema, insomma, non è se l'intelligenza artificiale debba avere un ruolo nella ricerca online. Quel treno è partito e non si fermerà. La vera domanda è un'altra: con quale trasparenza e con quali garanzie. Finché Google presenterà le risposte generate dall'AI come verità sintetiche, senza indicare chiaramente il margine di incertezza, quei 57 milioni di errori all'ora non saranno un bug del sistema. Saranno una sua caratteristica strutturale.