Google AI Overviews sbaglia 57 milioni di volte ogni ora: l'indagine

Il peso di un errore su scala globale
Cosa dice il benchmark SimpleQA di Oumi
Gemini 3 e il problema delle risposte "ungrounded"
Le implicazioni per chi cerca informazioni affidabili
Un nodo che riguarda anche la ricerca e l'istruzione
Domande frequenti

Il peso di un errore su scala globale

Dieci percento. Sembra poco, detto così. Eppure, quando lo si applica a un sistema che gestisce 5 trilioni di ricerche all'anno, il risultato è un numero che toglie il fiato: oltre 57 milioni di risposte errate ogni singola ora. Non al giorno. Non alla settimana. Ogni ora.

È quanto emerge da un'indagine del New York Times, pubblicata nei giorni scorsi, che ha messo sotto la lente le AI Overviews di Google, quei riquadri generati dall'intelligenza artificiale che compaiono in cima ai risultati di ricerca offrendo risposte sintetiche e apparentemente definitive alle domande degli utenti. Un formato che Mountain View ha progressivamente esteso a miliardi di query, trasformando di fatto il motore di ricerca in un oracolo algoritmico.

Il problema, stando a quanto emerge dall'inchiesta, è che quell'oracolo mente. Non spesso, in termini percentuali. Ma abbastanza da produrre una valanga di disinformazione su scala planetaria.

Cosa dice il benchmark SimpleQA di Oumi

L'analisi si fonda sul benchmark SimpleQA, sviluppato dalla startup Oumi, specializzata nella valutazione delle prestazioni dei modelli di linguaggio di grandi dimensioni. Il test sottopone ai sistemi AI una serie di domande fattuali relativamente semplici, quelle per cui esiste una risposta verificabile e univoca, misurando la percentuale di risposte corrette, errate e non supportate da fonti.

I risultati sono tutt'altro che rassicuranti. Le AI Overviews di Google, alimentate dai modelli della famiglia Gemini, mostrano un tasso di errore compreso tra il 9 e il 10% nelle risposte fattuali. Si tratta di errori netti: informazioni sbagliate presentate con la stessa sicurezza di quelle corrette, senza alcun segnale che permetta all'utente medio di distinguere il vero dal falso.

Va precisato che SimpleQA misura un tipo specifico di accuratezza, quella su domande a risposta chiusa. Le performance su query più sfumate o complesse restano più difficili da quantificare. Ma è proprio la semplicità delle domande testate a rendere il dato più allarmante: se il sistema sbaglia su quesiti elementari, cosa accade con quelli articolati?

Gemini 3 e il problema delle risposte "ungrounded"

C'è un altro dato che merita attenzione, forse ancora più insidioso del tasso di errore puro. Secondo i risultati del benchmark, il 56% delle risposte formalmente corrette risulta ungrounded, cioè prive di un ancoraggio verificabile a fonti attendibili. In pratica, il sistema fornisce la risposta giusta, ma non perché l'abbia ricavata da una fonte affidabile: la produce per via statistica, come un pappagallo particolarmente fortunato.

Con Gemini 3, l'ultima generazione del modello linguistico di Google, il tasso di errore si attesta appunto intorno al 9-10%. Un miglioramento rispetto alle versioni precedenti, certo, ma insufficiente se rapportato alla scala di utilizzo. Google ha dichiarato più volte che le AI Overviews raggiungono ormai miliardi di utenti ogni mese. A questi volumi, anche margini di errore contenuti si traducono in un flusso costante e massiccio di informazioni false.

La questione resta aperta: è accettabile che uno strumento con questa diffusione operi con un margine di errore del 10% su domande fattuali? E soprattutto, chi ne risponde quando una risposta sbagliata causa danni concreti?

Le implicazioni per chi cerca informazioni affidabili

Il cuore del problema non è tanto tecnico quanto culturale. Per anni Google ha funzionato come un intermediario: presentava link, lasciando all'utente il compito di valutare le fonti. Le AI Overviews ribaltano questo paradigma. Il motore di ricerca non si limita più a indicare dove trovare la risposta, ma la fornisce direttamente, in un riquadro ben visibile che scoraggia qualsiasi ulteriore approfondimento.

È un meccanismo che funziona benissimo quando la risposta è corretta. Ma quando non lo è, l'effetto è devastante: l'utente medio non ha motivo di dubitare, non viene indirizzato verso fonti alternative e, nella maggior parte dei casi, non andrà a verificare. Google lo sa. Eppure continua a espandere il formato, perché le AI Overviews aumentano il tempo di permanenza sulla piattaforma e riducono i clic verso siti esterni.

Non è un caso che il dibattito sull'affidabilità dell'intelligenza artificiale nei motori di ricerca stia diventando sempre più acceso, anche al di fuori della cerchia degli addetti ai lavori. L'intelligenza artificiale di Google viene impiegata in ambiti molto diversi tra loro, dalla ricerca su materiali innovativi come l'asfalto autoriparante alla sintesi dei risultati di ricerca per miliardi di utenti. Ma la posta in gioco, quando si parla di informazione quotidiana, è di un ordine di grandezza diverso.

Un nodo che riguarda anche la ricerca e l'istruzione

Le ricadute non si fermano all'utente che chiede a Google chi ha vinto un premio Nobel o quale sia la capitale di un Paese. Il problema investe direttamente il mondo della ricerca accademica e dell'istruzione, dove l'accesso a informazioni accurate non è un optional ma un presupposto.

Studenti universitari, dottorandi e ricercatori utilizzano quotidianamente Google come punto di partenza per le loro indagini. Se le AI Overviews presentano dati errati con la stessa autorevolezza di quelli corretti, il rischio di contaminazione delle fonti è concreto. In un contesto in cui la ricerca universitaria italiana sta vivendo una fase di rilancio, come testimonia il recente stanziamento di 37,5 milioni di euro per il contratto di ricerca 2025, l'ultima cosa di cui c'è bisogno è un inquinamento silenzioso delle basi informative.

Il tema, insomma, non è se l'intelligenza artificiale debba avere un ruolo nella ricerca online. Quel treno è partito e non si fermerà. La vera domanda è un'altra: con quale trasparenza e con quali garanzie. Finché Google presenterà le risposte generate dall'AI come verità sintetiche, senza indicare chiaramente il margine di incertezza, quei 57 milioni di errori all'ora non saranno un bug del sistema. Saranno una sua caratteristica strutturale.

Domande frequenti

Quante risposte errate generano le AI Overviews di Google ogni ora?

Secondo un'indagine, le AI Overviews di Google producono oltre 57 milioni di risposte errate ogni ora, a causa di un tasso di errore del 9-10% su 5 trilioni di ricerche annuali.

Cosa ha rilevato il benchmark SimpleQA di Oumi sulle AI Overviews di Google?

Il benchmark SimpleQA ha evidenziato che le AI Overviews di Google, basate su Gemini 3, sbagliano il 9-10% delle risposte fattuali, mostrando errori anche su domande semplici e fornendo spesso risposte senza fonti verificabili.

Qual è il problema delle risposte 'ungrounded' nelle AI Overviews?

Il 56% delle risposte corrette fornite dalle AI Overviews non è supportato da fonti attendibili, risultando 'ungrounded', cioè generate senza un reale ancoraggio a dati verificabili.

Quali sono le implicazioni per chi cerca informazioni affidabili su Google?

Le AI Overviews forniscono risposte in modo diretto e autorevole, riducendo la propensione degli utenti a verificare le fonti e aumentando il rischio di diffusione di informazioni errate o non verificate.

Come può l’errore delle AI Overviews influenzare il mondo dell’istruzione e della ricerca?

Studenti e ricercatori rischiano di basarsi su dati imprecisi o non verificati, compromettendo la qualità della ricerca accademica e la formazione, soprattutto in un periodo di rilancio del settore universitario italiano.

Cosa si discute attualmente riguardo al ruolo dell’intelligenza artificiale nella ricerca online?

Il dibattito riguarda la necessità di maggiore trasparenza e garanzie sulle risposte generate dall’AI, poiché presentare informazioni sintetiche senza indicare il margine di incertezza rischia di rendere strutturale la disinformazione.

Articolo creato da

Savino Grimaldi

Giornalista Pubblicista Savino Grimaldi è un giornalista laureando in Economia e Commercio, con una solida esperienza maturata nel settore della formazione. Da anni lavora con competenza nell’ambito della formazione professionale, distinguendosi per una conoscenza approfondita delle politiche attive del lavoro e delle dinamiche che legano istruzione, occupazione e sviluppo delle competenze. Alla preparazione economica e professionale affianca una grande passione per la lettura e per il giornalismo, che ne arricchiscono il profilo umano e culturale. Spazia con disinvoltura tra diverse tematiche, offrendo sempre il proprio punto di vista con equilibrio, sensibilità e spirito critico.

Google AI Overviews sbaglia 57 milioni di volte ogni ora: l'indagine che mette in discussione il futuro della ricerca online

Il peso di un errore su scala globale

Cosa dice il benchmark SimpleQA di Oumi

Gemini 3 e il problema delle risposte "ungrounded"

Le implicazioni per chi cerca informazioni affidabili

Un nodo che riguarda anche la ricerca e l'istruzione

Domande frequenti

Quante risposte errate generano le AI Overviews di Google ogni ora?

Cosa ha rilevato il benchmark SimpleQA di Oumi sulle AI Overviews di Google?

Qual è il problema delle risposte 'ungrounded' nelle AI Overviews?

Quali sono le implicazioni per chi cerca informazioni affidabili su Google?

Come può l’errore delle AI Overviews influenzare il mondo dell’istruzione e della ricerca?

Cosa si discute attualmente riguardo al ruolo dell’intelligenza artificiale nella ricerca online?

Articolo creato da

Articoli Correlati

Anthropic nella blacklist del Pentagono: due sentenze opposte spaccano i tribunali USA

Instagram stringe le maglie per i teenager: le nuove protezioni arrivano anche in Italia

LinkedIn aggiunge il controllo della velocità dei video nel feed: cosa cambia per gli utenti

Il patto sociale che serve all'Italia per evitare una nuova crisi

Anthropic nella blacklist del Pentagono: due sentenze opposte spaccano i tribunali USA

Programma lunare russo nel caos: Roscosmos conferma nuovi ritardi per le missioni robotiche

Cellulari a scuola, Valditara rivendica i risultati del divieto: "Dati incoraggianti, due scuole su tre già attive sul digitale"

Instagram stringe le maglie per i teenager: le nuove protezioni arrivano anche in Italia

Il patto sociale che serve all'Italia per evitare una nuova crisi

Anthropic nella blacklist del Pentagono: due sentenze opposte spaccano i tribunali USA

Programma lunare russo nel caos: Roscosmos conferma nuovi ritardi per le missioni robotiche

Cellulari a scuola, Valditara rivendica i risultati del divieto: "Dati incoraggianti, due scuole su tre già attive sul digitale"

Instagram stringe le maglie per i teenager: le nuove protezioni arrivano anche in Italia

Il patto sociale che serve all'Italia per evitare una nuova crisi

Anthropic nella blacklist del Pentagono: due sentenze opposte spaccano i tribunali USA

Programma lunare russo nel caos: Roscosmos conferma nuovi ritardi per le missioni robotiche

Cellulari a scuola, Valditara rivendica i risultati del divieto: "Dati incoraggianti, due scuole su tre già attive sul digitale"

Instagram stringe le maglie per i teenager: le nuove protezioni arrivano anche in Italia