Loading...
Evo 2, la “ChatGPT del DNA”: l’IA che scopre mutazioni pericolose e accelera la medicina personalizzata
Ricerca

Evo 2, la “ChatGPT del DNA”: l’IA che scopre mutazioni pericolose e accelera la medicina personalizzata

Evo 2 è un modello di IA generativa che analizza il DNA, individua mutazioni rischiose e aiuta a progettare nuove sequenze genetiche, accelerando la ricerca su diagnosi e terapie personalizzate.

Sommario

  • Che cos’è Evo 2 e perché la pubblicazione su Nature cambia il peso della notizia
  • Chi ha firmato lo studio, Arc Institute, NVIDIA e i team di Stanford, UC Berkeley e UC San Francisco
  • I numeri di Evo 2, 40 miliardi di parametri e un addestramento su trilioni di basi
  • La svolta tecnica del contesto lungo, fino a 1 milione di basi in una volta
  • Cosa può fare davvero, prevedere l’impatto delle varianti e generare nuove sequenze
  • Il caso BRCA1, cosa dicono i risultati e perché interessa la medicina personalizzata
  • OpenGenome2 e strumenti pubblici, cosa significa un modello “fully open”
  • Dalla teoria al laboratorio, i batteriofagi progettati e testati
  • Etica e sicurezza, perché il DNA generativo alza l’asticella del rischio
  • Conclusione

Che cos’è Evo 2 e perché la pubblicazione su Nature cambia il peso della notizia

Evo 2 è un modello di intelligenza artificiale generativa progettato per lavorare con il DNA.

La metafora più semplice è quella dei modelli che scrivono e comprendono testi, solo che qui il “testo” non è fatto di parole, ma di nucleotidi.

In pratica l’IA viene addestrata a riconoscere schemi nelle sequenze genetiche, a stimare che effetto può avere una modifica del codice e, in certi casi, a proporre nuove sequenze da testare.

La differenza rispetto a molte applicazioni di IA in biologia è che non parliamo di un algoritmo costruito per una sola domanda. L’ambizione è più ampia.

Costruire un modello generalista che impari regole di base del DNA e poi venga usato per più compiti, dalla previsione dell’effetto di mutazioni alla progettazione di sequenze.

È questo che sta facendo discutere. Non soltanto perché i numeri sono grandi, ma perché cambia il modo in cui si immagina la genetica computazionale, meno “strumento su misura” e più “infrastruttura” riutilizzabile.

Il fatto che lo studio sia stato pubblicato su Nature il 4 marzo 2026 dà alla notizia un peso diverso rispetto al preprint del febbraio 2025.

Con la pubblicazione arrivano descrizione completa dei dati, dettagli su come è stato addestrato il modello, confronti con altri metodi e soprattutto limiti dichiarati.

È il punto in cui la comunità può discutere su basi più chiare, non solo su comunicati e riassunti.

Chi ha firmato lo studio, Arc Institute, NVIDIA e i team di Stanford, UC Berkeley e UC San Francisco

Il progetto nasce all’Arc Institute, un centro di ricerca che negli ultimi anni ha spinto molto sul legame tra biologia e modelli generativi.

Evo 2 è stato sviluppato con il supporto tecnologico di NVIDIA e con contributi legati a Stanford University e a diverse sedi dell’Università della California, in particolare UC Berkeley e UC San Francisco.

Sono le stesse istituzioni citate nei materiali di progetto e nel lavoro scientifico.

Tra i nomi che ricorrono di più ci sono Patrick D. Hsu, co-fondatore di Arc e docente a UC Berkeley, e Brian L. Hie, docente a Stanford e ricercatore associato ad Arc. Entrambi compaiono tra gli autori del paper.

Il loro ruolo è importante anche per capire l’impostazione “foundation model”, cioè l’idea che un singolo modello possa diventare base per tanti compiti biologici diversi.

Nel paper la lista degli autori è ampia, come accade spesso quando si mettono insieme biologia, calcolo ad alte prestazioni e dataset di grandi dimensioni. È un elemento che vale la pena sottolineare in modo giornalistico perché racconta la natura della ricerca di oggi.

Non basta un laboratorio, serve un ecosistema, tra chi cura i dati, chi costruisce architetture, chi definisce benchmark e chi valida i risultati in ambito biologico.

I numeri di Evo 2, 40 miliardi di parametri e un addestramento su trilioni di basi

Quando si parla di Evo 2, i numeri servono per capire l’ordine di grandezza.

Nel paper vengono descritte due versioni, una da 7 miliardi e una da 40 miliardi di parametri.

La più grande è quella che viene spesso citata come riferimento, perché è addestrata su una quantità enorme di DNA e rappresenta la versione “di punta”.

L’addestramento avviene su un atlante genomico molto esteso, nell’ordine di trilioni di unità, con un dataset chiamato OpenGenome2.

Qui è utile chiarire un punto che confonde molti articoli.

In alcune sintesi si legge “9,3 trilioni di nucleotidi”, in altre “8,8 trilioni di token”. Non è una contraddizione.

Dipende dal conteggio tra corpus, tokenizzazione e sequenze effettivamente usate in training.

Nel paper e nelle risorse pubbliche, il senso resta lo stesso. Siamo su scala enorme.

Questa scala avvicina Evo 2, per dimensione del pretraining, ai grandi modelli generativi del linguaggio.

Il parallelo non va preso alla lettera, perché qui cambiano regole e obiettivi, ma rende l’idea.

Per la biologia è un salto di “muscoli” computazionali che fino a pochi anni fa era raro vedere in progetti non proprietari.

La svolta tecnica del contesto lungo, fino a 1 milione di basi in una volta

Uno dei limiti storici dei modelli sul DNA è che spesso vedono poco alla volta.

Analizzano frammenti, finestre corte, e perdono relazioni che nel genoma sono lontane ma funzionalmente collegate.

Evo 2 prova a superare questo ostacolo lavorando con un contesto fino a 1 milione di token mantenendo risoluzione al singolo nucleotide.

Perché è importante, spiegato semplice.

Nei genomi, soprattutto eucariotici, non c’è solo il “testo” dei geni che codificano proteine.

C’è una quantità enorme di DNA non codificante che regola quando un gene si accende, quanto produce, con quali tempi e in quali tessuti.

Il problema è che molte di queste regioni regolatorie possono essere lontane dai geni che influenzano.

Se un modello riesce a “tenere in mente” sequenze molto lunghe, ha più chance di catturare questi legami.

È anche il motivo per cui Evo 2 viene presentato come un passo avanti rispetto a Evo 1, che era stato addestrato soprattutto su organismi unicellulari.

Con l’ingresso di genomi più complessi, l’architettura deve reggere relazioni più distanti e più stratificate.

Cosa può fare davvero, prevedere l’impatto delle varianti e generare nuove sequenze

Le promesse intorno a Evo 2 sono due e vanno tenute separate per non creare equivoci.

La prima è la previsione dell’effetto delle varianti.

L’obiettivo è stimare se una mutazione può alterare la funzione di un gene o la regolazione, anche quando la mutazione cade fuori dalle regioni codificanti.

È un terreno difficile, perché molte varianti clinicamente osservate ricadono in aree in cui oggi è complicato assegnare un significato preciso senza esperimenti.

Nel paper gli autori mostrano prestazioni competitive su diversi benchmark, spesso in modalità zero-shot o con adattamenti leggeri.

La seconda è la generazione. Qui la questione diventa più delicata, perché “generare DNA” non significa creare automaticamente un organismo che funziona.

Nel lavoro, Evo 2 viene usato per generare sequenze a scale diverse e gli autori mostrano che, con tecniche di ricerca in fase di inferenza e vincoli guidati da modelli predittivi, si possono ottenere sequenze con proprietà desiderate, almeno nei test riportati.

Il punto giornalistico da portare a casa è questo: Evo 2 non sostituisce la biologia sperimentale, ma può diventare un acceleratore.

Aiuta a formulare ipotesi migliori, a ridurre il numero di tentativi ciechi e a scegliere con più precisione cosa vale la pena testare.

Il caso BRCA1, cosa dicono i risultati e perché interessa la medicina personalizzata

BRCA1 è un nome noto anche fuori dai laboratori, perché è legato al rischio di tumore al seno e dell’ovaio e perché le varianti di questo gene sono un caso classico di “interpretazione difficile”.

Nella pratica clinica esistono varianti che non sono chiaramente benigne né chiaramente patogene e questo crea incertezza per pazienti e medici.

Nel paper, gli autori mostrano che Evo 2 è in grado di sostenere questo tipo di analisi riportando metriche elevate in setting che sfruttano le rappresentazioni apprese dal modello.

È un passaggio importante da raccontare bene. Non è “accuratezza al 90%” detta in modo generico.

È prestazione espressa con metriche come AUROC e AUPRC, cioè misure adatte a valutare modelli di classificazione su dataset sbilanciati.

Tradotto in linguaggio comune: un modello del genere può aiutare a distinguere meglio quali varianti meritano attenzione immediata, e può far risparmiare tempo e risorse nel percorso di validazione.

Non decide da solo e non dà una diagnosi. Può però diventare un filtro intelligente che rende più efficiente il lavoro successivo, quello che resta sperimentale, clinico e regolatorio.

OpenGenome2 e strumenti pubblici, cosa significa un modello “fully open”

Un elemento che rende Evo 2 diverso da molti progetti ad alto impatto è la scelta dell’apertura.

Nel paper gli autori affermano che il progetto è fully open, includendo pesi del modello, codice e dataset OpenGenome2, in modo che altri possano replicare, controllare e sviluppare applicazioni.

Questo ha un valore scientifico forte. In biologia, la riproducibilità conta quanto il risultato.

Rendere disponibili risorse permette audit indipendenti, confronti più trasparenti e una crescita più rapida di strumenti derivati.

È anche un modo per evitare che i foundation model biologici diventino una scatola nera in mano a pochi.

Sul fronte industriale, Evo 2 è presente anche nell’ecosistema NVIDIA BioNeMo e in forma di NIM, cioè servizi pronti per l’inferenza pensati per l’integrazione in pipeline di ricerca.

È un dettaglio tecnico, ma dice molto su dove si vuole arrivare. Non solo un paper, ma un modello che può essere adottato e adattato.

Dalla teoria al laboratorio, i batteriofagi progettati e testati

Qui c’è una parte che merita più spazio perché è la più concreta.

Nelle storie di IA si rischia spesso di restare al livello di grafici e benchmark.

Arc Institute, in un aggiornamento a un anno dal rilascioiniziale, descrive esperimenti su batteriofagi progettati con il supporto del modello e poi testati in laboratorio.

In quella prova, una parte dei design ha prodotto fagi capaci di propagarsi e di colpire ceppi batterici bersaglio senza effetti su ceppi non correlati.

Perché è importante? Perché i batteriofagi sono virus che infettano batteri e sono al centro di ricerche che guardano anche a possibili terapie alternative contro batteri resistenti agli antibiotici.

Qui non siamo alla cura pronta, siamo lontani.

Però l’elemento nuovo è il passaggio tra generazione di una sequenza e verifica biologica, un ponte che molte volte resta teorico.

È anche un buon esempio per spiegare la differenza tra “saper scrivere DNA” e “saper progettare biologia”.

La sequenza è un punto di partenza. La prova reale è in laboratorio, con risultati che devono essere replicabili e soprattutto sicuri.

Etica e sicurezza, perché il DNA generativo alza l’asticella del rischio

La parte etica non va relegata alla chiusura con due righe. Con modelli come Evo 2 cambia davvero la posta in gioco, perché non si parla solo di interpretare dati, ma anche di generare sequenze.

E quando abbassi le barriere tecniche a strumenti di progettazione biologica, entra in scena il tema del doppio uso.

Il primo nodo è quello della biosicurezza.

Un modello aperto, potente e riutilizzabile può essere un acceleratore per la ricerca utile, ma può anche essere usato in contesti che richiedono controlli severi.

Il dibattito, anche su riviste scientifiche, sottolinea proprio la necessità di valutazioni del rischio più robuste e di governance più chiara per la bio-AI, perché la combinazione tra dati biologici e capacità generative rende più sensibile ogni decisione su cosa pubblicare e come.

Il secondo nodo è la responsabilità dell’apertura.

Rendere disponibili pesi, codice e dataset aiuta la scienza a controllare la scienza. Ma significa anche che misure come audit, tracciabilità e standard condivisi diventano fondamentali, non accessori.

In altre parole, l’apertura aumenta il valore del progetto e aumenta anche la necessità di regole pratiche, applicabili, verificabili.

Il terzo nodo riguarda la genetica umana e l’uso clinico. Anche se il paper specifica che il modello non è addestrato su dati di variazione genetica umana o su dataset di genomica funzionale umana, è chiaro che strumenti di questo tipo possono finire in pipeline che toccano la medicina.

E lì entrano questioni di privacy, consenso, possibili discriminazioni e uso improprio, oltre alla paura ricorrente di scivolare da terapie verso forme di “ottimizzazione” non etiche.

Conclusione

Evo 2 segna un passaggio importante perché mette insieme scala enorme dei dati, contesto lunghissimo e un’impostazione generalista che può servire sia a prevedere sia a generare.

La pubblicazione su Nature a marzo 2026 rende questa storia più solida e più discutibile nei dettagli, che è ciò che conta quando una tecnologia punta a entrare in biologia e medicina.

La promessa è rendere più rapido e meno costoso capire quali mutazioni contano davvero, e aprire nuove strade verso terapie più personalizzate.

La condizione è altrettanto evidente.

Validazione sperimentale rigorosa, prudenza nel modo in cui si comunica il risultato, e una governance etica che tenga il passo con strumenti che non si limitano a leggere la vita, ma iniziano a proporre come riscriverla.

Pubblicato il: 9 marzo 2026 alle ore 07:52

Tamara Mancini

Articolo creato da

Tamara Mancini

Laureata in Lettere e Filosofia all’Università La Sapienza di Roma, ha conseguito una laurea triennale in Storia e Relazioni Internazionali e una laurea magistrale in Islamistica e Mediazione Interculturale. È autrice, copywriter ed editor. La formazione umanistica ha contribuito a sviluppare il suo interesse per la scrittura, l’analisi dei testi e la divulgazione, competenze che oggi applica nel lavoro giornalistico e nella produzione di contenuti. Il suo percorso di studi si è concentrato sulle dinamiche culturali, sui processi migratori e sul dialogo tra società e religioni, con particolare attenzione alla comunicazione e alla mediazione. Da circa dieci anni lavora nel campo della scrittura professionale e dell’editoria digitale. Scrive su giornali e testate online occupandosi di informazione e approfondimento. Ha collaborato anche con realtà radiofoniche come speaker, occupandosi inoltre della produzione di contenuti per la programmazione. Nel tempo ha realizzato articoli e contenuti divulgativi destinati al web, collaborando con progetti editoriali e diverse realtà. Parallelamente si occupa di editing e revisione testi, affiancando redazioni e autori nella costruzione di contenuti solidi dal punto di vista editoriale. È autrice di un libro e appassionata di editoria, storia e divulgazione. Su EduNews24.it scrive articoli dedicati ad istruzione, formazione, cultura e cambiamenti sociali, con l’obiettivo di offrire strumenti utili per comprendere la realtà contemporanea.

Articoli Correlati