Che cos'è Evo 2 e perché è considerato innovativo nel campo della genetica computazionale?

Evo 2 è un modello di intelligenza artificiale generativa progettato per analizzare, prevedere e generare sequenze di DNA. Rappresenta un salto tecnologico perché, grazie alla sua architettura generalista e alla capacità di gestire sequenze molto lunghe, può svolgere diversi compiti biologici con un solo modello, facilitando la ricerca in genetica e medicina personalizzata.

Quali sono le principali applicazioni pratiche di Evo 2 in ambito medico e biologico?

Evo 2 può prevedere l’impatto delle mutazioni genetiche, anche in regioni non codificanti, e generare nuove sequenze di DNA da testare in laboratorio. Queste funzionalità lo rendono utile per accelerare la ricerca sulle varianti patogene e per supportare la progettazione di terapie personalizzate, come evidenziato dal caso BRCA1 e dagli esperimenti su batteriofagi.

In che modo la scelta di rendere Evo 2 'fully open' influisce sulla ricerca scientifica?

Rendere Evo 2 completamente aperto, inclusi pesi, codice e dataset, favorisce la riproducibilità degli studi, promuove audit indipendenti e permette a una comunità più ampia di sviluppare nuove applicazioni. Tuttavia, questa apertura richiede anche regole di governance rigorose per garantire un uso responsabile e sicuro della tecnologia.

Quali sono i principali rischi etici e di sicurezza associati a Evo 2 e simili modelli di bio-IA?

I principali rischi riguardano la biosicurezza, il potenziale uso improprio per scopi non etici o pericolosi e le questioni legate alla privacy e alla discriminazione nell’uso clinico. L’apertura del modello richiede quindi controlli, audit e standard condivisi per prevenire abusi e garantire un utilizzo responsabile.

Che risultati concreti sono stati ottenuti con Evo 2 nella sperimentazione di laboratorio?

Evo 2 è stato utilizzato per progettare sequenze di batteriofagi che, una volta testate in laboratorio, hanno dimostrato di colpire selettivamente specifici ceppi batterici. Questo rappresenta un esempio pratico di come la generazione di DNA tramite IA possa tradursi in risultati biologici verificabili.

Evo 2, la “ChatGPT del DNA”: l’IA che scopre mutazioni pericolose e

Sommario

Che cos’è Evo 2 e perché la pubblicazione su Nature cambia il peso della notizia
Chi ha firmato lo studio, Arc Institute, NVIDIA e i team di Stanford, UC Berkeley e UC San Francisco
I numeri di Evo 2, 40 miliardi di parametri e un addestramento su trilioni di basi
La svolta tecnica del contesto lungo, fino a 1 milione di basi in una volta
Cosa può fare davvero, prevedere l’impatto delle varianti e generare nuove sequenze
Il caso BRCA1, cosa dicono i risultati e perché interessa la medicina personalizzata
OpenGenome2 e strumenti pubblici, cosa significa un modello “fully open”
Dalla teoria al laboratorio, i batteriofagi progettati e testati
Etica e sicurezza, perché il DNA generativo alza l’asticella del rischio
Conclusione

Che cos’è Evo 2 e perché la pubblicazione su Nature cambia il peso della notizia

Evo 2 è un modello di intelligenza artificiale generativa progettato per lavorare con il DNA.

La metafora più semplice è quella dei modelli che scrivono e comprendono testi, solo che qui il “testo” non è fatto di parole, ma di nucleotidi.

In pratica l’IA viene addestrata a riconoscere schemi nelle sequenze genetiche, a stimare che effetto può avere una modifica del codice e, in certi casi, a proporre nuove sequenze da testare.

La differenza rispetto a molte applicazioni di IA in biologia è che non parliamo di un algoritmo costruito per una sola domanda. L’ambizione è più ampia.

Costruire un modello generalista che impari regole di base del DNA e poi venga usato per più compiti, dalla previsione dell’effetto di mutazioni alla progettazione di sequenze.

È questo che sta facendo discutere. Non soltanto perché i numeri sono grandi, ma perché cambia il modo in cui si immagina la genetica computazionale, meno “strumento su misura” e più “infrastruttura” riutilizzabile.

Il fatto che lo studio sia stato pubblicato su Nature il 4 marzo 2026 dà alla notizia un peso diverso rispetto al preprint del febbraio 2025.

Con la pubblicazione arrivano descrizione completa dei dati, dettagli su come è stato addestrato il modello, confronti con altri metodi e soprattutto limiti dichiarati.

È il punto in cui la comunità può discutere su basi più chiare, non solo su comunicati e riassunti.

Chi ha firmato lo studio, Arc Institute, NVIDIA e i team di Stanford, UC Berkeley e UC San Francisco

Il progetto nasce all’Arc Institute, un centro di ricerca che negli ultimi anni ha spinto molto sul legame tra biologia e modelli generativi.

Evo 2 è stato sviluppato con il supporto tecnologico di NVIDIA e con contributi legati a Stanford University e a diverse sedi dell’Università della California, in particolare UC Berkeley e UC San Francisco.

Sono le stesse istituzioni citate nei materiali di progetto e nel lavoro scientifico.

Tra i nomi che ricorrono di più ci sono Patrick D. Hsu, co-fondatore di Arc e docente a UC Berkeley, e Brian L. Hie, docente a Stanford e ricercatore associato ad Arc. Entrambi compaiono tra gli autori del paper.

Il loro ruolo è importante anche per capire l’impostazione “foundation model”, cioè l’idea che un singolo modello possa diventare base per tanti compiti biologici diversi.

Nel paper la lista degli autori è ampia, come accade spesso quando si mettono insieme biologia, calcolo ad alte prestazioni e dataset di grandi dimensioni. È un elemento che vale la pena sottolineare in modo giornalistico perché racconta la natura della ricerca di oggi.

Non basta un laboratorio, serve un ecosistema, tra chi cura i dati, chi costruisce architetture, chi definisce benchmark e chi valida i risultati in ambito biologico.

I numeri di Evo 2, 40 miliardi di parametri e un addestramento su trilioni di basi

Quando si parla di Evo 2, i numeri servono per capire l’ordine di grandezza.

Nel paper vengono descritte due versioni, una da 7 miliardi e una da 40 miliardi di parametri.

La più grande è quella che viene spesso citata come riferimento, perché è addestrata su una quantità enorme di DNA e rappresenta la versione “di punta”.

L’addestramento avviene su un atlante genomico molto esteso, nell’ordine di trilioni di unità, con un dataset chiamato OpenGenome2.

Qui è utile chiarire un punto che confonde molti articoli.

In alcune sintesi si legge “9,3 trilioni di nucleotidi”, in altre “8,8 trilioni di token”. Non è una contraddizione.

Dipende dal conteggio tra corpus, tokenizzazione e sequenze effettivamente usate in training.

Nel paper e nelle risorse pubbliche, il senso resta lo stesso. Siamo su scala enorme.

Questa scala avvicina Evo 2, per dimensione del pretraining, ai grandi modelli generativi del linguaggio.

Il parallelo non va preso alla lettera, perché qui cambiano regole e obiettivi, ma rende l’idea.

Per la biologia è un salto di “muscoli” computazionali che fino a pochi anni fa era raro vedere in progetti non proprietari.

La svolta tecnica del contesto lungo, fino a 1 milione di basi in una volta

Uno dei limiti storici dei modelli sul DNA è che spesso vedono poco alla volta.

Analizzano frammenti, finestre corte, e perdono relazioni che nel genoma sono lontane ma funzionalmente collegate.

Evo 2 prova a superare questo ostacolo lavorando con un contesto fino a 1 milione di token mantenendo risoluzione al singolo nucleotide.

Perché è importante, spiegato semplice.

Nei genomi, soprattutto eucariotici, non c’è solo il “testo” dei geni che codificano proteine.

C’è una quantità enorme di DNA non codificante che regola quando un gene si accende, quanto produce, con quali tempi e in quali tessuti.

Il problema è che molte di queste regioni regolatorie possono essere lontane dai geni che influenzano.

Se un modello riesce a “tenere in mente” sequenze molto lunghe, ha più chance di catturare questi legami.

È anche il motivo per cui Evo 2 viene presentato come un passo avanti rispetto a Evo 1, che era stato addestrato soprattutto su organismi unicellulari.

Con l’ingresso di genomi più complessi, l’architettura deve reggere relazioni più distanti e più stratificate.

Cosa può fare davvero, prevedere l’impatto delle varianti e generare nuove sequenze

Le promesse intorno a Evo 2 sono due e vanno tenute separate per non creare equivoci.

La prima è la previsione dell’effetto delle varianti.

L’obiettivo è stimare se una mutazione può alterare la funzione di un gene o la regolazione, anche quando la mutazione cade fuori dalle regioni codificanti.

È un terreno difficile, perché molte varianti clinicamente osservate ricadono in aree in cui oggi è complicato assegnare un significato preciso senza esperimenti.

Nel paper gli autori mostrano prestazioni competitive su diversi benchmark, spesso in modalità zero-shot o con adattamenti leggeri.

La seconda è la generazione. Qui la questione diventa più delicata, perché “generare DNA” non significa creare automaticamente un organismo che funziona.

Nel lavoro, Evo 2 viene usato per generare sequenze a scale diverse e gli autori mostrano che, con tecniche di ricerca in fase di inferenza e vincoli guidati da modelli predittivi, si possono ottenere sequenze con proprietà desiderate, almeno nei test riportati.

Il punto giornalistico da portare a casa è questo: Evo 2 non sostituisce la biologia sperimentale, ma può diventare un acceleratore.

Aiuta a formulare ipotesi migliori, a ridurre il numero di tentativi ciechi e a scegliere con più precisione cosa vale la pena testare.

Il caso BRCA1, cosa dicono i risultati e perché interessa la medicina personalizzata

BRCA1 è un nome noto anche fuori dai laboratori, perché è legato al rischio di tumore al seno e dell’ovaio e perché le varianti di questo gene sono un caso classico di “interpretazione difficile”.

Nella pratica clinica esistono varianti che non sono chiaramente benigne né chiaramente patogene e questo crea incertezza per pazienti e medici.

Nel paper, gli autori mostrano che Evo 2 è in grado di sostenere questo tipo di analisi riportando metriche elevate in setting che sfruttano le rappresentazioni apprese dal modello.

È un passaggio importante da raccontare bene. Non è “accuratezza al 90%” detta in modo generico.

È prestazione espressa con metriche come AUROC e AUPRC, cioè misure adatte a valutare modelli di classificazione su dataset sbilanciati.

Tradotto in linguaggio comune: un modello del genere può aiutare a distinguere meglio quali varianti meritano attenzione immediata, e può far risparmiare tempo e risorse nel percorso di validazione.

Non decide da solo e non dà una diagnosi. Può però diventare un filtro intelligente che rende più efficiente il lavoro successivo, quello che resta sperimentale, clinico e regolatorio.

OpenGenome2 e strumenti pubblici, cosa significa un modello “fully open”

Un elemento che rende Evo 2 diverso da molti progetti ad alto impatto è la scelta dell’apertura.

Nel paper gli autori affermano che il progetto è fully open, includendo pesi del modello, codice e dataset OpenGenome2, in modo che altri possano replicare, controllare e sviluppare applicazioni.

Questo ha un valore scientifico forte. In biologia, la riproducibilità conta quanto il risultato.

Rendere disponibili risorse permette audit indipendenti, confronti più trasparenti e una crescita più rapida di strumenti derivati.

È anche un modo per evitare che i foundation model biologici diventino una scatola nera in mano a pochi.

Sul fronte industriale, Evo 2 è presente anche nell’ecosistema NVIDIA BioNeMo e in forma di NIM, cioè servizi pronti per l’inferenza pensati per l’integrazione in pipeline di ricerca.

È un dettaglio tecnico, ma dice molto su dove si vuole arrivare. Non solo un paper, ma un modello che può essere adottato e adattato.

Dalla teoria al laboratorio, i batteriofagi progettati e testati

Qui c’è una parte che merita più spazio perché è la più concreta.

Nelle storie di IA si rischia spesso di restare al livello di grafici e benchmark.

Arc Institute, in un aggiornamento a un anno dal rilascioiniziale, descrive esperimenti su batteriofagi progettati con il supporto del modello e poi testati in laboratorio.

In quella prova, una parte dei design ha prodotto fagi capaci di propagarsi e di colpire ceppi batterici bersaglio senza effetti su ceppi non correlati.

Perché è importante? Perché i batteriofagi sono virus che infettano batteri e sono al centro di ricerche che guardano anche a possibili terapie alternative contro batteri resistenti agli antibiotici.

Qui non siamo alla cura pronta, siamo lontani.

Però l’elemento nuovo è il passaggio tra generazione di una sequenza e verifica biologica, un ponte che molte volte resta teorico.

È anche un buon esempio per spiegare la differenza tra “saper scrivere DNA” e “saper progettare biologia”.

La sequenza è un punto di partenza. La prova reale è in laboratorio, con risultati che devono essere replicabili e soprattutto sicuri.

Etica e sicurezza, perché il DNA generativo alza l’asticella del rischio

La parte etica non va relegata alla chiusura con due righe. Con modelli come Evo 2 cambia davvero la posta in gioco, perché non si parla solo di interpretare dati, ma anche di generare sequenze.

E quando abbassi le barriere tecniche a strumenti di progettazione biologica, entra in scena il tema del doppio uso.

Il primo nodo è quello della biosicurezza.

Un modello aperto, potente e riutilizzabile può essere un acceleratore per la ricerca utile, ma può anche essere usato in contesti che richiedono controlli severi.

Il dibattito, anche su riviste scientifiche, sottolinea proprio la necessità di valutazioni del rischio più robuste e di governance più chiara per la bio-AI, perché la combinazione tra dati biologici e capacità generative rende più sensibile ogni decisione su cosa pubblicare e come.

Il secondo nodo è la responsabilità dell’apertura.

Rendere disponibili pesi, codice e dataset aiuta la scienza a controllare la scienza. Ma significa anche che misure come audit, tracciabilità e standard condivisi diventano fondamentali, non accessori.

In altre parole, l’apertura aumenta il valore del progetto e aumenta anche la necessità di regole pratiche, applicabili, verificabili.

Il terzo nodo riguarda la genetica umana e l’uso clinico. Anche se il paper specifica che il modello non è addestrato su dati di variazione genetica umana o su dataset di genomica funzionale umana, è chiaro che strumenti di questo tipo possono finire in pipeline che toccano la medicina.

E lì entrano questioni di privacy, consenso, possibili discriminazioni e uso improprio, oltre alla paura ricorrente di scivolare da terapie verso forme di “ottimizzazione” non etiche.

Conclusione

Evo 2 segna un passaggio importante perché mette insieme scala enorme dei dati, contesto lunghissimo e un’impostazione generalista che può servire sia a prevedere sia a generare.

La pubblicazione su Nature a marzo 2026 rende questa storia più solida e più discutibile nei dettagli, che è ciò che conta quando una tecnologia punta a entrare in biologia e medicina.

La promessa è rendere più rapido e meno costoso capire quali mutazioni contano davvero, e aprire nuove strade verso terapie più personalizzate.

La condizione è altrettanto evidente.

Validazione sperimentale rigorosa, prudenza nel modo in cui si comunica il risultato, e una governance etica che tenga il passo con strumenti che non si limitano a leggere la vita, ma iniziano a proporre come riscriverla.

Evo 2, la “ChatGPT del DNA”: l’IA che scopre mutazioni pericolose e accelera la medicina personalizzata

Sommario

Che cos’è Evo 2 e perché la pubblicazione su Nature cambia il peso della notizia

Chi ha firmato lo studio, Arc Institute, NVIDIA e i team di Stanford, UC Berkeley e UC San Francisco

I numeri di Evo 2, 40 miliardi di parametri e un addestramento su trilioni di basi

La svolta tecnica del contesto lungo, fino a 1 milione di basi in una volta

Cosa può fare davvero, prevedere l’impatto delle varianti e generare nuove sequenze

Il caso BRCA1, cosa dicono i risultati e perché interessa la medicina personalizzata

OpenGenome2 e strumenti pubblici, cosa significa un modello “fully open”

Dalla teoria al laboratorio, i batteriofagi progettati e testati

Etica e sicurezza, perché il DNA generativo alza l’asticella del rischio

Conclusione

Domande frequenti

Che cos'è Evo 2 e perché è considerato innovativo nel campo della genetica computazionale?

Quali sono le principali applicazioni pratiche di Evo 2 in ambito medico e biologico?

In che modo la scelta di rendere Evo 2 'fully open' influisce sulla ricerca scientifica?

Quali sono i principali rischi etici e di sicurezza associati a Evo 2 e simili modelli di bio-IA?

Che risultati concreti sono stati ottenuti con Evo 2 nella sperimentazione di laboratorio?

Articolo creato da

Articoli Correlati

Maltrattamento minori in Italia, il 28 aprile alla Cattolica il convegno che vuole trasformare i dati in politiche pubbliche

Disagio mentale tra i giovani, i numeri allarmano: 700mila studenti soffrono di ansia e depressione. La scuola ha bisogno di psicologi stabili

Bruce, il pappagallo kea senza becco che ha vinto 36 scontri su 36: la scienza spiega come

Italia e Spagna insieme per la scuola del futuro: campus condivisi, intelligenza artificiale e lotta al bullismo

Calabria, Occhiuto lancia lo psicologo di base: «Il disagio mentale è un'emergenza, non possiamo restare fermi»

Medicina a Tirana, il Tar del Lazio boccia il ricorso: la sede distaccata di Tor Vergata è pienamente legittima

Valditara lancia la sfida: abolire la distinzione tra licei e istituti tecnici. Cosa cambierebbe davvero

Generazione sotto pressione: lo stress scolastico travolge gli adolescenti europei

Italia e Spagna insieme per la scuola del futuro: campus condivisi, intelligenza artificiale e lotta al bullismo

Calabria, Occhiuto lancia lo psicologo di base: «Il disagio mentale è un'emergenza, non possiamo restare fermi»

Medicina a Tirana, il Tar del Lazio boccia il ricorso: la sede distaccata di Tor Vergata è pienamente legittima

Valditara lancia la sfida: abolire la distinzione tra licei e istituti tecnici. Cosa cambierebbe davvero

Generazione sotto pressione: lo stress scolastico travolge gli adolescenti europei

Italia e Spagna insieme per la scuola del futuro: campus condivisi, intelligenza artificiale e lotta al bullismo

Calabria, Occhiuto lancia lo psicologo di base: «Il disagio mentale è un'emergenza, non possiamo restare fermi»

Medicina a Tirana, il Tar del Lazio boccia il ricorso: la sede distaccata di Tor Vergata è pienamente legittima

Valditara lancia la sfida: abolire la distinzione tra licei e istituti tecnici. Cosa cambierebbe davvero

Generazione sotto pressione: lo stress scolastico travolge gli adolescenti europei