Il laboratorio di ricerca AI DeepMind ha creato la mappa più completa delle proteine umane utilizzando l’intelligenza artificiale. L’azienda sta rilasciando i dati gratuitamente, con alcuni scienziati che paragonano l’impatto potenziale del lavoro a quello del Progetto Genoma Umano, uno sforzo internazionale per mappare ogni gene umano.
Le proteine sono molecole lunghe e complesse che svolgono numerosi compiti nel corpo, dalla costruzione di tessuti alla lotta contro le malattie. Il loro scopo è dettato dalla loro struttura, che si piega come un origami in forme complesse e irregolari. Capire come si ripiega una proteina aiuta a spiegare la sua funzione, che a sua volta aiuta gli scienziati in una serie di compiti – dalla ricerca fondamentale su come funziona il corpo, alla progettazione di nuovi farmaci e trattamenti.
In precedenza, determinare la struttura di una proteina dipendeva da esperimenti costosi e lunghi. Ma l’anno scorso DeepMind ha dimostrato che può produrre previsioni accurate della struttura di una proteina utilizzando il software AI chiamato AlphaFold. Ora, l’azienda sta rilasciando centinaia di migliaia di previsioni fatte dal programma.
“Vedo questo come il culmine dell’intera vita di DeepMind, durata più di 10 anni”, ha detto a The Verge il CEO e co-fondatore dell’azienda Demis Hassabis. “Fin dall’inizio, questo è ciò che ci siamo prefissati di fare: progressi nell’IA, testarli su giochi e applicarli a problemi del mondo reale, per vedere se possiamo accelerare le scoperte scientifiche e utilizzarle a beneficio dell’umanità”.

ll genoma umano contiene le istruzioni per più di 20.000 proteine. Ma solo circa un terzo di queste hanno avuto le loro strutture 3D determinate sperimentalmente. E in molti casi, queste strutture sono solo parzialmente note.
Ora, uno strumento di intelligenza artificiale (AI) trasformativo chiamato AlphaFold, sviluppato dalla società sorella di Google DeepMind, ha previsto la struttura di quasi l’intero proteoma umano (il complemento completo delle proteine espresse da un organismo). Inoltre, lo strumento ha predetto proteomi quasi completi per vari altri organismi, dai topi, al parassita della malaria e moltissimi altri.
Le oltre 350.000 strutture proteiche, che sono disponibili attraverso un database pubblico, variano nella loro precisione. I ricercatori dicono che la risorsa (che è destinata a crescere fino a 130 milioni di strutture entro la fine dell’anno) ha il potenziale per rivoluzionare le scienze della vita.
“È totalmente trasformativo dal mio punto di vista. Avere le forme di tutte queste proteine ti dà davvero un’idea dei loro meccanismi”, dice Christine Orengo, biologa computazionale all’University College London (UCL).
“Questo è il più grande contributo che un sistema di intelligenza artificiale ha dato finora per far progredire la conoscenza scientifica. Non credo sia una forzatura dirlo”, dice Demis Hassabis, co-fondatore e amministratore delegato di DeepMind.
Ma i ricercatori sottolineano che il dump dei dati è un inizio, non una fine. Vorranno convalidare le previsioni e, cosa più importante, applicarle a esperimenti che finora erano impossibili. “È un primo passo sorprendente, che abbiamo tutti questi dati su quella scala”, dice David Jones, un biologo computazionale dell’UCL che ha consigliato DeepMind su una precedente iterazione di AlphaFold.
Il team di DeepMind ha deciso di predire le strutture di quasi tutte le proteine conosciute codificate dal genoma umano, così come quelle di 20 organismi modello. Le strutture sono disponibili in un database mantenuto da EMBL-EBI (il Laboratorio Europeo di Biologia Molecolare Istituto Europeo di Bioinformatica) a Hinxton, Regno Unito.
Oltre alle strutture previste, che coprono il 98,5% delle proteine umane conosciute e una percentuale simile per altri organismi, AlphaFold ha generato una misura della fiducia delle sue previsioni. “Vogliamo dare agli sperimentatori e ai biologi un segnale molto chiaro su quali parti delle previsioni dovrebbero fare affidamento”, dice Kathryn Tunyasuvunakool, un ingegnere scientifico di DeepMind e primo autore di un articolo di Nature che descrive le previsioni del proteoma umano. Per il proteoma umano, il 58% delle sue previsioni per le posizioni dei singoli aminoacidi erano abbastanza buone per essere sicuri della forma delle pieghe della proteina, dice Tunyasuvunakool. Un sottoinsieme di queste previsioni (36% del totale) è potenzialmente abbastanza preciso da dettagliare le caratteristiche atomiche utili per la progettazione di farmaci, come il sito attivo di un enzima.

Anche le previsioni meno accurate potrebbero offrire intuizioni. I biologi pensano che una gran parte delle proteine umane e quelle di altri eucarioti (organismi con cellule che hanno nuclei) contengono regioni che sono intrinsecamente disordinate e assumono una struttura definita solo con altre molecole. “Molte proteine sono solo mosse in soluzione, non hanno una struttura fissa”, dice John Jumper, ricercatore capo di AlphaFold. Alcune delle regioni che AlphaFold ha previsto con bassa fiducia corrispondono a quelle che i biologi sospettano essere disordinate, dice Pushmeet Kohli, capo dell’AI per la scienza a DeepMind.
Determinare come le singole proteine interagiscono con altri attori cellulari è una delle maggiori sfide per le previsioni di AlphaFold, dicono i ricercatori. Per la competizione CASP, la maggior parte delle sue previsioni erano di unità di ripiegamento indipendenti di una proteina, chiamate “domini“. Ma il proteoma umano, e quello di altri organismi, contiene proteine con più domini che si piegano in modo semi-indipendente. Le cellule umane contengono anche molecole fatte di catene multiple di proteine interagenti, come i recettori sulle membrane cellulari.
Le circa 365.000 previsioni di struttura depositate questa settimana dovrebbero gonfiarsi fino a 130 milioni (quasi la metà di tutte le proteine conosciute) entro la fine dell’anno, dice Sameer Velankar, un bioinformatico strutturale all’EMBL-EBI.
Il database sarà aggiornato man mano che nuove proteine saranno identificate e le previsioni migliorate.
I ricercatori stanno già utilizzando AlphaFold e gli strumenti correlati per aiutare a dare un senso ai dati sperimentali generati utilizzando la cristallografia a raggi X e la microscopia crio-elettronica. Marcelo Sousa, un biochimico dell’Università del Colorado Boulder, ha usato AlphaFold per creare modelli dai dati dei raggi X delle proteine che i batteri usano per eludere un antibiotico chiamato colistina. Le parti del modello sperimentale che differivano dalla previsione di AlphaFold erano tipicamente regioni che il software aveva assegnato con bassa fiducia, nota Sousa, un segno che AlphaFold sta predicendo accuratamente i suoi limiti.
Tuttavia, i biologi vorranno continuare a confrontare queste previsioni con i dati sperimentali per ottenere una migliore gestione della loro affidabilità, dice Venki Ramakrishnan, un biologo strutturale al MRC Laboratory of Molecular Biology di Cambridge, Regno Unito. “Dobbiamo poterci fidare di questi dati”, aggiunge Orengo.
Comprendere la struttura di una proteina è utile per gli scienziati in una serie di campi. Le informazioni possono aiutare a progettare nuove medicine, sintetizzare nuovi enzimi che scompongono i materiali di scarto, e creare colture che sono resistenti ai virus o al tempo estremo. Le previsioni delle proteine di DeepMind sono già utilizzate per la ricerca medica, compreso lo studio del funzionamento della SARS-CoV-2, il virus che causa la COVID-19.
Hassabis prevede che AlphaFold è un segno delle cose a venire, un progetto che mostra l’enorme potenziale dell’intelligenza artificiale per gestire problemi disordinati come la biologia umana.
“Penso che siamo in un momento davvero eccitante”, dice. “Nel prossimo decennio, noi, e altri nel campo dell’IA, speriamo di produrre incredibili scoperte che accelereranno veramente le soluzioni ai problemi davvero grandi che abbiamo qui sulla Terra”.

Fonti
Nature: https://www.nature.com/articles/d41586-021-02025-4
Google DeepMind: https://deepmind.com