News Release

DeepMind et l'EMBL publient la base de données la plus complète de prédictions de structures 3D de protéines humaines

Les partenaires du projet utilisent AlphaFold, le système d'intelligence artificielle reconnu l'an dernier comme une solution au problème du repliement des protéines, pour mettre à la disposition de la communaut&eacut

Peer-Reviewed Publication

European Molecular Biology Laboratory - European Bioinformatics Institute

Protein structures

image: Protein structures to represent the data obtained via AlphaFold view more 

Credit: Karen Arnott/EMBL-EBI

LONDRES, 22 juillet 2021 - DeepMind a annoncé aujourd'hui son partenariat avec le Laboratoire européen de biologie moléculaire (EMBL), le laboratoire de référence pour les sciences de la vie en Europe, afin de mettre à disposition de manière libre et gratuite à l'ensemble de la communauté scientifique la base de données la plus complète et la plus précise à ce jour de prédictions de modèles de structures des protéines du protéome humain. Ceci équivaut à un ensemble d'environ 20 000 protéines exprimées par le génome humain. Ces données seront mises à disposition de la communauté scientifique de manière libre et gratuite. La base de données et le système d'intelligence artificielle fournissent aux chercheurs en biologie structurale de nouveaux et puissants outils pour examiner la structure tridimensionnelle d'une protéine, et offrent une véritable mine d'informations qui pourrait débloquer de futures avancées et annoncer une nouvelle ère pour la biologie assistée par l'intelligence artificielle.

La reconnaissance d'AlphaFold en décembre 2020 par les organisateurs de l'Evaluation critique de la prédiction de la structure des protéines (ou CASP, Critical Assessment of protein Structure Prediction, en anglais) comme une solution au grand défi, vieux de 50 ans, de la prédiction de la structure des protéines, a constitué une remarquable avancée dans ce domaine. La base de données sur la structure des protéines AlphaFold s'appuie sur cette innovation et sur les découvertes de générations de scientifiques, depuis les premiers pionniers de l'imagerie et de la cristallographie des protéines, jusqu'aux milliers de spécialistes de la prédiction et de chercheurs en biologie structurale qui ont, depuis lors, passé des années à réaliser des expérimentations sur les protéines. La base de données élargit considérablement les connaissances accumulées sur les structures protéiques, en faisant plus que doubler le nombre de structures protéiques humaines de haute précision mises à disposition des chercheurs. L'amélioration de la compréhension de ces éléments constitutifs de la vie, qui sont à la base de tous les processus biologiques de chaque être vivant, permettra aux chercheurs d'accélérer leurs travaux dans un très grand nombre de domaines.

La semaine dernière, la méthodologie à la base de la dernière version hautement innovante d'AlphaFold - le sophistiqué système d'intelligence artificielle annoncé en décembre dernier qui permet ces prédictions de structure - et son code source ouvert (open source code), ont été publiés dans Nature. L'annonce faite aujourd'hui coïncide avec la publication d'un deuxième article dans Nature qui donne l'image la plus complète des protéines qui composent le protéome humain, et la publication de 20 organismes supplémentaires importants pour la recherche en biologie.

"Notre objectif à DeepMind a toujours été de construire l'intelligence artificielle et de l'utiliser comme un outil pour aider à accélérer le rythme de la découverte scientifique, faisant ainsi progresser notre compréhension du monde qui nous entoure", a déclaré le fondateur et PDG de DeepMind, Demis Hassabis, PhD. "Nous avons utilisé AlphaFold pour générer l'image la plus complète et la plus précise du protéome humain. Nous pensons que cela représente, à ce jour, la contribution la plus importante de l'intelligence artificielle à l'avancement des connaissances scientifiques, et illustre parfaitement le type d'avantages que celle-ci peut apporter à la société."

AlphaFold aide déjà les scientifiques à accélérer les découvertes

La possibilité de prédire la forme d'une protéine par ordinateur à partir de sa séquence d'acides aminés - plutôt que de la déterminer expérimentalement par des années de techniques minutieuses, ardues et souvent coûteuses - aide déjà les scientifiques à réaliser en quelques mois ce qui prenait auparavant des années.

"La base de données AlphaFold est un exemple parfait du cercle vertueux de la science ouverte", a déclaré Edith Heard, directrice générale de l'EMBL. "AlphaFold a été formé en utilisant des données provenant de ressources publiques construites par la communauté scientifique, il est donc logique que ces prédictions soient rendues publiques. Le partage ouvert et gratuit des prédictions d'AlphaFold permettra aux chercheurs du monde entier d'acquérir de nouvelles connaissances et de stimuler la découverte. Je pense qu'AlphaFold est véritablement une révolution pour les sciences de la vie, tout comme l'a été la génomique il y a plusieurs décennies, et je suis très fière que l'EMBL ait pu aider DeepMind à rendre publique cette ressource remarquable".

AlphaFold est déjà utilisé par des partenaires tels que l'initiative Drugs for Neglected Diseases (DNDi), qui a fait progresser la recherche de traitements permettant de sauver des vies pour des maladies qui touchent de manière disproportionnée les régions les plus pauvres du monde, et le Centre for Enzyme Innovation (CEI) qui utilise AlphaFold pour aider à concevoir des enzymes plus rapides pouvant servir à recycler certains des plastiques à usage unique les plus polluants. Pour les scientifiques qui dépendent de la détermination expérimentale de la structure des protéines, les prédictions d'AlphaFold ont permis d'accélérer leurs recherches. Par exemple, une équipe de l'université du Colorado à Boulder trouve prometteuse l'utilisation des prédictions d'AlphaFold pour étudier la résistance aux antibiotiques, tandis qu'un groupe de l'université de Californie à San Francisco les a utilisées pour mieux comprendre la biologie du SARS-CoV-2.

La base de données de structure protéique AlphaFold

La base de données sur la structure des protéines AlphaFold* s'appuie sur de nombreuses contributions de la communauté scientifique internationale, ainsi que sur les innovations algorithmiques sophistiquées d'AlphaFold et sur les décennies d'expérience de l'EMBL-EBI en matière de partage des données biologiques au niveau mondial. DeepMind et l'Institut européen de bioinformatique de l'EMBL (EMBL-EBI) donnent accès aux prédictions d'AlphaFold afin que d'autres puissent utiliser ce système comme un outil permettant et accélérant la recherche, et ouvrant de toutes nouvelles voies à la découverte scientifique.

"Ce sera l'un des ensembles de données les plus importants depuis la cartographie du génome humain", a déclaré Ewan Birney, directeur général adjoint de l'EMBL et directeur de l'EMBL-EBI. "Rendre les prédictions d'AlphaFold accessibles à la communauté scientifique internationale ouvre énormément de nouvelles voies de recherche, depuis les maladies négligées jusqu'aux nouvelles enzymes pour la biotechnologie, et pour une multitude d'autres domaines. Il s'agit d'un nouvel outil scientifique formidable, qui complète les technologies existantes, et qui nous permettra de repousser les limites de notre compréhension du monde."

Au-delà du protéome humain, la base de données comprend au total environ 350 000 structures de protéines, dont celles de 20 organismes biologiquement significatifs tels que E.coli, la mouche du vinaigre (drosophile), la souris, le poisson zèbre, le parasite du paludisme et la bactérie de la tuberculose. Les recherches portant sur ces organismes ont fait l'objet d'innombrables articles de recherche et de nombreuses avancées majeures. Ces structures permettront aux chercheurs d'une grande variété de domaines - des neurosciences à la médecine - d'accélérer leurs travaux.

L'avenir d'AlphaFold

La base de données et le système seront périodiquement mis à jour, au fur et à mesure que nous continuons à investir dans des améliorations futures d'AlphaFold. Au cours des prochains mois, nous prévoyons d'étendre considérablement la couverture à presque toutes les protéines séquencées connues de la science - plus de 100 millions de structures couvrant la majeure partie de la base de données de référence UniProt.

Pour plus de détails, il est possible de consulter les articles de Nature décrivant notre méthode complète et le protéome humain*, et de lire les notes des auteurs ici*. Il est également possible de consulter le code open source d'AlphaFold pour voir le fonctionnement du système, et le Colab notebook* pour exécuter des séquences individuelles. Pour explorer les structures, il est possible de visiter la base de données consultable* de l'EMBL-EBI, qui est ouverte et gratuite pour tous.

###

Déclarations de l'EMBL :

Pr Dame Janet Thornton, directrice émérite de l'EMBL-EBI

"La puissance de l'intelligence artificielle sous-tend les prédictions d'AlphaFold, basées sur des données recueillies par des scientifiques du monde entier au cours des 50 dernières années. La mise à disposition de ces modèles incitera sans aucun doute les chercheurs en structure protéique, tant expérimentaux que théoriques, à appliquer ces nouvelles connaissances à leurs propres domaines de recherche et à ouvrir de nouveaux champs d'intérêt. Cela contribue à notre connaissance et à notre compréhension des systèmes vivants, avec toutes les opportunités pour l'humanité que cela va ouvrir."

Sameer Velankar, PhD, chef de section à l'EMBL-EBI

"Vingt ans après la révolution du génome humain, AlphaFold constitue une percée importante dans la recherche en biologie. La fonction des protéines est dictée par leur structure, et la base de données sur la structure des protéines d'AlphaFold fournira des millions de prédictions de structures de protéines, accélérant ainsi le processus de découverte. Cette échelle sans précédent déclenchera une nouvelle vague d'innovations qui nous aideront à relever des défis allant de la santé au changement climatique."

Stephen Cusack, responsable de l'EMBL Grenoble

"Les protéines sont les principaux éléments constitutifs de la vie. On en dénombre des milliers, aux structures et fonctions différentes. Les prédictions de Deepmind sur la structure tridimensionnelle de toutes les protéines de plusieurs organismes, et parmi celles-ci toutes les protéines humaines, vont être fournies grâce à une base de données publique gérée par l'EMBL. Ceci constitue un nouvel outil fabuleux pour tous les biologistes qui cherchent à percer les secrets de la vie et à nous protéger des maladies."

Jacques Dubochet, Lauréat du prix Nobel 2017 de chimie pour ses travaux en cryo-microscopie électronique (Cryo-EM) et membre de l'Association des anciens de l'EMBL

"Le 8 décembre 2017, j'ai donné une conférence à Stockholm. Elle portait sur la cryo-microscopie électronique mais, pour moi, il était plus important de soulever la question suivante : à qui appartient la connaissance ? Lors de cette occasion solennelle, j'ai demandé que, nous tous, scientifiques, nous nous battions pour en faire un bien commun au bénéfice de tous. Trois ans ont passé, et le Covid-19 a bouleversé la science et le monde. Cette exigence est plus importante que jamais.

Je suis heureux de savoir que la collaboration entre DeepMind et l'EMBL fera en sorte que toutes les connaissances sur la structure des protéines soient un bien commun, ouvert à tous."

Notes aux rédacteurs :

Contacts médias

DeepMind : press@deepmind.com

EMBL :

Mylène André, Communications officer
mandre@embl.fr

À propos de DeepMind

DeepMind est une société de découverte scientifique qui s'engage à "résoudre l'intelligence pour faire progresser la science et l'humanité". La résolution de l'intelligence nécessite une équipe diversifiée et interdisciplinaire travaillant en étroite collaboration - des scientifiques aux concepteurs, en passant par les ingénieurs et les éthiciens - afin d'ouvrir la voie au développement d'une intelligence artificielle avancée.

Plusieurs avancées de la société incluent AlphaGo, AlphaFold, plus d'un millier d'articles de recherche publiés (dont plus d'une douzaine dans Nature et Science), des partenariats avec des organisations scientifiques et des centaines de contributions aux produits de Google (dans tous les domaines, de l'efficacité de la batterie d'Android jusqu'à la synthèse vocale d'Assistant).

À propos de l'EMBL

L'EMBL est le laboratoire de référence pour les sciences de la vie en Europe. Fondé en 1974, l'EMBL est une organisation inter-gouvernementale soutenue par 27 états membres, 2 futurs états membres et 1 état membre associé.

La recherche fondamentale en biologie moléculaire faite à l'EMBL vise à mieux comprendre l'histoire de la vie. L'organisation offre également des services à la communauté scientifique, forme la prochaine génération de scientifiques, et œuvre pour une plus grande intégration des sciences de la vie en Europe.

L'EMBL est international, innovant, et interdisciplinaire. Plus de 1800 personnes, originaires de plus de 80 pays, travaillent sur nos 6 sites à Grenoble (France), Hambourg (Allemagne), Heidelberg (Allemagne), Hinxton (Royaume-Uni), Rome (Italie) et Barcelone (Espagne). Les scientifiques travaillent en groupes indépendants ; ils dirigent des projets de recherche et offrent des services dans tous les domaines de la biologie moléculaire.

Les recherches de l'EMBL mènent au développement de nouvelles technologies et méthodes en sciences de la vie. L'organisation fait en sorte que les connaissances développées en laboratoire profitent à toute la société.

À propos de l'Institut européen de bio-informatique de l'EMBL (EMBL-EBI)

L'Institut européen de bio-informatique (EMBL-EBI) est un leader mondial dans le stockage, l'analyse et la diffusion de grands ensembles de données biologiques. Nous aidons les scientifiques à réaliser le potentiel du big data en améliorant leur capacité à exploiter des informations complexes pour réaliser des découvertes qui profitent à l'humanité.

Nous sommes à la pointe de la recherche en biologie computationnelle, avec des travaux couvrant les méthodes d'analyse de séquences, l'analyse statistique multidimensionnelle et la découverte biologique guidée par les données, de la biologie végétale jusqu'au développement et aux maladies des mammifères. Nous faisons partie de l'EMBL et nous sommes situés sur le Wellcome Genome Campus, l'une des plus grandes concentrations mondiales d'expertise scientifique et technique en génomique.


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.