Les haplotypes constituent un ensemble de variations génétiques qui, situés côte à côte sur un même chromosome, sont transmis en un seul groupe à la génération suivante. Leur examen permet de comprendre lhéritabilité de certains traits complexes, comme par exemple le risque de développer plus tard une maladie. Cependant, pour effectuer cette analyse, il faut généralement disposer du génome des membres dune même famille (les parents et leur enfant), un procédé long et cher. Pour contourner ce problème, des chercheurs des universités de Genève (UNIGE) et de Lausanne (UNIL), ainsi quau SIB Institut Suisse de Bioinformatique, ont mis au point SHAPEIT4, un puissant algorithme informatique permettant didentifier très rapidement les haplotypes de centaines de milliers dindividus sans lien familiaux, avec un résultat aussi fin que dans le cadre danalyses familiales impossibles à mener à si large échelle. Leur outil est maintenant disponible en ligne sous licence open source, à la disposition libre de lensemble de la communauté des chercheurs. A découvrir dans la revue Nature Communications.
A lheure actuelle, lanalyse des données génétiques prend de plus en plus dimportance, notamment dans le champ de la médecine personnalisée. Preuve en est : le nombre de génomes humains séquencé chaque année croît de manière exponentielle et les grandes bases de données comptent maintenant près dun million dindividus. Cette masse de données est dune extrême richesse pour mieux comprendre le destin génétique de lhumanité, quil sagisse de déterminer le poids génétique dans telle ou telle maladie ou de mieux comprendre lhistoire des migrations humaines. Pour faire sens, cependant, ces données de masse doivent être traitées informatiquement. «Or, la puissance de calcul des ordinateurs reste relativement stable, contrairement à la croissance ultra-rapide de ces Big Data du génome», souligne Olivier Delaneau, professeur boursier FNS au Département de biologie computationnelle de la Faculté de biologie et médecine de lUNIL et au SIB, qui a dirigé ces travaux. «Notre algorithme vise ainsi à optimiser le traitement des données génétiques de façon à pouvoir absorber cette quantité dinformation et les rendre exploitables par les scientifiques, malgré le décalage entre leur quantité et la puissance comparativement limitée des ordinateurs.»
Mieux comprendre le rôle des haplotypes
Le génotypage permet de connaître les allèles dun individu, cest-à-dire les variations génétiques reçues de ses parents. Par contre, sans connaître le génome parental, on ignore quels allèles sont simultanément transmis aux enfants, et selon quelles combinaisons. «Cette information les haplotypes est cruciale si lon veut réellement comprendre les bases génétiques de la variation humaine, explique Emmanouil Dermitzakis, professeur à la Faculté de médecine de lUNIGE et au SIB, qui a co-supervisé ces travaux. Et ce, que ce soit en génétique des populations ou dans loptique de la médecine de précision.»
Pour déterminer le risque génétique de maladie, par exemple, les scientifiques évaluent si une variation génétique est plus ou moins présente chez les individus ayant développé cette maladie, afin de déterminer le rôle de cette variation dans la maladie étudiée. «En connaissant les haplotypes, nous conduisons le même type danalyse, souligne Emmanouil Dermitzakis. Par contre, nous passons dun seul variant à une combinaison de nombreux variants, ce qui permet de déterminer quelles combinaisons alléliques sur un même chromosome ont le plus dimpact sur le risque de maladie. Cest beaucoup plus précis!»
La méthode développée par les chercheurs permet de traiter un nombre de génomes extrêmement important, de lordre de 500 000 à 1 000 000 dindividus, et de déterminer leurs haplotypes sans connaître leur ascendance ni leur descendance, tout en utilisant une puissance de calcul standard. Loutil SHAPEIT4 a été testé avec succès sur les 500 000 génomes individuels que compte la UK Biobank, une banque de données scientifiques développée au Royaume-Uni. «Nous avons ici un exemple typique de ce que sont les Big Data, indique Olivier Delaneau. Une quantité si importante de données permet de construire des modèles statistiques de très haute précision, pour autant que lon puisse les interpréter sans sy noyer.»
Une licence open source en gage de transparence
Les chercheurs ont décidé de rendre leur outil accessible à tous sous licence open source MIT: le code entier est disponible et modifiable à lenvie, selon les besoins des chercheurs, et ce principalement pour des questions de transparence et de reproductibilité, mais aussi pour stimuler les chercheurs du monde entier. «Toutefois attention ! Nous donnons accès à loutil danalyse, mais en aucun cas à un corpus de données, tient à préciser Olivier Delaneau. A chacun, ensuite, de lutiliser sur les données dont il ou elle dispose.»
Cet outil se révèle ainsi beaucoup plus efficace que ses prédécesseurs, plus rapide et moins cher. Il permet aussi de limiter limpact environnemental numérique. Les ordinateurs puissants utilisés pour traiter les Big Data sont en effet très énergivores; réduire leur utilisation permet alors de minimiser leur impact négatif.
###
Journal
Nature Communications