News Release

圣大生物情报学家搭建用于读取微生物群落基因组信息的新型汇编器

Researchers from the Center for Algorithmic Biotechnology at St Petersburg University, as part of a group of Russian and American scientists, have developed the metaFlye assembler.

Peer-Reviewed Publication

St. Petersburg State University

Center for Algorithmic Biotechnology at St Petersburg University

image: The metaFlye assembler is designed to assemble DNA samples from microbial communities. With its help, it is possible to solve a wide range of fundamental and applied problems, among which is the control of the process of treating patients and even the creation of new drugs. view more 

Credit: SPbU

如今,世界各地的科学家都使用复杂的生物技术工具——测序仪来研究各种活生物体的DNA。这种特殊仪器不知道如何从头到尾地“通读”基因组(就像人们读书一样)。它们是针对单独的短片段——即读数进行工作。将多个读数组合成更长的片段,在理想情况下,便可组成完整的基因组序列。这是一项极其复杂的计算任务,类似于上百万片的拼图。任务的难点在于,基因组通常包含大量相同而重复的序列,且常常超出读数的长度。因此需要使用特殊的程序来解决这一难题,这便是基因组汇编器。

科学家可以访问数十个全球领先的生物情报实验室搭建的不同类型的汇编器。这种多样性的前提在于,作为汇编器基础的算法需要适应不同类型的测序仪获得的不同类型数据,还要适应不同的生物。例如,组装细菌基因组的方法可能完全不适合人类基因组的组装,反之亦然。此外,基因组汇编器的开发人员一直在努力改善其解决方案,以使其程序运行更快,使用更少的内存,并且组装的数据比竞争对手的更长,更加准确。

全新metaFlye汇编器用于装配元基因组,即从各种环境中(例如从海洋深处、公园土壤或人的肠道中)获得的微生物群落的DNA样品。得到此类样品的数据后,便可以确定其中有哪些生物,以及有多少生物。运用附加数据分析,通常可以确定这些生物体以什么为食,它们如何相互作用,合成了哪些物质。所有以上信息都可以在远期获得利用,例如用于寻找天然来源的药物,用于检定特定土壤肥沃的原因,用于人类治疗过程的检验,以及其他多种基础任务和理论任务。

metaFlye汇编器专为使用当前最先进的测序技术——长读数测序技术获取的数据而设计。对于元基因组的短读数测序(或下一代测序NGS)数据,Illumina平台上已有多种全球范围使用的汇编器。其中包括2016年圣大算法生物技术中心开发的metaSPAdes汇编器。还有一些程序从长读数中进行单独基因组汇编。全新产品metaFlye使我们能够利用新技术处理复杂的宏基因组数据。它是第一个能与牛津Nanopore技术和PacBio技术配合使用的专门元基因组汇编器。

“用于长读数技术的专用宏基因组汇编器的技术空白,是我们搭建metaFlye的动力,”该项目的作者之一,圣大算法生物技术中心的资深研究员米哈伊尔·莱科(Михаил Райко)说。“这项技术已经从根本上改变了整个现代基因组科学,我们已经可以获得更完整的装配数据。例如,得益于这项技术,不久前人们读取并定位了人类基因组的许多缺失片段(使用独创的Flye工具,且在我们实验室成员的参与下)。但是对于元基因组来说,这种数据才刚刚开始出现,当然对它们的研究需要特殊的工具。”

metaFlye的研发工作大约适于两年前。如果从其前身Flye的搭建开始算起,那么新项目的研发时间便却是原来的两倍,即四年。

“在发表于《Nature Methods》杂志上的研究文章中,我们使用metaFlye和其他汇编器来分析若干组虚拟宏基因组样本(即计算机生成的,无需真实的DNA测序)和真实的人类、牛和羊胃肠道中的宏基因组样本,”汇编器的另一位作者,圣大算法生物技术中心资深研究员阿列克谢·古列维奇(Алексей Гуревич)说。“最有趣的是羊的微生物组样本,因为它是在这项工作中首次取得并研究的,而其他两个样本的初始测序数据则来自第三方作者。得益于metaFlye,在这个样本中取得的病毒基因组数量比现存最好的分析程序多一个数量级,且取得的质粒也多50%。

另一个有的结果是,在该样品中不仅收集到了细菌和古核细菌的基因组,还有真核生物的基因组。与此同时,生物情报学分析表明,几乎一半的真核基因组片段都与线虫或蛔虫有关。该结果与动物的尸检报告完全一致,后者显示出寄生虫感染的迹象。

“metaFlye汇编器是解决各类问题的工具,所有研究类似数据的人员都可以使用。在我们实验室中执行的特定项目中,我们使用汇编器来研究黑针叶林土壤的组成,这是西伯利亚西的一种独特生物群落,具有异常高的生产效能,”阿列克谢·古列维奇说。

关于metaFlye的文章是来自圣彼得堡国立大学、加利福尼亚大学圣地亚哥分校(UCSD)、生物情报学研究所(圣彼得堡)和美国乳制品及肉类产品研究中心的11位俄美科学家共同合作的成果。metaFlye汇编器主要在加利福尼亚大学圣地亚哥分校开发。汇编器的开发者以及文章第一作者是加利福尼亚大学圣地亚哥分校博士后米哈伊尔·科尔莫戈罗夫(Михаил Колмогоров)。该项目的学术导师是圣大算法生物技术中心首席科学顾问,加州大学圣地亚哥分校教授帕维尔·佩夫兹纳(Павел Певзнер)。

###


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.