-
以微软BioGPT为基础,英矽智能研发团队采用经过生物医学领域专门训练的大型语言模型(LLMs),提出靶点预测新方法。
-
团队发现针对衰老及14种主要老龄相关疾病的9个潜在双效靶点,其中CCR5和PTH是此前未被报道过的创新抗衰老靶点。
-
除靶点选择外,该方法还可以在标准并未明确的情况下用于特定主题的优先排序。
作为GPT-4等聊天机器人的底层机制,以大量文本数据训练为基础的大型语言模型(LLMs)在文学、艺术、科学等多个领域的能力已经获得验证,但在生物学和基因组学等复杂领域的潜力仍有待发掘。
2023年9月26日,全球领先的生成式人工智能(AI)驱动的生物医药科技公司英矽智能宣布利用微软BioGPT的相关关系检索能力,成功定位9个潜在双效靶点,同时针对衰老过程与14种主要老龄相关疾病,研究结果发表于专注健康衰老领域的同行评议期刊Aging。更重要的是,其中包含2个此前未被报道的衰老相关靶点,这验证了transformer模型在新颖靶点预测与生物医学领域优先排序任务方面的潜力。
研究显示,多数前沿大型语言模型(LLMs)都以文本接续性为训练中心,即通过从上下文中提取的相关关系与概率分布来推断下一个可能的词语。在提示语合理、背景数据充足的情况下,适用于特定领域的LLMs有望赋能靶点优先排序等关键流程。
BioGPT是一种专有领域生成式transformer语言模型,由微软研究院与北京大学联合提出。该模型采用数百万篇已发表的生物医学研究文章的数据进行预训练,现已在多项生物医学自然语言处理任务中超越已有模型,并在基于生物医学研究的问答方面展现出“与人类相当的水平”。
为了进一步优化BioGPT性能,英矽智能研发团队采用来自美国国家卫生研究所(NIH)的的90万份科研基金资料进行训练,并通过富集对数倍数变化(log fold change of enrichment, ELFC)和超几何p值(hypergeometric p-value, HGPV)得分来评估效果。此后,团队搭建了包括提示词、词语可能性检索、基因概率计算的靶点发现流程。
利用 “用于药物治疗{疾病}的人类基因是”这一最终确定的提示词,研发团队结合BioGPT通用分词器,在多轮可能性检索之后提名了9个潜在靶点。其中,5个靶点被提名为“双效靶点”,有望同时对抗衰老,并干预阿尔茨海默病、肌萎缩性侧索硬化症、特发性肺纤维化等14种老龄相关疾病。值得注意的是,CCR5和PTH被认为是未被报道过的新颖抗衰老靶点。
英矽智能创始人兼首席执行官Alex Zhavoronkov博士表示,“我很高兴看到英矽智能团队以LLMs为基础达成的这一突破,验证了transformer和生成式AI在专门数据库赋能之下的潜力。在这个生物科技行业范式迎来变革的时代,我们希望通过自有的Pharma.AI平台,进一步赋能药物研发过程,实现端到端全流程加速。”
微软研究院AI4Science团队资深首席研究员秦涛博士表示,“BioGPT可以学习理解大量医学文献,进而赋能新药研发、医学知识图谱构建、精准医疗、医疗对话辅助系统等实际应用,推动生物医药领域发展。英矽智能此次发布的研究结果为BioGPT等基于大型语言模型的AI引擎开辟了新的实际应用场景,期待该研究结果落地带来更多突破。”
作为生成式AI先驱,英矽智能现已搭建并验证了贯穿靶点发现、分子生成、临床试验设计的自有Pharma.AI平台。近期,公司于《临床药理学与治疗学》期刊发表inClinico平台验证结果,该基于transformer模型的临床试验预测工具在前瞻性验证中达到了79%的准确率。
参考资料
[1] Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H., & Liu, T.-Y. (2022). BioGPT: generative pre-trained transformer for biomedical text generation and mining. Briefings in Bioinformatics. https://doi.org/10.1093/bib/bbac409
[2] Zagirova, Diana, et al. “Biomedical Generative Pre-Trained Based Transformer Language Model for Age-Related Disease Target Discovery.” Aging, 22 Sept. 2023, https://doi.org/10.18632/aging.205055. Accessed 26 Sept. 2023.
关于英矽智能
英矽智能是一家由生成式人工智能驱动的临床阶段药物研发公司,通过下一代人工智能系统连接生物学、化学和临床试验分析,利用深度生成模型、强化学习、转换模型等现代机器学习技术,构建强大且高效的人工智能药物研发平台,识别全新靶点并生成具有特定属性分子结构的候选药物。英矽智能聚焦癌症、纤维化、免疫、中枢神经系统疾病、衰老相关疾病等未被满足医疗需求领域,推进并加速创新药物研发。
更多信息,请访问网站
www.insilico.com
商务合作,请联系 bd@insilico.ai
媒体垂询,请联系 pr@insilico.ai
Journal
Aging-US
Article Title
Biomedical generative pre-trained based transformer language model for age-related disease target discovery
Article Publication Date
22-Sep-2023