News Release

中山大学张家军教授团队提出了基于单分子成像数据解析HIV-1的转录启动和延伸

Peer-Reviewed Publication

Research

图1. HIV-1 转录动力学的双驱动推断框架

image: 图1. HIV-1 转录动力学的双驱动推断框架 view more 

Credit: Copyright © 2025 Xiyan Yang et al.

一、研究背景

HIV-1的转录启动与延伸是调控病毒潜伏与激活的关键环节。尽管这两个过程在 HIV-1基因表达中发挥着至关重要的作用,但它们如何协作调控基因表达并影响病毒潜伏激活机制仍不清楚。近年来,活细胞单分子成像技术揭示了HIV-1转录跨过多个时间尺度,并与病毒潜伏状态的维持和逆转密切相关。该技术能够提供包含时间信息的转录动态数据,为深入解析HIV-1的转录调控机制带来了新机遇。然而,现有方法大多依赖静态的基因表达数据,难以捕捉转录过程中的动态特征,从而限制了对病毒转录真实生物过程的准确刻画和系统性理解。因此,建立一种能够同时解析转录启动与延伸、整合不同类型数据的统一建模与推断框架具有重要意义。相关研究不仅有助于加深对HIV-1潜伏机制的理解,也有望为精准抗病毒治疗策略的优化提供理论支持。

二、研究进展

张家军教授等人开发了一个基于随机动力学机制模型和时间序列数据双驱动的框架,以从单分子成像数据中准确推断出HIV-1的转录启动速率和延伸时间(图1)。具体而言,研究团队首先构建了一个涵盖转录启动与延伸两个关键阶段的HIV-1转录模型(图1A),其中RNA聚合酶II(Pol II)与病毒因子Tat相互作用启动转录,而RNA的延伸则驱动病毒复制周期的进行。接下来,研究基于单分子成像技术获取活细胞核内的时间序列数据(图1B),该数据同时包含转录位点(TS)荧光强度所反映的nascent RNA分子计数及转录启动事件的时间间隔信息。为捕捉HIV-1转录跨越多个时间尺度的特性,研究进一步将该过程映射为一个包含多个非活性(OFF)状态与一个活性(ON)状态的多状态随机模型(图1C)。在此基础上,团队提出了一种整合nascent RNA数据与启动时间数据的推断方法,基于两类数据的联合分布,通过最大似然估计精确推断出启动速率、延伸时间等关键动力学参数(图1D–E),为深入解析HIV-1潜伏与激活状态间的调控机制提供了理论和方法支持。

1. 增加启动时间数据能够增强模型的识别

首先,为了探讨转录启动与延伸在转录调控中的协作作用,作者结合理论分析与数值模拟,系统分析了大参数空间中启动时间与nascent RNA分布的随机分岔。为此,作者构建了一个五状态环路模型,并通过调节前向转移速率与后向转移速率来系统性地绘制启动时间与nascent RNA计数的分布类型的伪三维图(图2A,2C)。在稳态nascent RNA分布图中(图2A),作者识别出五种典型分布区域:具有原点峰的单峰分布(U(1OP))、非原点单峰分布(U(1NOP))、原点与非原点双峰分布(B(1OP+1NOP))、包含一个原点峰与两个非原点峰的三峰分布(T(1OP+2NOP))以及两个非原点峰的双峰分布(B(2NOP))。图2B展示了各分布区域的代表性概率质量函数(PMF)。与此同时,作者还分析了相同参数空间中启动时间分布的形状(图2C),并识别出两种类型:具有原点峰值的单峰分布(U(1OP))与原点+非原点双峰分布(B(1OP+1NOP))。图2D展示了这两类典型分布的概率密度函数(PDF)。值得注意的是,尽管不同模型可能呈现出相同的nascent RNA分布,但其启动时间分布却完全不同(图2E)。这一结果表明,仅基于nascent RNA数据难以确定潜在的调控机制,而结合启动时间数据能显著提高模型的可辨识性。这些结果揭示了转录启动与延伸在调控转录动力学方面的协作作用,也凸显了启动时间数据在机制识别中的重要意义。

2. 融入启动时间数据能够精确推断启动速率和延伸时间

为了探讨引入启动时间数据在推断转录动力学参数中的作用,作者构建了一个系统性的模拟评估框架(图3)。该框架采用两状态模型以及多状态模型,利用随机模拟算法生成时间序列数据,并从中收集nascent RNA的计数数据和启动时间数据(图3A)。研究分别使用仅包含nascent RNA数据的推断方法(方法I)与同时整合nascent RNA与启动时间数据的推断方法(方法II),在不同模型假设下对转录启动速率与延伸时间两个关键参数进行估计(图3B)。图3C和图3F展示了使用两状态模型与方法I对由两状态模型和多状态模型生成的数据的推断结果,发现即便生成模型与推断模型一致,所估计的参数也严重偏离真实值。相比之下,图3D、3E及图3G、3H显示,在不同数据生成模型下采用方法II均能获得对启动速率与延伸时间的精确估计,无论推断模型为两状态还是多状态。该结果表明:引入启动时间数据可突破仅依赖稳态表达数据进行参数推断的局限,为复杂转录过程的定量建模提供了理论基础与方法支撑。

3. 应用合成影像数据检验理论和推断方法的有效性

为了验证所提出的理论和推断方法在单分子影像数据分析中的有效性,作者通过产生合成影像数据来模拟真实的生物学条件,并从中收集nascent RNA数据以及“短”和“长”的启动时间数据(图4A、4B)。研究分别采用了三种推断方法进行比较:仅使用nascent RNA数据(方法I)、结合nascent RNA与“短”的启动时间数据(方法II)、以及同时结合nascent RNA、“短”与“长”的启动时间数据(方法III)。通过对推断的转录动力学参数进行分析,结果显示,尽管不同推断方法下估计的nascent RNA分布都很好地拟合真实分布(图4C),但三种方法对启动时间分布的推断存在显著差异。只有使用方法III时,启动时间分布能够准确匹配真实分布(图4D)。这些结果表明,结合不同时间尺度的启动时间数据能够显著提高转录动力学的推断准确性,为处理复杂的实时单分子影像数据提供了方法支持。

4. 活细胞HIV-1实验数据分析表明Tat不仅刺激启动并促进延伸

为了进一步验证所提出的理论与推断方法在真实生物过程中的适用性,作者将其应用于HIV-1转录的实时活细胞影像数据。该数据集包括High-Tat、Low-Tat和No-Tat三类细胞系,分别对应不同水平的HIV-1病毒蛋白Tat(图5A)。作者采用最大似然方法对不同模型进行参数推断,并比较了仅使用nascent RNA数据与整合启动时间数据两种方式的推断结果。结果表明,若不加入启动时间数据,推断的启动速率与实验值存在数量级差异,而整合启动时间数据后,推断值能准确回归实验结果,无论采用两状态模型还是多状态模型均表现一致(图5B)。此外,作者还预测了三类细胞系的延伸时间,发现High-Tat细胞中的转录延伸时间显著低于Low-Tat与No-Tat细胞。这些结果表明Tat不仅促进转录启动,同时也增强转录延伸,证实了Tat双重作用(图5C)。此外,最优预测模型表明,Tat通过改变启动子沉默状态的数量来诱导病毒再激活和潜伏状态的退出。特别地,研究发现High-Tat细胞中推断出的启动时间分布为单峰分布,集中于较短时间尺度,而Low-Tat与No-Tat细胞中为双峰分布,跨越多个时间尺度(图5D、5E)。因此,数据整合推断方法能够同时预测转录启动速率与延伸时间,为优化当前HIV-1治疗策略提供了新的思路和方法。

三、 未来展望

本研究提出的基于单分子影像数据与动力学机制模型双驱动的分析框架,为解析复杂的转录调控机制提供了新思路。未来,该框架有望进一步拓展至其他病毒系统、疾病模型及发育过程中的基因表达研究,并结合更精细的生物过程,推动对基因表达多层次调控机制的系统性理解。

来源:https://spj.science.org/doi/10.34133/research.0645


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.