《Delineating yeast cleavage and polyadenylation signals using deep learning》
Delineating yeast cleavage and polyadenylation signals using deep learning
代码:
分离预处理存储数据和训练的代码
修改神经网络让他输出概率而不是简单的0 1
分布
[toc]
Abstract
yeast 酵母
mammals哺乳动物
mediate
depletion 损耗
这项研究聚焦于酵母菌中mRNA 3′端的加工过程,特别是切割和加聚腺苷酸化(polyadenylation),这是mRNA成熟的关键步骤。在真核生物中,加聚腺苷酸化不仅影响mRNA的稳定性,还参与调控基因表达。然而,与哺乳动物中加聚信号明确不同,酵母菌中的加聚信号较为退化,变异性大,特征尚不清楚。
为了深入理解酵母菌中的加聚信号,研究人员开发了深度学习模型。这些模型能够解析复杂且多变的顺式调控元件(即基因附近的DNA序列,调控基因表达),并评估这些元件在加聚位点形成、切割位置的多样性(异质性)以及加聚信号强度中的作用。
具体来说,在酿酒酵母(S. cerevisiae)中,研究发现:
- 切割异质性:加聚位点周围U-rich(富含尿嘧啶)的序列减少,以及上游存在多个UA-rich(富含尿嘧啶-腺嘌呤)的序列,都会增加切割位置的多样性。这意味着mRNA在不同位置被切割,导致加聚位点的不确定性。
- 信号强度:加聚信号的强度与切割异质性呈负相关。高异质性的加聚位点通常具有较低的信号强度,表明这些位点在加工过程中不如信号强的位点稳定或有效。
- 选择性加聚腺苷酸化(APA):在双相应激条件下,加聚信号的强度和串联位点之间的距离会调控APA,即mRNA可以选择不同的加聚位点进行加工,从而产生不同的mRNA变体,适应环境变化。
此外,研究团队还将深度学习模型应用于裂殖酵母(S. pombe),发现其加聚位点的调控基序配置与酿酒酵母不同,导致其加聚过程更加精确。这表明,即使在不同的酵母物种之间,加聚信号也存在显著差异
Introduction
mRNA 3‘端两步生成 : 切割 ployA添加
根据motif将加工因子招募到PAS(polyA)附近
哺乳动物
- 基本的motifs
- CPSF结合位点(AAUAAA或接近的变体),通常位于切割位点上游约20 bp
- CSTF结合位点(U/GU-rich基序),约位于下游20bp。
- 额外的motif可以发挥辅助调控作用
- 基本的motifs
酵母
顺式元件(影响切割位点的选择和polyadenylation的效率)
- UA-rich 元件:位于上游40个核苷酸处,称为效率元件,由CF1B结合。
- A-rich 基序:位于上游20个核苷酸处,称为定位元件,由CF1A结合。
- U-rich 元件:围绕切割位点,由CPF复合物结合。
PAS本身序列组成也可以影响切割位点的选择
然而,一些结合基序(例如UA-rich和A-rich元件)可能高度退化
highly degenerate指的是这些motif在不同的基因和位置多样性,不保守。有相似的作用但是序列有很大不同
所以需要深度学习去学习一下
切割异质性与APA:
在酿酒酵母中,切割异质性表现为一个切割区域跨越多个核苷酸,与哺乳动物相比更为广泛。这种异质性可能是由于poly(A)位点的微异质性或使用了不同的替代poly(A)位点(APA)。
这两个概念比较容易搞混
Microheterogeneity:一个poly(A)位点附近多个切割点接近,导致添加位置有微笑的差异,一般涉及少数几个核苷酸
APA(Alternative Polyadenylation):同一个基因的不同位置存在多个独立的poly(A)位点,mRNA可以在不同的位点来切割和添加polyA,这样就会产生不同的mRNA异构体,每个异构体有不同长度的3′ UTR
APA能够生成具有不同3′ UTR的mRNA异构体,进而影响mRNA的亚细胞定位、翻译效率和稳定性。这在细胞应激反应期间尤为重要,因为它通过调控mRNA的半衰期来维持稳态。
不同酵母物种间的差异:
- 另一种酵母菌物种Schizosaccharomyces pombe的poly(A)位点序列组成与酿酒酵母不同,且其polyadenylation过程比酿酒酵母更为精确。这表明即使在近缘物种间,poly(A)信号和加工机制也存在显著差异。
表征酵母poly A信号
- 深度学习可以捕捉顺式调控基序之间的动态相互作用并解析序列复杂性。
回答:
高异质性(高切割异质性)和高度退化(高度退化的结合基序)在酵母菌的poly(A)位点形成中存在关联,但它们并不完全等同。
- 高切割异质性指的是在poly(A)位点附近,RNA链被切割的位置分布在一个较宽的区域内,而不是一个精确的点。这意味着在不同的mRNA分子中,poly(A)尾的添加位置会有一定的变动,导致3′端的多样性增加。
- 高度退化的结合基序则指的是在poly(A)位点周围的调控序列(如UA-rich和A-rich元件)缺乏严格保守的序列模式,呈现出高度的序列多样性和变异性。这种序列的多样性使得这些基序在不同基因或不同位置上表现出不同的序列特征。
关联性:
- 高度退化的结合基序导致了poly(A)位点识别过程的不确定性和灵活性,从而促进了高切割异质性的发生。由于调控序列的多样性,内切酶在不同的切割点之间选择的概率变得更高,导致切割位置的分布范围扩大,增加了切割的异质性。
表征sc里的ploya位点的深度学习模型
Data
已发表的3′区域提取和深度测序reads
122.4百万条3′reads
选择了47.6万条支持poly(A)位点的PASS reads
- 原始的质量控制
- 识别3’端特异性特征
将这些PASS reads比对到参考基因组,就可以确定基因组范围内的cleavage sites
通过分析这些位点的读段丰度,识别在编码蛋白基因中高度表达的poly(A)加尾位点
高丰度的reads在某个位点堆积,说明这个位点频繁被转录终止和加尾
由于酵母菌3′端存在广泛的切割异质性(Moqtaderi等,2013),我们采用迭代方法,选择了5491个基因中表达量最高的40,453个切割位点作为代表
- 这些位点的核苷酸分布符合已知特征:总体上富含A/U,A-rich峰位于切割位点上游10–30个核苷酸处,切割位点周围富含U
PolyaClassifier
- PolyaClassifier
- 数据分割
- 上述定义的切割位点周围的序列被用作模型训练的正例
- 我们使用相同数量的随机基因组序列或打乱的核苷酸序列作为负例
- 详细见方法
one-hot embedded序列作为输入
- 一层卷积、一个双向LSTM,捕捉motifs之间的相互作用,和切割位点分类
网格搜索最佳超参数
- 为了应对大量可能的负序列,我们采用了bagging方法,通过三个并行训练的模型取平均预测概率
PolyaCleavage
假设polyA位点序列与切割异质性有关,那么可以通过深度学习来捕捉该调节
- 输入
- 最大切割位点为中心的 500 nt 序列
- 预测
- 中间50nt区域的切割概率分布
- 预测了50nt的值,熵是50nt的总合,反应混乱程度,如果预测的越集中,熵就低,预测的越散,熵就高
a 模型
b 因为观察到的切割熵越高,预测的切割熵就越高,所以把测试集的切割位点氛围均匀的五组
c 引入U 会让切割熵变小 包含侧翼富含UA且周围没有富含U的位点
d 举例c中情况
e 引入AU片段会让切割熵变大
F 举例e中的一个情况
- 可能使用的损失函数
基于上述分析,以下是几种常见的损失函数,适用于类似的多类别概率分布预测任务:
- 分类交叉熵损失(Categorical Cross-Entropy Loss):
- 适用场景:用于多类别分类问题,尤其是当输出为概率分布时。
- 定义:衡量真实分布与预测分布之间的差异。
- 公式:
$$
L=−∑i=1Nyilog(y^i)L = -\sum_{i=1}^{N} y_i \log(\hat{y}_i)
$$
其中,$yiy_i $是真实分布,$y^i\hat{y}_i$ 是预测分布。
- Kullback-Leibler 散度(Kullback-Leibler Divergence, KL 散度):
- 适用场景:用于衡量两个概率分布之间的差异,常用于概率分布的拟合。
- 定义:衡量真实分布 PP 相对于预测分布 QQ 的信息损失。
- 公式:
$$
DKL(P∥Q)=∑i=1NP(i)log(P(i)Q(i))D_{KL}(P | Q) = \sum_{i=1}^{N} P(i) \log\left(\frac{P(i)}{Q(i)}\right)
$$
- 均方误差损失(Mean Squared Error, MSE):
- 适用场景:主要用于回归问题,但也可以用于概率分布的拟合。
- 定义:衡量预测值与真实值之间的平方差。
- 公式:
$$
L=1N∑i=1N(yi−y^i)2L = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2
$$
我想看到二元交叉熵损失(Binary Cross-Entropy Loss)的预测结果,而不仅仅就是0和1