《Systematic identification of wheat spike developmental regulators by integrated multi-omics, transcriptional network, GWAS, and genetic analyses》论文阅读
[toc]
Systematic identification of wheat spike developmental regulators by integrated multi-omics, transcriptional network, GWAS, and genetic analyses
这篇是MP的,属于是堆资源文章,学习一下
多个发育阶段、而且这篇文章在introduction里面已经把这些相关的基因给列出来了
论文:Wheat-RegNet: An encyclopedia of common wheat hierarchical regulatory networks 柑橘是否可以做
小麦是6倍体,基本上3联体的部分都放在附录讨论
补充对论文每一个部分的一个总结,分析这些东西的承上启下的过程,其实很多都是基于原有文献,有些目的基因在分析里面的,是结果但是也是原因
这篇文章确实很值得学习,开发了一个TRN,如果我们可以自己测比较基因组学、转录、GWAS、表型、代谢+使用深度学习算法+开发网站也放在一个里面呢
- 框架
- 第一部分是做了一个altas
- 第二部分是前半发育时期
- 第三部分是后半发育时期
1. 摘要
小麦穗型在决定穗粒数方面的关键作用,进而对小麦育种具有重要意义。主要要点如下:
- 多组学方法:研究结合了小麦年轻穗在八个发育阶段的转录组和表观基因组数据,揭示了在开花过渡期间,染色质可接近性和H3K27me3丰度的协调变化。
- 转录调控网络(TRN):构建了驱动小麦穗型形成的核心转录调控网络,识别并验证了关键调控因子,如TaSPL15、TaAGLG1和TaFUL2。
- 转录因子识别:将 TRN 与GWAS相结合,共识别了227个转录因子,其中42个已知功能,185个功能未知。通过使用多个纯合突变体进一步研究61个新型转录因子,发现了36个调控穗型或开花时间的转录因子。
- 关键调控因子:如TaMYC2-A1、TaMYB30-A1和TaWRKY37-A1等转录因子被发现调控穗型。特别是TaMYB30-A1,通过被WFZP抑制,调控了有效穗小花数。
- 农业意义:TaMYB30-A1的优良单倍型(在WFZP结合位点处含有C等位基因)在中国小麦育种中得到富集,推动了农业性状的改善。
- 小麦穗多组学数据库:创建了一个免费的开放访问数据库(http://39.98.48.156:8800/#/),为未来的小麦穗型发育研究提供支持。
小麦穗型对穗粒数的决定有重要影响,这涉及到小麦穗的结构如何影响每个穗中能结多少粒。具体来说,小麦的穗型决定了每个穗上能够容纳多少个小花,这些小花进一步发育成小粒。
穗型的构成:小麦穗是由许多小花组成的,而每个小花都可能发育成一粒小麦种子。因此,穗型的结构(例如穗的长度、分支的数量和分布等)直接影响着每个穗上能容纳多少小花,从而决定了最终的穗粒数。
影响因素:
花器官的发育:小麦穗上的小花是由穗轴和穗分支上的花芽发育而来。穗分支的数量和每个分支上发育的小花数,决定了穗的最终粒数。
基因调控:穗型和穗粒数的调控受到许多基因的影响,这些基因控制着花芽的分化、分支的形成和花器官的发育等过程。例如,某些基因通过控制穗轴和穗分支的生长,增加或减少穗上的小花数量,从而影响穗粒数。
育种意义:在小麦育种中,通过优化穗型,可以提高每穗的粒数。研究小麦穗型的遗传机制和调控网络,有助于筛选出能够在特定环境下提高穗粒数的基因。通过选择合适的基因型,可以培育出穗粒数更多、产量更高的小麦品种。
穗型不仅影响穗的结构,还与穗粒数直接相关,因此研究穗型对穗粒数的调控机制,是小麦高产育种的重要方向。
2. Introduction
2.1 小麦穗型的发育过程
小麦的经济重要性:小麦是全球重要作物,占人类热量和蛋白质消费的20%以上。
穗型结构与产量:小麦的穗型是其重要的产量决定因素,穗型的发育影响穗粒数(GNPS)。小麦的穗是由多个无柄小穗组成的复合穗。
穗型发育过程:穗的发育从分生组织(如顶端分生组织)开始,经历多个发育阶段。首先,射线分生组织(SAM)生成叶、节点和茎间原基,再转化为花序分生组织(IM)。IM发育形成双脊结构,产生小穗分生组织(SM),随后形成小穗的各个原基(如穗片、颖片、花原基等)。
小穗的排列与小穗的肥力一起决定了每个穗的粒数 (GNPS),这是三个主要产量成分性状之一
2.2 最近的一些基因研究
PPD1、FT1、FT2:共同调控穗发育的过渡与持续时间。
MADS-box 转录因子(如VRN1、FUL2、FUL3):调控小穗分生组织的身份。
TaTB1、WAPO1:调控小穗的形成及其数量。
WFZP:影响小穗数目和身份。
SPL基因(如TaSPL13-2B、TaSPL14):调控小穗数量。
2.3 最近的技术进步
测序技术的进展
GWAS:大规模的GWAS利用SNPs已帮助识别与小麦穗发育性状(如穗长、每穗小穗数、穗粒数、结实性和穗紧凑度)相关的遗传位点
- GWAS的局限性:由于连锁不平衡,GWAS单独使用无法提供因果变异和基因的深入见解。
基因共表达网络:为了解决这个局限性,通过利用阶段特异性转录组数据和群体RNA测序(RNA-seq),基因共表达网络帮助识别关键调控因子。
表观遗传学的研究进展:研究发现了与小麦组织特异性或应激诱导基因表达及子基因组偏倚表达模式相关的染色质特征。
- 组织特异性表达:某些基因只在特定的组织或细胞类型中表达
- 应激诱导基因表达:某些基因只在特定环境条件下表达。这种基因的激活也与染色质的改变有关,比如染色质松散或染色质修饰的变化。
- 子基因组偏倚表达:小麦是一个多基因组植物,拥有多个基因组(通常是三倍体)。在这些基因组中,某些基因可能只在某个基因组中表达或在不同的基因组之间表达的强度不同,这种差异被称为子基因组偏倚表达。
基因调控网络预测:
- 通过整合基因表达、染色质特征和转录因子结合位点,预测了基因调控网络,这为研究提供了更深层次的理解。
- 整合转录组学、表观遗传和TF binding sites
- Wheat-RegNet: An encyclopedia of common wheat hierarchical regulatory networks
- GWAS与基因调控网络的结合:将作物性状的GWAS分析与基因调控网络结合,可以增强对相关基因位点的候选基因识别。
- A wheat integrative regulatory network from large-scale complementary functional datasets enables trait-associated gene discovery for crop improvement
2.4 研究目标
本文旨在提高对小麦穗发育过程中染色质景观与转录组动态之间相互作用的理解。通过对小麦优良品种Kenong 9204(KN9204)在不同发育阶段的转录组和表观基因组进行综合分析,结合穗发育特异性的共表达与调控网络以及GWAS,识别出影响小麦穗型结构的关键因素。
基因验证与育种分析:进一步做实验验证了多个新基因,进行了深入分析,以揭示这些调控因子的潜在功能,并分析育种过程中发生的等位基因选择过程。
3 A transcriptome and chromatin landscape atlas for 小麦穗development
landscape atlas是一个比较模糊的概念,一般来说对一个品种/人种测了特别组织/部位、不同阶段的转录组、表观遗传、蛋白、代谢、基因组这样就可以叫做一个atlas
- 样本和发育阶段:研究采集了冬小麦品种KN9204的8个发育阶段的样本,包括SAM(W0),过渡顶端(W1.5),早期双脊阶段(W2),双脊阶段(W2.5),颖片原基阶段(W3),外稃原基阶段(W3.25),花原基阶段(W3.5)和晚终端穗小段阶段(W4)。这些阶段的命名参考了Waddington等人(1983)的分类。
- 使用的数据:
- RNA-seq 用于分析基因表达。
- ATAC-seq 用于分析染色质的可及性,即染色质在特定基因区域的开放状态,这可以反映基因的活跃程度。
- each histone modification:每个组蛋白修饰 CHIP-seq
- 生成的所有数据集显示出良好的重复性和高信噪比,所有样本的Pearson相关系数≥0.95,FRiPs得分≥0.3,符合已发布的标准(Fu et al., 2022)。
3.1 展示RNA-seq、ATAC-seq和组蛋白修饰
- 图1A:
- 只是表示了一下
- 没有颜色的部分表示该特定阶段缺少该类型的数据样本
- 补图1A:
- 基因名:TaDEP1-D1
- Ta代表小麦(Triticum aestivum)
- 基因叫做TaDEP1
- “D1” 表示它属于小麦基因组的D染色体组分之一
- Ensembl标识符:TraesCS5D02G216900
- 基因名:TaDEP1-D1
- 衡量表观遗传数据质量的指标
- FRiP (Fraction of Reads in
Peaks):位于染色质开放区域或特定标记区域(如组蛋白修饰或转座酶易接触的区域)的DNA读取的比例。
- 评估signal-to-noise ratio
- 如果FRiP值为0.3,意味着30%的测序读取来自染色质开放或功能性区域,这些区域通常与转录因子结合或基因激活密切相关。
- Pearson 相关系数
- 不同样本之间的测序数据相关性,衡量不同样本之间的数据一致性
- FRiP (Fraction of Reads in
Peaks):位于染色质开放区域或特定标记区域(如组蛋白修饰或转座酶易接触的区域)的DNA读取的比例。
3.2 转录组数据初步展示分析
图1B、1C、1D
(B) 显示不同发育阶段的转录组数据的主成分分析 (PCA)。每个样本都由一个点表示,刺突发育阶段由不同的颜色区分。每个阶段对三个生物学重复进行测序。
(C) 按 k-means 聚类排序的阶段特异性高表达基因的热图。列出了每个簇的基因编号和代表性基因。
(D) W0、W2 和 W4 阶段特异性高表达基因的 GO 富集。每个术语的 FoldEnrichment 由点大小表示,颜色表示调整后的 p 值。1
补充表1:鉴定了 58875 个高置信度genes,至少在一个阶段表达 (TPM > 0.5)。
总共有八个阶段,分为两组(补充图1c还聚类说明了一下)
- 营养到开花的过渡期(W0、W1.5、W2、W2.5)
- 生殖生长期(W3、W3.25、W3.5、W4)
先是PCA来降维表示了一下,说实话没搞懂这波操作,好歹解释一下两个主成分的意义,不然为啥用PCA,不能用t-SNE么
对5万个基因使用k-means 聚类分成10类
- 其中8类分别是在八个时期富集的,共 45 427个阶段特异性高表达基因
- GO富集分析,结果在补充表2
- 这里是分别对不同的类的基因进行富集分析,这样会不会有什么问题??(思考),意思是他这样已经筛选出来了差异表达的基因,而不是单独做DEGs,因为有很多组(两组以上)??
- (问题),为什么只分析了其中三个阶段,是因为富集的结果比较突出吗,还是放不下了
- W0阶段:与组织极性相关的GO术语富集。
- W2阶段:与营养生长期转换相关的GO术语富集。
- W4阶段:与器官身份相关的GO术语富集。
- W2.5至W3.5阶段:主要参与生物合成调控、植物激素响应、细胞增殖和分生组织发育。
- 根据之前的文献得知这些重点的相关基因分别在哪些类里并且简单说明了一下,关键基因表达:
- PPD1:控制开花时间,在开花过渡前表达。
- WAPO1:维持小穗分生组织活性,在W3阶段高表达。
- TaTFL1:与每穗小穗数(SNS)相关,在W3.25和W3.5阶段高表达。
- TaAGL6:花器官调控因子,在W4阶段高表达。
- 形态学转变与差异表达基因(DEGs)
- 补充图1D、补充表3
- 差异基因表达分析:两两阶段之间进行DEGs,上调和下调
- W2.5到W3、W3到W3.25、W3.5到W4阶段的形态转变伴随着大量DEGs的出现,这些转变对应着颖片原基、外稃原基和雄蕊原基的启动。
- 同源三联基因组表达分析:图1F、1G
- 六倍体小麦的同源三联基因组:大多数三联体(68.2%–69.5%)表现为平衡型,单同源基因抑制型三联体比单同源基因优势型三联体更常见。
- 同DEGs三联体:类似模式,但平衡型三联体较少,优势型和抑制型三联体比例较高。
- 涉及到这个三联基因组的东西我们就先不学了
3.3 表观遗传分析
图1E、1F、1G
(E) ATAC-seq 和各种组蛋白修饰相对于基因的峰分布。
(F) 小麦穗发育过程中近端区域(启动子和基因区域)的染色质可及性动力学。RPKM 用于数据归一化。
(G) 代表性基因的基因表达、染色质可及性和 H3K27me3 的动力学。y 轴、Z 尺度基因表达的相对值、染色质可及性和 H3K27me3 水平。显示了 ATAC-seq (红色) 和 H3K27me3 (绿色) 的 Pearson 相关系数 (PCC) 与表达水平。
3.3.1 染色体可及性分析
1E:小麦中accessible chromatin可及染色质区域主要位于远端基因间区和启动子区域,与之前的研究结果一致
远端基因间区域(Distal Intergenic Regions):指位于两个基因之间的DNA序列,不包含编码蛋白质的基因本身。远端基因间区域特指那些距离基因较远的基因间区域,通常位于基因启动子上游或下游较远的位置。这些区域虽然不直接编码蛋白质,但它们包含许多增强子(Enhancers)和沉默子(Silencers)等调控元件
- 1E:ATAC-seq和组蛋白修饰峰分布:分析了ATAC-seq和不同组蛋白修饰在基因附近的峰值分布。
转录起始位点 (transcription start site, TSS) 周围的染色质可及性与基因表达呈正相关(补充1H)
TSS和启动子关系
位置关系:启动子位于TSS的上游,是RNA聚合酶和转录因子的结合区域,直接影响TSS处的转录起始。
功能关系:启动子通过其特定的DNA序列和结合的蛋白质,调控转录因子和RNA聚合酶的结合,从而控制基因在TSS处的转录活性。
染色体可及区域随发育阶段的变化
- 小麦穗发育过程中,染色质可及性呈现大致连续的变化轨迹,发育阶段被分为五个子簇(补充图1I和1J)。
- 从营养生长期到开花过渡和花序启动阶段,TSS周围的染色质可及性增加,随后下降(图1F和补充图2A)。
- 图1F小麦穗发育过程中近端区域(启动子和基因区域)的染色质可及性动力学。RPKM 用于数据归一化。
- 同时,具有非平衡染色质可及性的三联体比例先增加后减少,开花过渡阶段的非平衡表达比例较高(补充图2B)。
- 小麦穗发育过程中,染色质可及性呈现大致连续的变化轨迹,发育阶段被分为五个子簇(补充图1I和1J)。
补充图2AB
解释一下补充图2A
- 矩阵中的差异可及区域(DARs)跨发育阶段的分布
- 差异可及区域(DARs, Differentially Accessible Regions):DARs是指在不同发育阶段之间,染色质可及性(chromatin accessibility)发生显著变化的基因组区域。
- DAR矩阵的构建:
- 矩阵结构:矩阵的行和列分别代表不同的发育阶段。每个矩阵单元表示两个发育阶段之间的差异可及区域数量。
- 上三角和下三角的表示:
- 上三角(Upper-Triangle)浅红色(light red),表示与前一个发育阶段相比,染色质可及性增加的DAR数量。
- 例子:如果某一单元格位于上三角部分,且数值为100,则表示从前一个阶段到当前阶段,有100个区域的染色质可及性显著增加。
- 下三角(Lower-Triangle):浅蓝色(light blue),表示与前一个发育阶段相比,染色质可及性减少的DAR数量
- DAR的定义标准:
- |log2(Fold Change)| ≥ 1:表示染色质可及性的变化至少为2倍(上调或下调)。确保选取的DAR具有生物学上显著的变化,避免由于微小变化带来的噪音。
- FDR ≤ 0.05:假发现率(False Discovery Rate)小于或等于5%。确保统计学上的显著性,减少因多重比较导致的假阳性结果。
- DiffBind:DiffBind是一个用于分析染色质可及性数据(如ATAC-seq、DNase-seq)的R包,通过比较不同样本之间的染色质开放状态来识别DARs。
- 提供了标准化的方法来确定不同发育阶段之间的显著染色质可及性变化区域。
3.3.2 组蛋白修饰分析
在W0、W2.5、W3、W3.25和W4阶段,利用CUT&Tag(Cleavage Under Targets and Tagmentation)技术分析了染色质可及性子簇中的组蛋白修饰(图1A和补充图1A)。
CUT&Tag是研究蛋白和DNA互作新兴的实验方法
数据集显示出良好的重复性和高信噪比(补充图1B)。
组蛋白修饰的富集情况:H3K27ac、H3K4me3和H3K36me3在TSS周围与基因表达呈正相关,而H3K27me3则富集在低表达或无表达基因的基因体内(图1E和补充图1H)。
不同的组蛋白修饰之间的一个关系:H3K27me3与H3K36me3互斥,而H3K4me3与H3K27ac呈正相关(补充图2C)
各种组蛋白修饰在不同发育阶段表现出特异性的转变:
选取了其中一个组蛋白修饰进行展示,H3K27me3在基因表达调控中起重要作用(补充图2D和2E及图1G)。
选取了代表性基因进行展示
1G:代表性基因的基因表达、染色质可及性和 H3K27me3 的动力学
基因表达、染色质可及性和H3K27me3的动态变化:通过展示代表性基因的表达、染色质可及性和H3K27me3修饰的动态变化,揭示了它们之间的相关性。
- 补充图2D、E,各种组蛋白修饰在发育阶段表现出阶段特异性转换
3.3.4 三联体的染色质景观
- 补充图3:
- 小麦中表达不平衡的同源三联体基因(homoeolog triads)的染色质景观(chromatin landscape)
A. 表达不平衡三联体基因的基因体周围的染色质可及性和组蛋白修饰的元基因谱
内容说明:
Metagene Profile(元基因谱):这是一个汇总多个基因数据的图,展示在基因体周围(即基因的编码区域及其邻近区域)染色质可及性和组蛋白修饰的平均模式。
表达不平衡三联体:
主导型三联体(Dominant Triads):
Dominant Homoeologs(主导同源基因):以绿色表示。
Non-Dominant Homoeologs(非主导同源基因):以浅绿色表示。
抑制型三联体(Suppressed Triads):
- Suppressed Homoeologs(抑制同源基因):以紫色表示。
- Non-Suppressed Homoeologs(非抑制同源基因):以浅紫色表示。
数据处理:
- RPKM 归一化:通过每百万读数转录本(Reads Per Kilobase Million)方法对组蛋白修饰信号进行归一化处理。
- 10 bp 分箱:将基因体周围的区域按每10碱基对(bp)进行分箱,以细化信号的展示。
分析与意义:
- 活跃标记(如H3K27ac、H3K4me3):与基因激活相关。
- 抑制标记(如H3K27me3):与基因抑制相关。
- 表达不平衡:通过区分主导和抑制同源基因,揭示不同同源基因在染色质状态和组蛋白修饰上的差异,进而解释其表达水平的不平衡。
B. 不同亚基因组(A、B、D)中主导、非主导、抑制和非抑制三联体基因的染色质可及性和组蛋白修饰的元基因谱
内容说明:
Metagene Profile(元基因谱):类似于部分A,但进一步细分到不同亚基因组(A、B、D)的同源基因。
亚基因组分类:
- 主导同源基因:
- A亚基因组:绿色
- B亚基因组:紫色
- D亚基因组:橙色
- 非主导同源基因:
- A亚基因组:浅绿色
- B亚基因组:浅紫色
- D亚基因组:浅橙色
- 主导同源基因:
数据处理:
- 同样使用RPKM归一化和10 bp分箱方法处理组蛋白修饰信号。
分析与意义:
- 亚基因组特异性:通过区分不同亚基因组的同源基因,揭示了A、B、D三个亚基因组在染色质状态和组蛋白修饰上的差异。
表达调控差异:
- 主导同源基因:通常具有更高的染色质可及性和更多的活跃组蛋白修饰,表明这些基因在特定发育阶段更活跃。
- 抑制同源基因:表现出较低的染色质可及性和更多的抑制性组蛋白修饰,表明这些基因在特定发育阶段被抑制。
- 亚基因组间的差异:B亚基因组的组蛋白标记普遍低于A和D亚基因组,可能反映出不同亚基因组在基因表达调控中的不同角色和重要性。
4 宽松的chromatin status acilitates the vegetative-to-reproductive transition
从营养生长阶段(vegetative)到生殖生长阶段(reproductive)的染色质状态的变化及其与基因表达的关系
1F:过渡期间TSS 周围的染色质可及性总体增加
4.1 分析了不同阶段的DAPRs
2A、2B、2C、2D、2E
- 找出DAPRS区域并且聚类
- 分析了不同阶段的染色质开放性模式
- 分析了染色质开放性与基因表达的相关性:
- 主要是证明2、3、4、6这些簇这些区域的染色质开放性与对应的基因表达相关性
- 筛选出了基因集I,从vegetative到reproductive时间段,染色质开放性跟基因表达同步上升的基因集
- 对基因集I富集分析
DAPRs:differentially accessible promoter regions (DAPRs, 3-kb upstream of the TSS) ,TSS上游3 kb区域的差异开放启动子区域
检查了W0 、 W1.5 、 W2 、 W2.5 和 W3的DAPRs,总共49153 个个区域,并且分为6个簇
- 挑选过程
- 补充表4(4A、4B、4C一直到4J)
- 两两对比,选出了P<0.05,反正就是有显著变化的区域作为DAPRs,具体咋选的代码我也不清楚
1 | SAM_vs_W1.5 |
- 2A( 样本中DAPRs的 K-means 聚类):
- 大多数 DAPR 在 W2.5 或 W3 阶段显示出可访问性增加,包括集群 2、3、4 和 6
- 2B(2A中每个簇的染色质可及性(红线)和基因表达(绿线)动态。R
值,Pearson 相关系数)
- 发现2、3、4、6 这四个簇中的基因在染色质可及性和转录变化之间表现出很强的正相关
- 补充4A、4B还展示了对于某些 triads三联体
- 染色质可及性在 W2-W2.5 和 W2.5-W3 阶段从平衡转变为抑制,然后在 W3-W3.25 过渡回平衡状态
- 2C和补充表6(3个基因集)
- 获得染色质可及性的基因重叠(蓝色圆圈,[**A]** 中的簇 2、3、4 和 6)
- 表达增加的基因(红色圆圈,W2.5 和 W3 的表达与 W0 相比增加)
- 延迟上调的基因(绿色圆圈,在
W3.25、W3.5 和 W4 时上调)
- 暂时先没有分析,注意是W3之后的阶段的
- 基因集 I: 红色和蓝色圆圈的共享基因
- 主要是先分析了这个基因集,就是DAPRs区域染色质可及性增加,同时对应的基因在W2.5 和 W3 的表达与 W0 相比增加
- 包含1920个基因的基因集
- 基因集 II: 红色和绿色圆圈的共享基因
- 引发基因,见下一部分
- 基因集 III:蓝色圆圈中的剩余基因。
- 大部分基因
- 超几何测试用于计算基因集 I 和 II 富集的 p 值
- 染色质开放性与基因表达的相关性:
- 发现染色质开放性与基因的转录变化之间有强正相关(R > 0.5)。具体来说,在W2.5或W3阶段染色质可接近性增加的基因,显示出与W0相比表达水平的增加。
- 2D
- 对于基因集 I的基因,把1920个基因分成50组,计算了一下染色质可及性增加的程度和表达水平增加的倍数的相关性,R=0.85
- 补充4C
- 对基因集I进行了一下生物学重复的ATAC-seq和RNA-seq数据的展示
- x是三个时期和生物学重复
- y轴上的不太清楚,可能是又聚类了吧,文章里也没说
- 2E:对基因集I进行GO富集分析
- 主要是富集在在激素合成和信号传导、IM身份和不对称细胞分裂这些Terms上
- 激素合成和信号传导:调节植物的生长、发育以及对环境变化的响应
- IM身份(Immune Identity):这可能指的是植物免疫系统的相关基因
- 不对称细胞分裂:在植物的发育过程中,不对称细胞分裂是一个非常重要的过程,它可以产生具有不同功能的细胞。这在植物的器官形成和组织发育中起着关键作用。例如,在植物的胚胎发育或某些特殊组织的形成中,不对称分裂可以确保细胞的不同命运和功能。
4.2 染色质开放引发未来的基因激活
基因集II: 3435 个基因,这些基因在W2.5 或 W3获得了染色质可及性,但是在W3之后才开始表达量上调,表达的变化滞后
- 补充4D是基因集II的GO富集、4E是基因集III的GO富集
- 基因集 II:
- 主要与激素代谢、花器官身份和分生组织发育相关。
- 基因集 III:
- 获得了染色质可接近性,但在采样的穗发育阶段没有相应的mRNA水平变化。
- 与极性指定、细胞大小调控、翻译或蛋白质运输调控相关。
- 基因集 II:
说明只有染色质开放本身并不足以直接激活基因表达,结合参考文献说明,这些基因的表达模式,可能处于“预备”转录状态。
4.3 H3K27me3与三个基因集的转录模式关系
2F、2G
2F:基因集 I、II 和 III 分别在W0、W2.5 和 W3三个时期的基因的染色质可及性(虚线以上)和 H3K27me3(虚线下方)水平变化。RPKM 用于数据归一化。
2G: 显示 VRN-B1 (基因集 I,左)、WAP3-B1 (基因集 II,中) 和 TaEHD2-A1 (基因集 III,右) 的表达、染色质可及性和组蛋白修饰动力学的基因组轨迹。y 轴表示每个数据集的 RPKM 值。
- 2F:组蛋白修饰 H3K27me3 与基因集 I、II 和 III 的转录模式密切相关
- 基因集 I
- 在 W0 阶段表现出较高的染色质可及性,在 W2.5 和 W3 阶段显着增加,伴随着 H3K27me3 水平在 W2.5 阶段的降低
- 例子(2G):开花促进因子VRN1基因(代表位点:VRN-B1)在其启动子区域和第一个内含子区域的染色质可接近性增加,同时H3K27me3水平下降,这些变化对于调节VRN1基因的转录非常重要。【需要查阅一些文献】
- 基因集 II
- W3和W3.25阶段,基因集II的染色质可接近性增加,但开放程度相对较低,且H3K27me3水平未显著变化。
- 这些基因处在引发的转录状态,其中基因表达随着后期 H3K27me3 的减少而增加
- 例子:小麦 APETALA3-B1 (WAP3-B1)基因【需要查阅一些文献】
- 基因集III
- 染色质可接近性最低,并且H3K27me3的覆盖范围最大,这限制了基因的激活。
- 例子:以TaEHD2-A1基因为例,这表明H3K27me3修饰在这些基因中起到了抑制转录的作用。
- 基因集 I
补充图4F,展示了其他的几个组蛋白修饰的图,可以看到只有正文2F图里面的H3K27me3
是在三个时期有一些差别的,别的基本都没什么差别
2. 染色质开放性与基因表达的相关性:
• 基因表达与染色质开放性的相关性:使用Pearson相关分析,研究发现基因表达增加与染色质开放性的增加高度相关(图2D)。
• GO分析:基因集I富集在激素代谢、花器官身份和分生组织发育等生物过程(图2E)。
3. H3K27me3修饰的作用:
• H3K27me3与基因表达的关系:H3K27me3修饰与基因集I、II和III的转录模式密切相关(图2F)。基因集I的基因在W0阶段表现出较高的染色质开放性,并在W2.5和W3阶段显著增加染色质开放性,同时H3K27me3水平下降(图2F)。
• 基因集III的特征:基因集III显示最低的染色质开放性和最高的H3K27me3修饰,限制了基因的激活。
5 促进 spike architecture形成的 转录调控网络
先研究差异表达基因,然后针对基因簇跟给它们相关的TF
基因簇内的基因往往受相同或相似类型的转录因子调控。这些转录因子通过与基因启动子区域的顺式作用元件结合,共同调控基因簇的表达。
5.1 穗状花序最终形成部分转录调控分析
研究的是W3-W4时期
W2.5之前:植物开花过渡
花序经历的多个发育阶段,最终进入终端穗状花序阶段(W4),W4定义了最终的SNS(穗大小性状),对谷物产量产生重要影响。
对于W3-W4的四个阶段,通过PCA构建了伪时序的发育轨迹,其中W3.25和W3.5阶段表现出紧密的关系,在第一个主成分上面距离很近
同时对于四个阶段之间分别计算得到8200个差异表达基因(DEGs),聚成6个簇
- 补充表7:看了表,是两两之间分别进行计算的,然后再汇总,再聚类成6个簇
- 图3B:
- 数据说明:
- 对6类分别进行富集
- 热力图 RNA-seq数据
- 代表性基因
- 分析
- W3阶段:与花序胚性决定和激素代谢相关的基因高度表达。
- W3.25和W3.5阶段:与激素信号传导和极性建立相关的基因活跃。
- W4阶段:与花器官身份和极性指定相关的基因表达升高。
- 数据说明:
- 图3C:
- 每个类中富集的 TF families and GO terms
- (问题:咋还能用词云展示呢这里)
- 分析
- W3阶段:ERF和WRKY转录因子(TFs)在簇3和簇6中富集且高度表达。
- W3.25和W3.5阶段:NF-Y和SBP转录因子在簇2和簇4中富集。
- W4阶段:MADS-box转录因子在簇5中突出表现。
5.2 构建调控转录网络TRN
识别TF motif、TF及其靶基因的共表达模式
整合 ATAC-seq 和 RNA-seq 时程数据构建了转录调控网络 (transcriptional regulatory network、TRN)
- 补充图5A5B、详情可以见参考方法“Pseudotime indexing and gene
regulatory network construction”
- 先通过ATAC-seq来找出识别位点,把里面的motifs序列去跟motifs-转录因子数据库里进行序列比对匹配,从而找出对应的转录因子
- 这涉及到将基因的转录因子和靶基因表达模式结合,识别转录因子结合的顺式作用元件,从而构建调控网络。
- 鉴定了 5106 个TF/靶基因,包括 36908 对(关系数)
TF-靶基因相互作用,其中 4916 对涉及 TF
之间的调节
- 与小麦穗结构形成相关的转录调控网络
- 网络揭示了多个转录因子如何调控小麦穗的发育,特别是与花序和穗的形态建成相关的基因
- 补充图5A5B、详情可以见参考方法“Pseudotime indexing and gene
regulatory network construction”
并且在他们的网站里也展示了一下TRN
正文图3D
通过TRN展示了基因簇的序列性调控关系:
- 在W3至W3.5阶段,基因簇C6、C3、C2、C4之间展现了明确的序列性调控关系,C6-C3-C2-C4
- W4阶段特异性表达的基因簇C1和C5则独立调控,表明穗和花序发育的调控网络有所不同。
核心调控转录因子:
在TRN中,ERF、B3、TCP、DOF和MIKC-MADS等转录因子家族的靶基因数量最多,支持它们在调控网络中的核心作用。
补充图5C
- 每个转录因子家族在转录调控网络(TRN)中的目标基因平均数量。
- 圆圈的大小表示目标基因的数量
根据以前的文献
- 识别了参与小麦穗发育的已功能性鉴定的转录因子,如TaTB1、VRN1、TaFUL2和TaFUL3等。
调控转录网络预测流程:
- ATAC-seq数据:用于识别开放的染色质区域,这些区域通常是转录因子的结合位点。
- Motifs识别:在开放的染色质区域中,通过寻找特定的DNA序列(motifs)来预测转录因子(TF)可能的结合位点。
- RNA-seq数据:提供基因在不同时间点的表达量信息,结合TF的活跃时间点,确定TF与基因之间的调控关系。
- 构建转录调控网络(TRN):基于TF与靶基因之间的调控关系,形成一个庞大的网络,每个TF和其靶基因是网络中的节点。
- 实验验证:通过原位杂交和荧光素酶报告基因实验,验证预测的TF与靶基因之间的调控关系。
5.2.1 实验验证
为了评估 TRN 的预测能力,我们提取了一个模块,其中包含已单独研究但没有已知调节关系的因子
从文献里获取的一些
正文图跟附录图是一一对应的
原位杂交实验:
- 通过原位杂交分析了这些因子的时空表达谱。
- TaSPL15在IM(W3阶段的红色三角形)和SM(W3和W3.5阶段的蓝色三角形)阶段表达强烈。
- TaAGLG1和TaFUL2在SM阶段高表达,重金属ATP酶(TaHMA),作为TaFUL2的潜在下游靶基因,也在SM阶段表达。
调控模块的推测:
- 观察到的时空表达模式和开放染色质区域中的特定motif提示TaSPL15‒TaAGLG1‒TaFUL2‒TaHMA模块可能存在正向调控层级。
荧光素酶报告基因实验:
- 通过烟草叶片中的荧光素酶(LUC)报告基因实验,确认了这些因子之间的正向转录调控回路。
- 这种调控依赖于转录因子(TF)与顺式作用元件(cis motifs)的特定识别。
基因表达调控验证:
- 实验中,TaAGLG1在TaSPL15-RNAi小麦中的表达显著下调,TaFUL2在TaAGLG1-OE小麦中的表达上调。
- 这些结果验证了TRN模型有效预测了TFs之间在穗发育过程中的调控关系。
5.2.2 跟别的算法对比
A、UpSet交集图,展示不同项目中开放染色质区域的重叠部分。
B、wGRN和我们构建的TRN之间共享的表达基因、重叠基因、转录因子(TF)及其调控关系的概述。
C、TF及其预测靶基因在每个时间序列穗 transcriptome 数据集中的表达Pearson相关系数(PCC)值分布(本研究中的RNA-seq,左面板;Chen等,2023中的RNA-seq,中面板;Li等,2018中的RNA-seq,右面板)。TF与其预测靶基因在各个阶段的表达相关性是通过Pearson相关分析计算的,并且所有TF-靶基因关系的PCC绝对值用于绘图。为了消除时间差异和样本数量对PCC计算的干扰,使用wGRN RNA-seq数据中的八个早期发育阶段进行分析。
D、曲线图展示每个TF与结合位点(蓝色)的靶基因数,以及该结合位点位于开放染色质区域中的情况
E、duo-B1突变体的差异表达基因(DEGs)与我们TRN和wGRN中预测的DUO-B1靶基因的重叠情况。超几何检验用于计算富集的P值。 F、在调控模块(TaSPL15-TaAGLG1-TaFUL2-TaHMA)中的一些调控关系在wGRN中缺失。 G、已知的与小麦穗发育相关的基因、在wGRN中识别的对SNS差异有贡献的关键调控因子以及我们TRN中识别的关键调控因子的重叠情况。数字表示合并同源基因的唯一基因数。
看这篇论文暂停,去看一下下面这俩篇,沉淀一下转录调控网络相关的知识
A wheat integrative regulatory network from large-scale complementary functional datasets enables trait-associated gene discovery for crop improvement
A wheat integrative regulatory network from large-scale complementary functional datasets enables trait-associated gene discovery for crop improvement
自问自答
- 3.2 图1B
- Q:这里的PCA的主成分相当于是对基因??有点没搞懂,然后还有三个生物学重复是啥,跟表格的关系,还有就是PCA的意义分析呢,不知道意义是什么
- A:这里意义大概就是证明三组生物学重复可以聚集在一块地方,然后8个类别可以分开
- 3.2 两组以上做DEG
- Q:这里是分别对不同的类的基因进行富集分析,这样会不会有什么问题??(思考),意思是他这样已经筛选出来了差异表达的基因,而不是单独做DEGs,因为有很多组(两组以上)??
- A:他这里是两个都做了,对聚类的结果,10类每一类的基因去做GO富集,听上去挺合理的。另外他也做了两两阶段之间的一个DEGs展示,但是没有进行进一步的富集分析。
- ANoVA
- WGCNA
- (问题),为什么只分析了其中三个阶段,是因为富集的结果比较突出吗,还是放不下了
- 估计两个原因都有
- 在做这些分析的时候,转录组、表观遗传的时候,正负链,还有同源基因是怎么处理的,比如二倍体、三倍体、六倍体,是混合在一起计算,还是同源基因合并成一个呢
- ATAC-seq一般不分两个链来考虑,CHIP-seq可能分两个链考虑,要看具体的测序原理
- RNA-seq一般几倍体、几种单倍型应该是做平均,反正是合成一个
- 一般拷贝数变异啥的只在比较基因组学里需要分析,对于RNA-seq的话,应该计算的方法自己有考虑这个问题
- 一般来说是不用分几倍体讨论的,因为测序一般测不到表达量是来自于哪个染色体的。
- 一般同源二倍体,就是当作单倍型来看的。这里小麦是6倍体,所以比较复杂,要分析三组
- 群体RNA-seq是什么
- ATAC-seq测序测的开放的染色质区域一般是代表基因的启动子区域或增强子区域嘛,为什么没有说可能是正在转录的区域呢,是因为正在转录的区域是偶尔才开,启动子、增强子区域一般是经常开的么
- 我在看一个转录调控网络的构建,然后是根据染色质开放区域里面的motif来寻找对应的转录因子和靶基因,然后来构建转录因子和靶基因之间的对应关系,我想知道是怎么确定这个靶基因的,就是靠RNA-seq看当时是否在表达嘛。但是如果这个区域是启动子,那不就也是某个基因的启动子,还有位置的因素应该也是被参考的吧
- 具体的算法要看一下别的一些论文,可以理解一下