小麦转录调控网络
一篇:A wheat integrative regulatory network from large-scale complementary functional datasets enables trait-associated gene discovery for crop improvement
另一篇:Wheat-RegNet: An encyclopedia of common wheat hierarchical regulatory networks
[toc]
整合这些RNA-seq数据是一个很重要的事情,网站的Jbrowse里面记录了有哪些数据,method里面有处理方法
参考一下做这个的意义,对于柑橘或者其他物种,哪些需求是需要的。这个网站的哪些需求是真的需要的
第一篇主要是就用了一个参考基因组,应该就只用了一个品种(?),到时候看看可不可以整合多个品种多个阶段的自己的数据,需要看methods
A wheat integrative regulatory network from large-scale complementary functional datasets enables trait-associated gene discovery for crop improvement
来自大规模互补功能数据集的小麦综合调控网络支持性状相关基因发现,用于作物改良
文章主要内容:
- 构建小麦的综合调控网络,使用了RNA-seq、ATAC-seq&DNase-seq、DAP-seq等等数据。使用7个独立网络和集成推理,构建了wGRN,包含720万条基因组范围内的interactions和5947 TFs和 127,439 target genes
- 对wGRN的interactions预测进行五个不同方面的验证和评估
- 利用wGRN,进行一些TFs的功能推断预测、对于特定基因的功能推断,预测小麦全基因组的pathway
- wGRN能够根据GWAS中鉴定的QTL,不依靠注释信息,而是依靠调控关系,从中优先筛选出与性状相关的高可信度候选基因
- 自己测的数据集合:整合独立的spike时间序列转录组数据集,构建独立的、高分辨率、更细致的调控网络
- 使用XGBoost实现了TFs-表型的预测,其中选用哪些TFs数据是根据wGRN筛选出来的,这里我觉得很妙,可以详细看section7的notes
- 搭建了一个web平台
利用wGRN发现了很多新的功能相关调控关系,并进行了实验验证
摘要
- 研究背景
- 基因调控是生物生长的核心,理解基因调控对揭示复杂性状的生物学过程至关重要,尤其在作物改良中。
- 当前,大规模功能数据集与性状相关基因发现的连接仍有不足。
- 研究目标
- 构建一个小麦整合基因调控网络(wGRN),利用多种补充功能数据,将基因调控信息与性状相关基因发现联系起来。
- 方法与数据
- 数据来源:
- 更新的小麦基因组注释。
- 多种功能数据集:基因表达、序列motifs、转录因子(TF)结合、染色质可及性、进化保守调控。
- 网络内容:
- 包含720万条基因组范围内的交互信息。
- 涉及5947个转录因子(TF)和127,439个靶基因。
- 验证手段:
- 已知的调控关系。
- 条件特异性表达。
- 基因功能信息。
- 实验数据。
- 数据来源:
- 关键发现
- 基因功能分配与优先级排序:
- 利用wGRN,将全基因组基因分配到3891个生物学路径中。
- 精确筛选基因组关联研究(GWAS)中的候选基因。
- 穗部性状研究:
- 使用穗部时间动态转录组数据,构建高分辨率网络。
- 鉴定了新型调控因子,提高了穗部性状预测的准确性。
- 揭示了现代小麦品种中穗部性状差异的潜在调控机制。
- 机器学习应用:融入机器学习方法,强化性状预测。
- 基因功能分配与优先级排序:
- 研究意义
- 建立了用于探索基因调控和发现性状相关基因的整合资源。
- 提供了一个交互式网络平台(wGRN),供社区研究者使用。
- 推动了大规模功能数据在作物性状改良中的应用。
1 Introduction
Plant development and environmental adaptation depend on the flexible control of gene expression in time and space
TFs跟motifs结合,调节下游的靶基因的表达
gene regulatory network (GRN)由TFs跟motifs组成,它们之间的相互关系连接组成了GRN。
1.1 GRN
GRN重要性
GRN控制了植物所有的生物过程,提供了调节生物过程的分子与复杂表型性状之间相互作用的整体视图。
GRNs 是理解植物复杂生物通路的关键。
通过研究GRNs,可揭示和精准设计有益的性状。
- 最近研究通过删除水稻的基因调控元件,调整调控网络,成功解决了每穗粒数与分蘖数之间的权衡问题。
Targeting a gene regulatory element enhances rice grain yield by decoupling panicle number and size
现有技术
- physical regulation
- 染色质免疫沉淀测序(ChIP-seq)
- DNA亲和纯化测序(DAP-seq)
- 酵母单杂交实验(Yeast one-hybrid assay)
- 染色质可及性分析:
- DNase-I超敏位点测序(DNase-seq)
- 转座酶可及染色质测序(ATAC-seq)
- expression regulation
- 分析方法:利用转录因子(TF)与下游靶基因的共表达模式构建表达网络。
- 进化保守性:许多基因表达调控网络在不同物种间具有进化保守性,可作为构建GRN的宝贵资源
- physical regulation
1.2 现有研究
植物GRN的研究:
- 使用转录组数据集在特定组织中研究作物的转录特征和GRN。
- 玉米利用ChIP-seq数据构建TF调控网络。
- 全基因组网络研究通过RNA-seq或微阵列数据预测TF靶基因。
现有研究的局限性:
- 独立构建的GRN无法提供全基因组范围内的相互作用及其对表型特征的影响的整体视图。
- 在模式生物中有训练数据,但是在非模式生物中构建综合GRNs就很难
随着多组学技术的发展,研究人员获得了大量不同类型的数据(如基因组、转录组、蛋白质组等),这些数据有助于全面理解基因如何在全基因组范围内进行调控。然而,如何有效整合这些海量且多样化的数据以构建准确的调控网络,仍然是一个技术和方法上的难题。
- 模型生物中基于监督方法的整合推断:
- 模式生物拥有大量已知的实验数据,研究人员可以利用这些数据训练监督学习模型,从而更准确地推断基因之间的调控关系,构建出高质量的基因调控网络。
- 比如面包小麦基因组庞大复杂,缺乏实验训练数据
- 模式生物拥有大量已知的实验数据,研究人员可以利用这些数据训练监督学习模型,从而更准确地推断基因之间的调控关系,构建出高质量的基因调控网络。
- 机器学习和多组学网络分析方法
- 在玉米和拟南芥等作物研究中,能够预测基因的功能以及其对植物表型的影响,提升了基因功能注释的效率和准确性。
- GRN与GWAS的结合:
- GWAS能够识别与特定性状相关的遗传变异,而将这些变异置于基因调控网络中分析,可以更系统地理解变异如何通 过基因网络影响复杂性状,有助于精准育种和作物改良。
- 作物功能基因发现的限制:
- 作物基因组通常较为复杂,进行功能验证实验成本高昂且技术难度大,这限制了功能基因的快速发现和注释,阻碍了作物基因组学的发展。
- 现有基因网络数据库的局限性:
- 现有数据库如WheatCENet、WheatNet等仅包含单一调控类型数据,无法满足功能基因探索的需求。
1.3 本研究贡献
wGRN的构建与应用:
- 构建了高质量的小麦整合调控网络wGRN,结合了更新的基因组注释和多种调控数据。
- 利用wGRN揭示未知功能和途径,增强对新数据集的解释能力。
- 使用wGRN优先筛选GWAS和基因定位研究中的候选基因。
- 生成时间序列穗发育转录组,构建精细的穗基因网络,发现预测穗粒数的新的调控因子。
- 实现了一个在线平台,供社区探索调控网络和发现与性状相关的基因。
解释:wGRN作为一个综合性的小麦基因调控网络,不仅能够加快功能基因的发现过程,促进作物改良,还为其他非模式生物构建和应用整合基因调控网络提供了宝贵的参考和方法框架,有助于推动植物基因组学和育种学的发展。
2 构建小麦综合调控网络
重新注释了小麦基因组
- 新注释版本:wGRN_v1
- 133,804 个蛋白编码基因
- 12,022 个长非编码RNA (lncRNAs)
- 16,016 个基因组中未包含的新的转录本
- 多类型调控数据集的生成:图1A,总共7个网络
- 基因表达网络:
- 基于表达的调控网络:包括PCC网络和GENIE3网络
- 407份RNA-seq,来自5个组织
- 进化保守调控网络:cCOE网络
- 102份RNA-seq
- 基于表达的调控网络:包括PCC网络和GENIE3网络
- 物理调控网络:基于靶基因转录起始位点附近 DNA 结合
- TF motifs网络:PWM网络
- 进化保守的TF motifs网络:cPWM网络
- TF结合占据网络:TF binding network
- DAP-data
- 染色质可及性:chromatin accessibility
- ATAC-seq、DNase-seq
- 基因表达网络:
wGRN包含总计720万条交互,涉及5947个TF和127,439个靶基因(图1C)。
平均每个TF有1218个交互关系。
- wGRN网络结构:图1B
- 使用 7 个独立网络和集成推理方法构建的。
- 每个网络的每个interaction都有一个特定的权重
- 引入了一个动态参数 α,以过滤掉低质量的交互以实现最佳预测性能
- 可以看到里面的interactions都是有前面的几个网络数据支撑的
- 整合完的wGRN网络当作数据库方便别人查询
- 使用 7 个独立网络和集成推理方法构建的。
- 图1C:wGRN中interactions的简单统计
- 图1D:独立网络对 wGRN 的互补贡献
3 wGRN 中预测的相互作用的多方面验证
Multiple-aspect verification of interactions predicted in wGRN
通过6种评估方法来验证转录因子与靶基因相互作用的准确性
第一种:根据RNA-seq数据,某个TF表达不同->表达量变化的基因,跟从wGRN中根据TF提取出来的靶基因,看重叠数量
第二种:根据植物的环境胁迫,因为转录因子调控一组特定的靶基因,所以可以根据特定胁迫下的DEG,来推测哪些转录因子的调控网络改变,来看预测出了哪些转录因子,看跟之前研究文献的相关性
第三种:别的模式生物的interactions,通过wGRN迁移到小麦上
第四种:跟别的方法比较
第五个:(比较重要级)wGRN 预测了许多新的interactions,并且进行了实验验证
3.1 第一种评估
利用已有的RNA测序(RNA-seq)数据,这些数据来自于独立于wGRN的TF mutants或过表达系,来看下游靶基因的表达会发生变化,从而可以用于评估单个TF的靶基因。
TaSPA-1B(参考文献:Guo et al., 2020):
在TaSPA-1B的过表达系中,共检测到1994个差异表达基因(DEGs)。
从wGRN中提取出960个潜在靶基因。
最终发现218个基因同时出现在wGRN预测的靶基因和DEGs中。
通过超几何检验计算得出显著性P值为1.8e−194,表明这种重叠高度显著,远超随机预期。
- 说明wGRN不是随机选出来的
TaNAC019(参考文献:Gao et al., 2021):
在TaNAC019突变体中,共检测到5742个DEGs。
从wGRN中提取出1552个潜在靶基因。
最终发现483个基因同时出现在wGRN预测的靶基因和DEGs中。
超几何检验的P值为8.4e−284,同样显示出极高的显著性。
3.2 第二种评估方法
植物
评估wGRN捕捉与特定组织发育和应激相关的生物学相关相互作用的能力
在组织发育或应激反应期间,靶基因通常与调控因子表现出协调的表达模式。
因为转录因子调控一组特定的靶基因,所以可以根据特定条件下的DEG,来推测哪些转录因子的调控网络被激活或者抑制
- 小麦叶片衰老的转录组分析:
- 利用公共时间序列转录组数据集(Borrill et al., 2019b)识别出5502个差异表达基因(DEGs)。
- 预测分析显示918个转录因子(TFs)是叶片衰老的关键调控因子,其中107个属于NAC家族,已知其参与衰老过程(Woo et al., 2013)(图2C)。
- 例如,NAC基因TaNAP-5B与其靶基因共表达(图2D)。
- 小麦幼苗热应激的转录组分析:
- 使用热应激下的小麦幼苗转录组数据集(Liu et al., 2015)识别出5742个DEGs。
- 通过wGRN预测出286个关键调控TFs,其中35个属于HSF家族。
- 例如,TaHSFB2A-7D作为热应激反应的关键调控因子(Wunderlich et al., 2014),其与靶基因表现出协调的表达模式(图2F)。
3.3 第三种 综合推断优势
展示综合推断方法在构建基因调控网络(wGRN)中的优势
综合推断:集合不同的数据来源
下面是从拟南芥->小麦的直系同源基因(Orthologs)
- 从拟南芥转录调控图谱(ATRM)(Jin et al., 2015)通过系统性文献挖掘收集了1431个已验证的转录因子(TF)-靶基因相互作用。
- 将1431个TF-靶基因相互作用中的305个映射到小麦的直系同源基因。
- 通过wGRN来把拟南芥的TF-gene相互作用在小麦的同源基因上面恢复
同时,算法可以看到这个相互作用是有几个网络支持的,也体现了集成推理比单个网络有更高的预测性能
3.4 第四种 比较别的方法
与别的基于小麦表达的调控网络 wheatGENIE3 进行了比较
从DEG中回收靶基因
预测准确性
3.5 第五种 预测新的相互作用
通过wGRN可以预测新的相互作用,并且进行实验验证
选定的转录因子:
- TaNAP-5B(Guo 和 Gan, 2006):已知调控生长和发育。
- TaYABBY3-1B(Stahle 等, 2009):已知调控生长和发育。
双荧光素酶报告基因分析:
方法:使用载体 pGreenII 0800-LUC 进行双荧光素酶报告基因分析。
结果
:
- 在共表达 TaFLO7-1A 和 TaNAP-5B 的小麦原生质体中,萤火虫荧光素酶(LUC)与雷尼拉荧光素酶(REN)的比率高于对照组(图2I)。
- 在共表达 TaBOP3-5B 和 TaYABBY3-1B 的小麦原生质体中,LUC/REN 比率也高于对照组(图2J)。
结论:TaNAP-5B 和 TaYABBY3-1B 在体内激活 TaFLO7-1A 和 TaBOP3-5B 的表达,验证了wGRN的预测。
WRKY和ERF家族的作用:
- 功能:WRKY(Rushton 等, 2010)和ERF(Licausi 等, 2013)家族参与调控生长、发育和应激反应。
电泳迁移率变动分析(EMSA):
TaWRKY71-6B
的调控:
- 通过EMSA确认 TaWRKY71-6B 可以结合并调控以下基因:
- TaMAPKKK55-3B
- TaFAD7-4A
- TaBIERF1-5B
- TaBSR1-5D(图2K 和 补充图5A)
- 通过EMSA确认 TaWRKY71-6B 可以结合并调控以下基因:
TaERF3-3D
的调控:
- 通过EMSA确认 TaERF3-3D 可以结合并调控以下基因:
- TaCAF1B-2B
- TaCML16-3D
- TaSGL-6B
- TaCCD1-7D(图2L 和 补充图5B)
- 通过EMSA确认 TaERF3-3D 可以结合并调控以下基因:
结论:TaWRKY71-6B 和 TaERF3-3D 直接调控其预测的靶基因,支持wGRN的预测。
4 wGRN provides 一个计算机模拟框架,使用regulation information来解释gene functions and pathways
目的:
揭示功能基因和路径是作物改良的重要步骤,但小麦中许多生物学路径尚未被了解。
利用wGRN将大量生物学相关基因连接成网络,有助于深入了解小麦基因功能
4.1 功能富集注释
- 数据获取
- 获取基因本体论(GO)、植物本体论(PO)和植物性状本体论(TO)注释数据集
- 对wGRN中的每个TF的靶基因进行富集分析
使用wGRN预测了5928个(99.7%)TF的GO功能。
85.0%的wGRN预测与功能注释共享的TF至少具有一个已知注释
wGRN帮助推断了1536个未知TF的功能(图3A)。
前15个GO术语主要与发育过程和应激反应相关(图3B),突出这些路径在小麦生命周期中的重要性。
我们还预测了 2374 个未知 TF 的 PO 函数和 3777 个未知 TF 的 TO 函数,并恢复了至少一半预测 TF 的至少一个已知注释
4.2 特定基因功能推断
TaLAX1:
- 需要用于穗形成的启动/维持(Gao et al., 2019; He et al., 2021)。
- wGRN推断其功能包括花发育调控、激素介导的信号通路和分生组织启动(图3C)。
HY5:
- 参与下胚轴生长和侧根发育、叶绿体发育、激素和刺激反应、养分信号传导和蔗糖代谢,并在光依赖方式下促进色素积累(Zhang et al., 2011; Chen et al., 2016; Gangappa and Botto, 2016; Wang et al., 2021b)。
- wGRN预测其未注释功能包括对活性氧种的反应、类胡萝卜素生物合成过程、细胞分裂素代谢过程、质体组织、对硝酸盐的反应、葡萄糖稳态和油菜素内酯生物合成过程(图3D)。
4.3 预测小麦全基因组pathway
预测小麦全基因组范围内的生物学通路。
对于每个ontology术语,我们将 wGRN 中的功能性 TFs、带有本体注释的基因和 TF-靶标相互作用组装成代表特定生物途径的 3891 个子网络,即 3169 个 GO 网络、508 个 TO 网络和 214 个 PO 网络。
热应激响应通路
从构建的子网络中提取出热应激响应通路(GO:0009408)进行进一步验证(见图3E)。
该热应激响应网络包含629个基因,具体包括:
36个HSF基因(热激转录因子家族)
19个DREB基因(脱水响应元件结合蛋白)
125个HSP基因(热激蛋白)
涵盖32个DnaJ基因
先前研究已报道HSF转录因子家族(Ohama et al., 2017)、HSP和DnaJ蛋白(Qiu et al., 2006)、以及DREB转录因子家族在热应激响应中的作用。
在热应激响应网络中,已知参与热应激响应的基因占总基因数的28.6%,显示出wGRN在解析生物学通路方面的高可靠性。
5 wGRN 帮助优先筛选在 GWAS 中鉴定的性状相关基因
wGRN 通过整合功能调控信息,有效地在GWAS鉴定的QTL区域中优先筛选出与性状相关的高可信度候选基因,显著提升了基因定位研究的效率和准确性
因为之前很多基因不一定有注释信息,wGRN可以不依靠注释信息,而是依靠调控关系来筛选GWAS中的结果
- 小麦基因组复杂且亚基因组间相似性高,限制了利用GWAS、基于图谱的克隆和群体分离分析(BSA)等方法进行复杂性状的基因定位。
- 利用功能调控信息,wGRN能够在基因定位研究中的QTL区域内优先筛选候选基因。
QTL是指与影响数量性状的基因组上的区域,包含一个或多个基因
最近的一项研究通过GWAS发现 TaNAC071-A 与小麦耐旱性相关,并且做了转基因实验subsequent transgenic) experiment
通过输入QTL信息,wGRN将TaNAC071-A列为high-confidence candidate,并且给出功能注释
扩展功能:在wGRN中,可以给TaNAC071-A预测功能为“response to water deprivation”,跟这个研究的结果一致,说明wGRN 可以为未知基因添加新的、准确的功能注释
6 通过整合时间序列spike转录组数据集构建高分辨率基因网络
整合新产生的独立的数据集和原版存在的基因网络(如wGRN,玉米基因调控网络)一直是一个重大挑战。
因为不同数据集可能在来源、实验条件和数据类型上存在差异,使得整合和解析变得复杂。
这里使用了小麦穗spike数据集,是他们自己测的,测了from the floret meristem stage to the booting stage的不同发育阶段的RNA-seq(图4A)
设置了11个时间点,三个亚基因组重复A、B、D,收集样本进行测序,Illumina生成了19亿条高质量测序数据
图4B:使用PCA,来展示了一下整个vleo的连续性
6.1验证数据集是否包含穗发育相关的动态信息
- 验证基因动态表达
- WFZP基因
- 该基因会抑制spike的形成,在早期发育中表达,并且不同品种表达不平衡,D的表达水平更高
- TaINV4基因
- 参与花粉发育,在后期表达高
- WFZP基因
- TF与目标基因相互作用验证
- 根据文献收集了18个与spike发育相关的TFs
- 计算了spike发育过程中TF的表达值和wGRN中的靶基因的相关系数
- 红色线是随机值,可以看到远高于随机值
6.2 针对一个基因家族结合wGRN一起研究
MIKC-type MADS-box gene family与小麦穗的发育有关
转录组数据中鉴定了84个MIKC 型 MADS-box 基因,然后使用wGRN构建了一个MIKC型MADS-box基因调控网络
网络包含38,497条边和9,191个基因
这里相当于说是wGRN可以根据核心的84个基因,然后构建出一个网络,找出别的有调控关系的基因
- 图4E
- 以 MIKC 型 MADS-box 基因为中心的时间相关 GRN。
- 从 wGRN 中提取与 84 个 MIKC 型 MADS-box 基因直接相互作用的目标。节点、基因。边、wGRN 中的相互作用
- 节点的颜色代表基因在 11 个时间点中表达最丰富的时间点。
- 按照发育过程中的高度表达的时间点对基因进行分类,从B1到B11
可以发现主要就分成两个阶段:B1-B6和B6-B11
6.3 进一步剖析关键调控网络
基于文献选取了100个与穗发育相关的基因,来预测 wGRN 的关键调节因子
得到了380个关键调节因子,按照他们所属的TF家族排序,排名靠前的就是MIKC 型 MADS 和 AP2 家族
根据文献,发现大概大约 38.7% 的基因与刺突发育有关,大约 19.7% 的基因与植物生长发育有关,然后列举
- 早期发育阶段共表达cluster
- 文献说小麦颖的结构主要由早期发育阶段决定
- 4H:使用k-means方法识别出四个转录因子共表达clusters
- 4I:发现大多数调控因子在早期高表达,特别是在C1中富集
7 wGRN 揭示了预测 SNS 的新型调节因子
通过选取不同的基因/转录因子作为特征数据集,来进行模型预测效果的评估
越有效的转录因子筛选出来,模型预测表型效果越好,也就是说跟这个表型越相关(通过wGRN预测的)的基因作为特征集比随机的特征集效果要好,就说明预测的是有效的
注意:这里“转录因子的表达数据”指的是转录因子基因本身的表达水平,而不是这些转录因子的靶基因的表达数据
表型预测的重要性:利用基因组数据(包括基因表达数据)进行表型预测可以提高育种效率,并为作物改良提供新资源(参考Wu et al., 2021a)
wGRN通过基因调控网络预测关键的调控因子,研究人员希望验证预测的调控因子的功能,于是建立了一个机器学习模型
可以通过机器学习来预测关键调控因子对穗表型的影响
我觉得很妙
机器学习一方面可以使用独立的数据集,验证wGRN预测的关键调控因子与表型的实际关联性,增强预测结果可信度
另一方面,wGRN能识别潜在基因,但是本身没办法通过网络分析来达到高精度的表型预测,这里用机器学习方法就可以来实现基因表达->表型的预测,可以量化
对于第二点突然有想法,这里只使用了一个stage(中期),可以试试不同的stage,或者几个stage联合起来的看看效果
- 数据
- 转录组: double-ridge stage的小麦穗转录组数据
- 表型:包含SNS的表型数据
- 模型性能评估
- wGRN特征集:
- 使用wGRN预测的调控因子作为特征,模型对SNS的预测准确率较高,曲线下面积(AUC)为0.85(见图5B)。
- 对照特征集:
- 随机特征集:随机选择的转录因子,AUC值为0.70。
- DEG特征集:随机选择的在早期spike中高表达的转录因子,AUC值为0.74。
- wGRN特征集:
导致表型SNS差异的关键调节因子(特征),可以通过XGBOOST的评分给出,也计算了与表型的相关性,其中只有TaASIL2-like基因表现出正相关。
然后讨论了一下跟已有文献中相关的
与穗发育相关的TF:
- TaNSG(Wang et al., 2013)
- TaLHS1(Khanday et al., 2013)
- TaSHI1(Duan et al., 2019)
与植物生长和发育相关的TF:
- TaCUC1(Hibara et al., 2003)
- TaGRF9(Zhang et al., 2018)
- TaCLAU(Bar et al., 2016)
- TaOSH43(Xia et al., 2020)
通过这10个TF来构建了一个SNS差异调控网络
发现了一系列知名的基因,列举了一堆参考文献
然后单特征预测能力评估
采用逐步策略评估单个TF的预测能力,进行多轮模型评估并在每轮中移除重要性最低的特征。
TaASIL2-like可能显著贡献于SNS差异(TaASIL2-like的拟南芥同源基因与早期胚胎发育中的成熟程序相关(Willmann et al., 2011))
TaASIL2-like的靶基因包括一些已知的穗发育相关基因,如TaDEP1(Huang et al., 2009)、TaMFS1(Ren et al., 2013)和TaLGD1(Thangasamy et al., 2012)。
- 然后聚焦在这个TaASIL2-like基因上面
F:通过进化历史分析,发现TaASIL2-like同源基因在小麦中是串联重复的
TaASIL2-like同源基因在小麦的三个亚基因组中表现出拷贝数多态性
进行了Poaceae(禾本科)中的同源基因共线性分析,研究其进化历史和功能演变
G:分析了一下它同源物表达水平跟SNS的相关性
8 搭建了WEB平台
网站里有给tutorial
探究调控关系和发现表型相关
再研究一下平台还有后面的methods,用了哪些数据
search
- 输入Gene id
- 返回
- gene的information、tissue expression
- interactions 上游的TF
- GRN
- JBrowse
analysis
- regulator prediction
- 表型的DEGs来找寻相关转录因子
- 输入一系列感兴趣的gene list(DEGs)
- 返回这些genes连接的全部上游TFs的table,并且会给出每个TFs 的target
genes合集
- table可以查genes
- 也可以查TF
- 并且会按照这些TFs按家族给一个二维平面的表示
- function inference
- 输入TF/gene id
- 返回原有的GO、TO、PO annotation
- 还返回预测的annotation
- Pathway network
- 输入一个GO term
- 返回与term相关的TFs与genes组成的网络
- coexpression
- 输入gene ID list
- 返回gene的共表达矩阵热图,两两间的相关系数
- Homoeolog triad
- 查看一个基因的同源三联体的表达,因为小麦是六倍体
- QTG miner
- 输入QTL regions和QTL-related genes list
- 可以帮助确定GWAS, map-based cloning, and BSA相关的QTL区域里优先考虑的基因
- regulator prediction
tools
Gene browser
- 可以使用关键字(geneid、功能描述、gene name)或位置搜索基因信息
gene card
expression
- 查询单个/多个gene在不同组织和时间序列转录组中的表达模式
GRN comparsion
两个TF的共享的genes interactions分析,共同调控的genes
目标基因之间的功能关联性
比如发现 bZIP TF 和 MIKC 型 MADS-box TF 的靶标之间存在显着重叠,表明这两个基因可能参与同一途径
eQTL
- 提供了搜索功能
miRNA-target
- 搜索miRNA和target的interaction
TF enrichment
- 输入TF gene id
- TF对应的TF family的富集分析
BLAST
GRN extraction
- 提取某些gene的局部GRN
Jbrowse
download
idconversion
- 不同的gene id在不同参考基因组的注释
教程
9 Method
9.1 The pipeline for updating genome annotation
本研究通过三种方法(从头预测、同源搜索和转录组数据分析)预测小麦的蛋白编码基因模型。具体步骤如下:
- 转录组数据处理与基因预测:
- 使用STAR将公开的RNA-seq数据比对到IWGSC RefSeq v2.1基因组,并利用StringTie和TACO组装转录本。
- 采用GMAP比对之前研究获得的Iso-Seq数据。
- 将RNA-seq和Iso-Seq的转录本整合后,使用TransDecoder预测开放阅读框(ORFs)并定义基因模型。
- 通过GenomeThreader将Triticeae、稻(Oryza sativa)和禾本科拟南芥(Brachypodium distachyon)的蛋白序列比对到基因组,进行同源基础的基因预测。
- 使用Augustus进行从头注释,进一步完善基因注释。
- 利用EVM整合所有基因模型证据,并通过两轮PASA更新基因注释。
- 筛选具有蛋白数据库相似BLAST命中或TPM值超过0.5的基因模型,剔除与转座元件编码序列重叠超过30%的基因,最终注释为蛋白编码基因。
- 使用IWGSC RefSeq v2.1中的基因ID命名共享基因模型,并通过NCBI非冗余数据库、Swiss-Prot和GO数据库进行功能注释。
- 长非编码RNA(lncRNAs)的鉴定:
- 使用StringTie和TACO组装转录本,保留TPM值大于0.5且长度超过200 bp的转录本。
- 排除与蛋白编码基因和转座元件重叠的转录本。
- 通过Swiss-Prot、小麦蛋白数据库、CPC、LGC和CNCI等工具去除具有蛋白编码潜力的转录本,剩余部分注释为lncRNAs。
- 新转录本的生成与注释:
- 利用未比对的RNA-seq和Iso-Seq序列,使用Trinity进行去新组装,生成转录片段。
- 通过CD-HIT-EST以90%的序列相似性阈值减少冗余,并保留与基因组相似性和覆盖率均低于85%的转录本作为新转录本。
- 使用DeconSeq去除序列污染,合并非冗余的转录片段生成较长的转录本(采用CAP3,重叠长度50 bp,相似性98%)。
- 保留TPM值超过0.5的转录本作为高可信度的新转录本,使用TransDecoder预测ORFs并进行功能注释。
9.2 Input raw datasets
1. 表达调控网络的构建
数据收集与筛选:
从NCBI的SRA数据库下载了6488个RNA-seq数据集。
通过主成分分析(PCA)去除冗余,最终保留407个具有代表性且非冗余的RNA-seq数据集(见Supplemental Figure 2和Supplemental Table 1)。
这些数据涵盖了多种研究主题、发育阶段、组织类型、生长条件和基因型。
数据处理与表达量计算:
- 使用SRA toolkit将SRA格式文件转换为FASTQ格式。
- 采用fastp软件对所有读段进行处理和过滤。
- 使用kallisto将处理后的读段比对到wGRN_v1参考转录组,确保同源特异性的读段比对。
- 利用tximport将转录本级的表达值汇总到基因级。
- 仅保留在至少两个样本中TPM(每百万读数转录本数)大于0.5的高置信度基因模型,最终得到137,179个表达基因,占注释高置信度基因的94.1%。
水稻数据的整合:
- 收集了102个具有代表性的水稻RNA-seq数据集(见Supplemental Table 2)。
- 使用与小麦相同的表达量定量方法计算水稻参考转录组IRGSP 1.0中所有注释基因的表达值。
- 通过GeneTribe识别小麦与水稻的正交基因。
- 收集了102个具有代表性的水稻RNA-seq数据集(见Supplemental Table 2)。
2. 物理相互作用网络的推断
- TF结合位点数据集的构建:
- 收集了来自PlantTFdb的1766个转录因子(TF)的PWM(位置权重矩阵)结合位点配置文件,确保数据的非冗余和高质量。
- 构建了包含564个进化保守PWM结合位点的cPWM网络,基于阿拉伯芥的TF motif,通过GeneTribe转移到小麦基因模型。
- TF-靶基因对的识别:
- 收集了314个全基因组范围的TF结合数据集,包括来自Triticum
urartu(小麦A亚基因组的前体)和Triticum aestivum的DAP-seq数据。
- 使用前述方法分析DAP-seq数据,并通过GeneTribe识别小麦的TF-靶基因对。
- 收集了314个全基因组范围的TF结合数据集,包括来自Triticum
urartu(小麦A亚基因组的前体)和Triticum aestivum的DAP-seq数据。
- TF结合位点数据集的构建:
3. 开放染色质网络的构建
- 数据收集与处理:
- 收集了来自多项研究的开放染色质数据,包括ATAC-seq和DNase-seq数据(见Supplemental Table 3)。
- 使用fastp对双端读段进行过滤和处理。
- 使用BWA-MEM将读段比对到IWGSC RefSeq v2.1参考基因组,过滤掉MAPQ值低于20的比对结果。
- 峰调用与数据整合:
- 使用MACS2进行峰调用,将不同条件下的数据合并成一个统一的开放染色质数据集。
- 数据收集与处理:
9.3 构建每个独立网络
这里需要沉淀学习一下每个网络是怎么通过原始数据做出来的
数据收集与预处理:
- 收集多个原始数据集,衍生三个表达网络和四个物理网络。
- 使用PlantTFdb和iTAK预测小麦候选转录因子(TFs),仅保留两者共有的TFs。
网络类型及构建方法:
- PCC网络: 基于共表达,计算TF与基因的PCC,选取每个TF前1600个高PCC基因作为靶标。
- GENIE3网络: 使用GENIE3工具,基于非线性共表达关系构建,权重阈值设为0.005。
- cCOE网络: 基于水稻的进化保守共表达数据,选取每个TF前600个高PCC靶基因,确保小麦中有对应同源基因。
- PWM和cPWM网络: 将1766个PWM结合位点映射到基因上下游2.5 kb区域,使用FIMO识别结合位点并加权;cPWM网络基于进化保守的564个结合位点。
- TF绑定网络: 基于DAP-seq数据,识别TF在靶基因TSS附近的结合,转移至小麦基因模型并加权。
- 开放染色质网络: 利用ATAC-seq和DNase-seq数据,识别基因上下游2.5 kb范围内的开放染色质区域并加权。
交互分数标准化与整合:
- 各独立网络的交互分数标准化为0到1的权重(0表示无交互,1表示强交互)。
- 综合七个独立网络的信息,构建整合的基因调控网络wGRN。
9.4 网络组合综合推断
Wheat-RegNet: An encyclopedia of common wheat hierarchical regulatory networks
这是一篇发表在MP的Correspondence,工作没有上一篇完整
- 189个TF binding profiles
- 90个epigenomic datasets,
- 2356 transcriptomes
- genome-wide association study (GWAS) for 144 agronomic traits in common wheat
1 构建基于多组学的调控网络
现在有很多小麦的多组学数据的网站,但是没有整理全面的层级调控网络
提出了机器学习方法,整合普通小麦的多组学数据,并确定调控关系
注意:这篇文章写的很不清不楚,我理解这里用了机器学习就是去量化了一下网络里边的值,,好像也不是不太懂,也有可能是增强子跟靶基因之间的关系不好构建,就用机器学习来预测,顺势调控元件跟靶基因的关系,反正文章里也没写,有点不太懂
收集了由DNA亲和纯化测序(DAP-seq)生成的189个转录因子(TF)的全基因组结合谱(Zhang et al., 2022),由染色质免疫沉淀后测序(ChIP-seq)生成的三种组蛋白修饰(H3K27me3、H3K9ac、H3K4me3)的90个表观遗传谱(Li et al., 2019; Wang et al., 2021),来自公共数据库的2356个转录组谱,以及144个农艺性状的全基因组关联研究(GWAS)区间(Blake et al., 2016)(所有数据来源列于Supplemental Table 1)。
- 层级调控网络的主体:
- 转录因子-靶基因
- 利用TF结合谱,确定哪些转录因子可能调控哪些基因
- 顺式调控元件(CREs)
- 启动子、增强子
- 根据TF结合谱和表观遗传数据
- 确定这些CREs的功能和位置
- 启动子、增强子
- 基因的共表达信息
- 利用转录组数据获取共表达信息
- 解决的问题
- 基因之间的大片段基因间区段(即基因之间有很长的非编码DNA区域),将CREs准确地分配到它们调控的靶基因变得困难
- 设计一种机器学习方法来计算调控潜力分数(RPS, Regulatory Potential Score),以评估每个CRE对特定基因的调控能力。
- 机器学习
- 特征
- 将表观遗传数据(H3K27me3、H3K9ac、H3K4me3)和Hi-C物理相互作用数据整合起来,作为输入特征(x)
- 目标变量
- 计算每个CRE-基因对的RPS,作为目标变量(y)。这通常基于已有的生物学知识和实验数据
- 特征
- 模型学习如何根据表观遗传变化和物理相互作用来预测RPS。
2 Web功能
- 四个模块 图1B
- 基于CRE的模块,输入基因组位点/gene
- 返回该基因的CRE
- 这些 CRE 的组织特异性可以通过生成反映组织特异性表观遗传活动的热图来可视化。
- 基于TF binding的模块
- 输入基因
- 返回调节该基因的TF
- 调控关系用网络可视化
- 分层调控模块
- 输入基因
- 返回TF调控和共表达调控信息
- 基于JBrowse
- 基因组轨迹,包括围绕 CRE 的 90 个表观遗传学和 30 个转录组学数据,可以在 JBbrowse 中可视化。可以检索在输入区域/基因中存在或富集的 TF 结合基序
3 case study
案例研究 1:检测输入基因的CRE
- 目标:识别调控特定基因(如Q基因)的顺式调控元件(CREs)。
- 过程suoy:
- 使用Wheat-RegNet检索与Q基因相关的17个CRE。
- 获取这些CRE的详细信息,包括其基因组坐标、表观遗传特征、组织和处理特异性以及调控潜力分数(RPS)。
- 可视化这些CRE及其靶基因的表达情况,发现多数CRE与AP2/ERF或C2H2转录因子家族结合。
- 在GWAS相关区域内的CRE被认为是最有可能的功能位点,适合作为实验验证的候选者。
案例研究 2:搜索输入基因的调控转录因子(TFs)
- 目标:识别调控特定基因集(如ABA诱导基因)的转录因子。
- 过程:
- 输入先前研究中ABA诱导的基因集到Wheat-RegNet。
- 检索到的TF主要来自AP2-ERF、bZIP和HSF家族,这些TF已知参与ABA信号通路。
- 用户可以选择这些TF,构建包含选定TF和输入基因的分层调控网络。
- 可以通过点击网络节点,获取TF的功能或结构域信息。
案例研究 3:说明输入基因的分层调控网络
- 目标:展示特定TF(如DOF4)在基因调控网络中的作用。
- 过程:
- 输入DOF4 TF到Wheat-RegNet,检索其靶基因。
- 使用这些靶基因作为输入,进一步识别上游调节因子和共表达基因。
- 发现DOF4靶基因涉及ABA水平调控、活性氧状态调节、叶片衰老和花器官脱落等过程,与拟南芥中的功能一致。