转录调控网络

注释motif

搜索motif，如果一股脑的将基因组中的所有的基因上游调控区域拿出来放在一起做motif的搜索，这样两两对比的效率太慢

所以一般需要基于一定的生物学假设，进行序列集合的挑选

基于生物学共表达原理搜索Motif
- 当细胞执行特定生物学功能时，相关通路中的蛋白酶基因表达可能同步变化，导致通路差异表达富集。若某通路内基因簇呈现共表达现象，其启动子区（上游200bp）可能存在相同转录因子结合位点，这表明它们受同一调控因子协调。基于这一共表达机制，通过Motif分析可识别出潜在的调控元件。
基于相关性网络进行Motif搜索
- 基因相关性网络的构建通常基于转录组数据计算基因间的皮尔森相关系数：将每个基因的表达量视为以样本数量为维度的向量，两两计算其线性相关性，形成全基因组的相关系数矩阵。矩阵中每个元素[x,y]代表基因x与y的网络连接权重，通过设定阈值过滤后即可生成相关性网络图。
- Motif聚类搜索依据：
  1. 强正相关基因（高相关系数）可能受同一转录因子调控或存在正向调控通路，提取其启动子区（如上游200bp）进行Motif分析，可发现保守调控元件；
  2. 强负相关基因通常反映抑制性调控关系，此类关联对Motif挖掘贡献有限。
- 做相关性网络除了上面的手动方式，还可以直接通过WGCNA方法来进行共表达相关性网络模块的划分