[toc]

论文链接:Systematic classification of unknown metabolites using high-resolution fragmentation mass spectra

github链接:

1 摘要

  • 使用非靶向串联质谱法的代谢组学可以检测生物样品中的数千个分子。
    • nontargeted tandem mass spectrometry
    • 不偏向特定的化合物
  • 然而,结构分子注释仅限于文库或数据库中存在的结构,从而限制了实验数据的分析和解释。
    • 结构分子注释是通过与已知化学结构的对比来确认分子的身份。现有的文库或数据库中包含了大量的已知分子结构和它们的特征谱图,因此,分析软件往往通过将实验中获得的质谱数据与这些已知的结构进行比对,从而进行分子注释。由于大多数数据库中的结构是有限的,缺乏对未知或未被记录的分子的注释数据,因此,如果目标分子不在数据库中,软件就无法为其提供注释,导致分析受限。
  • 在这里,我们描述了 CANOPUS(使用质谱法进行类分配和本体预测),这是一种用于系统化合物类注释的计算工具。
  • CANOPUS 使用深度神经网络从碎裂光谱中预测 2,497 个化合物类别,包括所有生物学相关的类别。
  • CANOPUS 明确靶向光谱和结构参考数据均不可用的化合物,并预测缺乏串联质谱训练数据的类别。在使用参考数据的评估中,CANOPUS 达到了非常高的预测性能(交叉验证的平均准确率为 99.7%),并优于四种基线方法。
  • 我们通过研究微生物在小鼠消化系统中定植的影响,通过分析不同Euphorbia植物的化学多样性以及海洋天然产物的发现,揭示了化合物类水平的生物学见解,从而证明了 CANOPUS 的广泛用途。

2 背景

2.1 质谱分析

液相色谱质谱法 (LC-MS)可以检测出数百到数千种代谢物,但是对这些代谢物进行结构注释是挑战

  • 串联质谱 (MS/MS)需要跟结构数据库中的图谱进行对比匹配
    • 串联质谱(MS/MS)中,样品分子会被分解成若干碎片(即裂解产物)。通过分析这些碎片的质量和数量,可以推测出分子的一些特征信息,但这些信息通常不足以完全揭示分子的完整化学结构。
    • 质谱测量的是化合物的质量和分解信息,而不是直接的结构式
  • 质谱分析得到的碎片信息可以通过与数据库中的参考谱图进行比对(比如已知化合物的谱图)来推测代谢物的可能结构。
    • 但是目前数据库非常有限

1. 分子离子峰(Parent Ion Peak)

在质谱中,最重要的峰之一是分子离子峰(即母离子峰),它代表了原始化合物分子在电离过程中失去电子后的质量。

分子离子峰的质荷比(m/z)可以提供分子质量的线索。例如,如果分子离子峰的m/z值是300,这意味着该分子的质量约为300 Da(道尔顿)。因此,从这个信息中可以推测该代谢物的化学表达式中的元素组成。

例如,m/z为300的分子可能是C₁₀H₁₂O₆,C₁₂H₁₄N₂O₂等,但具体是哪种化学式,需要通过进一步的碎片分析来确认。

2. 碎片离子(Fragment Ions)

质谱分析中的另一个重要部分是碎片化,尤其是在串联质谱(MS/MS)中。当分子离子遭遇激光或碰撞气体时,它会分裂成多个碎片。这些碎片离子也有特定的质荷比(m/z),并且这些碎片的m/z值可以提供该分子结构的进一步线索。

通过分析这些碎片离子的质荷比,可以推测出原始分子中各个化学基团的位置及其连接方式。这有助于推测分子的化学表达式结构式

例如,若发现m/z为132的碎片离子,可能意味着该分子含有特定的基团(如乙基基团,C₂H₅)或者某种断裂模式。

3. 高分辨率质谱(High-Resolution Mass Spectrometry)

通过高分辨率质谱(HRMS)技术,可以获得更加精确的m/z值。这些数据能够提供更高精度的质量测量,使得分子质量能够精确到小数点后几位。

高分辨率数据可以帮助进一步排除可能的同分异构体(具有相同化学表达式但不同结构的分子),从而更准确地推测代谢物的化学表达式。

4. 同位素分布(Isotope Patterns)

同位素分布可以用于进一步确认化学表达式。例如,碳(C)有常见的同位素¹²C和¹³C,而氢(H)有氘(²H)。在质谱中,代谢物的同位素分布可以显示出其元素组成。

例如,某个分子峰可能具有不同的同位素峰(比如m/z为300的分子可能还有m/z为301的峰),这可以帮助确认分子中含有某些元素。

5. 比对数据库

在一些情况下,可以通过与已有数据库进行比对来确认代谢物的化学表达式。数据库中包含了大量已知化合物的质谱数据,包括它们的分子式、m/z值、碎片图谱等信息。

如果质谱分析得到的m/z值与数据库中的某个已知化合物的数值匹配,可以推测出该代谢物的化学表达式。

6. 计算预测(In silico Tools)

有些计算工具可以根据质谱数据进行推测。例如,某些软件可以结合质谱碎片的分析、化学规则、分子碎片数据库等,来帮助推测化合物的分子式或化学表达式。

这些工具利用化学知识(例如化学键的断裂方式、常见的碎片化模式等)来帮助推测代谢物的分子式。

2.2 子结构预测和化合物分类预测

预测某些子结构存在与否的问题

1. 分子子结构预测问题(Substructure Prediction)

  • 子结构指的是分子中较小的结构单元,通常是一些常见的化学基团或片段。例如,水分子中的氢氧基团(hydroxy group)就是一个子结构。其他常见的子结构可能包括酯基(-COO-)、氨基(-NH₂)等。

  • 预测子结构的存在或缺失是指通过分析分子的结构,预测某些特定的化学基团或片段是否出现在该分子中。这个问题从1960年代起就受到关注,最早主要集中在气相色谱-质谱(GC-MS)数据中,目的是通过分析气体样本中的化学成分来识别化合物。

  • FingerIDCSI:FingerID 是两个用于预测分子指纹的工具。它们可以预测分子的“指纹”,即一系列编码数百到数千个子结构的模式。这些工具通过分析分子的整体结构来推测出分子包含哪些常见的化学子结构。

2. 化合物类别(Compound Classes)

  • 相对于子结构,化合物类别通常是更复杂的概念。化合物类别定义的是某类分子的整体特征,例如药物、天然产物、毒素等。每一类化合物通常具有一些共同的化学和生物学特征,但它们的结构可能非常复杂,并且每类中的分子之间差异较大。

  • 一些工具和标准(如 ChEBI(化学实体生物学词汇)MeSH(医学主题词表))为化合物类别提供了定义和分类系统。然而,这些标准通常只能覆盖一小部分的分子结构,因此只有少数分子可以通过这些标准被注释和分类。

3. ClassyFire 的作用

  • ClassyFire 是一种用于分子分类的工具,它能够仅通过分子的结构确定化合物的类别。这意味着,通过ClassyFire,可以直接根据化合物的化学结构来推测它属于哪一类分子,无需依赖外部的实验数据或数据库。

  • ClassyFire的分类方法通过使用逻辑表达式(逻辑规则)和子结构约束(例如,子结构的长度、数量等)来定义每个化合物类别。这使得它能够自动、系统地进行分子分类。

  • 逻辑表达式通常涉及通过“与(AND)”、“或(OR)”等操作符将多个子结构或特征组合起来,从而定义一个化合物类别。例如,一个化合物可能被定义为“具有某个氨基基团并且同时具有某个苯环”,这些定义都是通过逻辑表达式完成的。

  • 总结

    • 子结构预测侧重于识别分子中的较小的、常见的结构单元,而化合物类别预测则是基于分子的整体结构来将其分类为某个类别。虽然子结构较为简单,容易识别,但化合物类别通常更为复杂,并且对分类系统的要求也更高。

    • 通过工具如ClassyFire,可以基于分子结构自动化地进行化合物类别的分配,从而弥补传统方法中分子分类覆盖面不足的问题。

    • 这段话的核心是,尽管有一些工具可以有效地预测分子中的子结构,但针对更复杂的化合物类别,仍然存在技术和数据上的挑战。ClassyFire 提供了一种可以完全基于结构来分类的解决方案。

  1. 化合物类别通常包含多个子结构,而且这些子结构的排列和组合方式可以非常复杂。不同类别的化合物可能包含相同的子结构,但它们的排列和结构特征不同,导致它们的化学性质和生物学行为也不同。
  2. 比如,一个糖类化合物和一个脂类化合物都可能包含苯环、氨基等相同的子结构,但它们的结构和功能差别很大,这就使得通过单独的子结构来确定一个化合物的类别变得非常困难。
  3. 化合物类别的预测比较难,因为它们是由多个子结构的组合构成的,这些子结构在化合物中可能是不同的组合方式。因此,单纯通过识别子结构就很难准确地判断一个化合物属于哪个类别。
  4. 此外,化合物类别还涉及到分子间的相互关系,而不仅仅是单独的子结构。例如,分子是否有环状结构、是否具有某种功能性基团、它们的分子量和极性等,都会影响化合物的分类。
  • 分子指纹
    • 分子指纹(Molecular Fingerprints)是指一种通过量化分子内部的结构特征来表示分子的方法。简单来说,它是分子中所有重要结构信息(如原子、键、环状结构等)在计算机中转换为一串数字或位串(bit string),这个位串就像“指纹”一样,是分子独特的标识符。
    • 常见的分子指纹方法有:
      • 图形指纹(Graph-based fingerprints):基于分子图(原子和键的网络)来生成指纹。
      • 结构指纹(Structure-based fingerprints):从分子的结构出发,识别出特定的功能团或子结构。
      • SMILES字符串指纹:基于SMILES(简化分子线性输入系统)字符串表示法来生成指纹

2.3 化合物类别预测的挑战

  1. 质谱库的不完整性,特别是某些类别的化合物可能缺乏足够的参考光谱数据;
  2. 子类数据分布不均,使得训练的模型可能无法正确预测同一类别中的所有子类;
  3. 未知分子结构的化合物的分类预测非常困难且难以评估。

1. 质谱库中的MS/MS数据不足或缺失

  • 问题说明:一些化合物类别的MS/MS数据在现有的质谱库中可能很少或根本没有,这会使得对这些类别的预测变得非常困难。质谱库通常是不完整的,尤其是对某些类别的化合物,相关的光谱数据很难找到,或者数据非常稀缺。对于这些类别,机器学习模型和数据驱动的预测方法会缺乏足够的训练数据,因此很难进行有效的分类。

2. 同一类化合物中的子类分布不均匀

  • 问题说明:即便某些类别在质谱库中有足够的MS/MS数据,也可能会遇到子类分布不均的问题。举个例子,如果在数据库中我们有关于孕烯类固醇的参考光谱数据,但对于其他类固醇(比如类固醇中的麦角烯类)没有相关数据,那么我们训练出来的模型只会预测孕烯类固醇这一类,其他类型的类固醇会被错误地分类为“不是类固醇”,且可能给出较高的信心度。也就是说,当我们训练的模型只接触到某一特定子类的光谱数据时,它可能无法对同一大类中的其他子类做出正确的分类。

  • 实例分析:如果一个训练模型只了解孕烯类的结构,而没有了解其他类固醇的结构,它就无法识别其他类固醇,而只会认定它们不属于类固醇类。这就说明了训练数据的偏倚问题,如果训练数据不均匀或过于集中在某一子类,那么模型的预测就会失误。

3. 预测未知分子结构的化合物类别特别困难

  • 问题说明:对于那些我们没有已知分子结构的化合物,预测它们的类别尤为困难,且这种预测的评估也特别具有挑战性。因为没有已知的结构或光谱数据进行参考,模型的预测结果可能会非常不准确。加上大部分化合物的结构非常复杂,甚至对于化学背景较强的研究人员来说,有些化合物的结构也可能很难确定。

2.4 目前有的三种结构分类策略

1. 基于光谱相似性对化合物进行聚类,然后通过数据库搜索半自动传播化合物类别注释

  • 方法概述:首先,通过光谱相似性(比如质谱数据)将一组化合物聚集成一个聚类。聚类的结果是,结构相似的化合物会被归为一组。接着,系统会从已知的数据库中搜索与聚类中化合物相似的已知类别,并将这些类别信息传播到该聚类中的所有化合物上,从而为新化合物赋予一个化合物类别。这个过程是半自动的,意味着虽然聚类和类别传播有自动化的部分,但仍然需要人工验证或进一步调整。

  • 应用场景:这种方法适用于那些已经积累了大量已知化合物和相关类别信息的数据库,特别是当光谱数据质量较高且有较多参考数据时。

2. 在光谱库或结构数据库中搜索查询化合物,考虑前k个结果来分配化合物类别

  • 方法概述:在这种方法中,首先会将查询化合物的光谱数据与已知的光谱库结构数据库中的化合物进行比对。比对的目的是找到最相似的已知化合物(通常是通过质谱数据的匹配)。匹配结果通常会列出多个可能的相似化合物,我们会选择前k个最相似的匹配结果,并基于这些已知化合物的类别来为查询化合物分配类别。这个k值是一个用户指定的参数,通常选择前几个最相似的化合物结果。

  • 应用场景:这种方法适用于光谱库和结构数据库中有很多已知化合物的情况。通过匹配,可以快速为未知化合物分配类别,但这种方法依赖于已有的库和数据库质量。

3. 使用机器学习方法直接从MS/MS光谱预测化合物类别

  • 方法概述:这种方法采用机器学习技术,通过训练一个机器学习模型(比如深度学习模型),该模型能从化合物的MS/MS光谱数据中直接预测化合物的类别。换句话说,这种方法不依赖于数据库匹配或聚类,而是基于大量标注好的训练数据集来训练模型,模型学习光谱特征与类别之间的关系,能够自动将一个新的光谱数据预测为相应的类别。

  • 应用场景:这种方法通常需要较多的标注数据进行训练,并且对于没有数据库支持的化合物,或者数据稀缺的情况非常有用。机器学习方法能够自动化处理大量数据,并且可以适应新的化合物和类别。

于是开发了一种方法叫做CANOPUS

3 Results

3.1 CANOPUS evaluation

3.1.1 workflow

输入一个MS/MS光谱来预测该化合物的类别

  • 输入MS/MS spectrum光谱数据

    • MS/MS光谱是质谱实验中获取的一个数据集,代表了化合物在质谱仪中被裂解后的碎片信息
    • 碎裂树(Fragmentation Tree)
      • 碎裂树是一个将质谱数据碎片化学结构层级关系图的方式。它展示了从一个母离子(大分子离子)到各种碎片离子的转换过程,形成一个层级结构。每个“节点”代表一个离子,每个“分支”表示化合物在某个位置的断裂过程。
  • 使用SVM预测 probabilistic fingerprint of the query compound

    • 这个概率指纹表示该化合物在不同类别中的概率分布,即该化合物属于不同化合物类别的可能性。
    • 这些SVM是通过训练数据(即参考MS/MS光谱)来构建的,因此可以识别化合物的不同特征。
  • 根据预测的分子指纹通过深度神经网络来预测化合物类别(多分类任务)

    • 在CANOPUS中,DNN用来根据由SVM生成的概率指纹同时预测所有化合物类别

    • 可以预测 2,497 个类别

    • DNN的训练是基于4.10百万个化合物结构,无需任何MS/MS数据。这意味着即使没有对应的MS/MS光谱,CANOPUS也能基于分子结构预测化合物类别。为了训练DNN,CANOPUS使用了模拟的“真实”概率指纹,即模拟某个分子结构的指纹,哪怕没有该结构的MS/MS数据。

3.1.2 模型评估和验证

  • 训练数据:使用了 24,539 个化合物的正离子模式 MS/MS 质谱数据来训练这些 SVM。每个化合物的质谱数据和其对应的分子指纹都被用于训练模型。
  • 结构不重叠(structure-disjoint)
  • 独立数据集:3,387 个化合物的独立 MS/MS 数据集来进一步评估模型

3.1.3 预测结果

3.2 下游任务

三个

4 Methods

4.1 训练数据

1. 正离子模式质谱数据集

  • 训练数据集:训练用于正离子模式质谱的支持向量机(SVM)使用了来自 24,539 个化合物的数据。这些化合物具有 16,710 个独特的二维结构。这些数据来源于以下几个主要库:
  • NIST 2017:来自商业的 13,708 个化合物
  • GNPS:来自 8,573 个化合物
  • MassBank:来自 2,277 个化合物

这些数据被称为 SVM 训练数据集,用于训练正离子模式的SVM模型。

  • 独立数据集:作为评估模型性能的独立数据集,使用了来自 3,387 个化合物的数据,这些数据来自 MassHunter Forensics/Toxicology PCDL 数据库(由Agilent Technologies提供)。

2. 负离子模式质谱数据集

  • 训练数据集:对于负离子模式,支持向量机(SVM)的训练使用了来自 16,785 个化合物的数据。这些化合物具有 8,079 个独特的二维结构,数据来源包括:

  • NIST 2017:来自 5,517 个化合物

  • GNPS:来自 4,493 个化合物

  • MassBank:来自 6,775 个化合物

  • 正离子模式:产生的离子带有正电荷,通常形成的质谱信号较强,适用于大多数有机分子的分析。
  • 负离子模式:产生的离子带有负电荷,通常适用于某些特定类型的分子,如有机酸、酚类、氯化物等。

3. 数据集的作用和区别

  • SVM训练数据集:用于训练SVM模型,主要用于从质谱数据中提取分子指纹,并帮助预测化合物类别。

  • 结构数据集:这部分数据用于训练 CANOPUS 的深度神经网络(DNN),不同于SVM训练数据集。

SVM数据集结构数据集 的主要区别在于,SVM数据集主要关注质谱数据和分子指纹之间的关系,而结构数据集则关注分子结构与化合物类别之间的关系。

4.2 分子指纹图谱预测

文中提到了几种常见的 分子指纹方法

  • CDK Substructure:这是由 Chemistry Development Kit (CDK) 提供的一个方法,它用于提取分子中的子结构特征,如特定官能团或化学键的存在。CDK 是一个化学信息学库,广泛应用于化学结构的解析和分子指纹的计算。
  • PubChem CACTVS:CACTVS(Chemistry Application Containing Tools for Structure Visualization)是一个计算工具,可以用于生成化学指纹,它考虑了分子中的不同子结构。
  • Klekota-Roth:这是一种基于分子结构的指纹方法,它通过提取分子中的化学子结构(如环状结构、官能团等)来表示分子。
  • FP3:FP3 是一种基于分子拓扑的指纹方法,用于表示分子的拓扑特征(如分子中的环、桥接等结构)。
  • MACCS:MACCS 指纹是通过化学特征的存在与否(如官能团或子结构)来表示分子的。
  • Extended Connectivity (ECFP):扩展连通性指纹(ECFP)是一种基于分子连接性的指纹方法,它考虑了分子中原子的邻接关系及其周围的结构特征。

这些方法计算出来的分子指纹是通过将分子结构转化为一系列数字或二进制值来表达分子的特征。例如,分子指纹可以标记分子是否具有某种特定的官能团,或者是否包含某些结构元素。

  • 为什么使用不同的分子指纹方法
    • 文中提到,多个不同的分子指纹方法被用来 计算分子属性,如官能团的存在、分子骨架等。这些方法的目的是提取尽可能多的分子特征,以便后续进行 预测模型训练。比如,CSI:FingerID 使用了来自多个分子指纹方法的 490个分子属性,这些属性用于预测不同的分子特征。

这里实际上是直接用的 CSI:FingerID kernel SVMs,这篇论文的直接进行训练的模型