鉴别代谢物筛选一般采用什么标准?
答:多元统计模型的VIP值和单变量统计t检验的P值通常同时用于筛选差异代谢物。单因素统计分析方法如t检验和方差分析更关注代谢产物水平的独立变化。多元统计分析更多地关注代谢产物之间的关系及其在生物过程中的促进/拮抗关系。同时考虑两种统计分析方法的结果,有助于我们从不同的角度观察数据并得出结论,也有助于我们避免只使用一种统计分析方法造成的假阳性误差或模型过拟合。
筛选阈值一般为VIP > 1, P < 0.05。如果能获得大量的差异代谢物,则可以增加差异多样性的筛选条件。
如果我没有发现差异代谢物该怎么办?
答:如果使用常用的阈值(VIP>1, P<0.05)进行筛选,但未发现差异代谢物,则可以更严格地设置阈值,如VIP>1.5,或P<0.01。如果仍然没有筛选到差异代谢物,则可以对检测到的物质进行KEGG通路分析。对代谢物所涉及的代谢途径进行调查,观察是否存在其他补充途径,代谢途径与疾病之间是否存在一定的相关性。
PLS-DA和OPLS-DA模型有什么区别?
答:OPLS-DA比PLS-DA多了一个正交换算法,它可以过滤掉与模型分类无关的信号。例如,当组间差异相对较小,组内差异相对较大时,PLS-DA的VIP过滤可能是组内差异变量,容易产生误导,而OPLS-DA可以更准确地过滤出组间差异。
在PCA和OPLS-DA模型中,有些样本偏离了95%置信区间,是否需要排除这些数据?
A:不建议拒收。个别样本偏离95%置信区间是正常的,不会影响后续的数据分析。
在主成分分析中提取2个或3个主成分时,区分的依据是什么?
答:在SIMCA中,以Q2区分。当添加主成分导致Q2减少时,说明模型过度拟合,停止添加主成分。
为什么PCA/OPLS-DA模型的解释率有时很低?
A:这一定和样品有关。此外,它还与缩放和变换的方式有关。在这种情况下,我们可以调整数据处理的归一化方法和建模的变换和缩放方法,观察是否有改进。
PLS模型交叉验证的Q2值小于0.5是否意味着该模型不能使用?
答:一般来说,Q2值越接近1,模型的预测效果越好,但没有明确要求Q2必须是>0.5。如果Q2小于0.5,说明模型的预测没有那么好,可靠性没有那么高,但是可以使用。
Q2值只是作为判断的参考,并不是绝对的。
如果我的数据量不是非常大和复杂,我如何使用多元方法进行分析?
答:如果数据量不是很大,可以在SIMCA等软件中使用相同的多元方法进行分析。但是,数据量较小,可能会过度拟合。因此,没有必要使用多元分析方法,可以选择其他方法,如单变量分析方法。
多元统计分析是否适用于多变量和小样本量的情况?为什么6个重复比3个重复做多变量统计分析更好?
答:对于统计分析来说,只有一定的样本量才能显示出统计学意义。对于代谢组学来说,影响代谢的因素很多,所以样本量越大,个体差异就越小。
为什么代谢组学分析通常限于2乘2的比较?
答:主要的限制是OPLS-DA分析。对于两组以上的比较分析,OPLS-DA模型很难计算代谢物对组间差异的贡献。更大的困难是难以给出合理的解释。
两个对照组的样本量会不同吗?
答:可以,只是每组的生物重复数量应满足最低要求
“面积归一化”中的“面积”是指一个样本的总面积还是所有样本的总面积?
A:样品中所测试的所有物质的总面积。
如何从TIC图中找到感兴趣物质的峰值?
A:结合保留时间(RT)和特征质荷比(M/Z)值,找到感兴趣的峰值。