非靶向脂质组学生物信息分析

生物信息学手段分析Lipidomics

数据预处理

1)缺失值处理:
-缺失值过滤
-缺失值填充:最小值填充、平均/中值填充、KNN (K-nearest neighbor)填充、BPCA (Bayesian PCA)填充、PPCA (probability PCA)填充、奇异值分解(Singular value Decomposition, SVD)

2)噪声信号去除
—对于单个离子峰,RSD小于0.3表示该离子峰合格,否则将其去除。
—对于整体数据,RSD<0.3,峰值>的比例为60%,则整体数据是合格的。

3)样本归一化:提高样本之间的可比性。

4)数据转换:下游分析一般要求数据为正态分布或高斯分布,因此数据通常需要进行对数转换或功率转换。这两种方法都能消除最大值的抑制效应,并能调整数据的分布。

数据质量控制

  • 评估如下:
  • QC样品的TIC重叠
  • QC样品中CV<30%的峰的比例
  • 在PCA中QC样本的聚集程度
  • QC样品的相关性

数据质量控制

统计分析

1)单变量分析:
一次只分析一个变量,即一个m/z,并检查不同样本在不同组中的m/z表达是否不同。常用的方法有多重分析、t检验、秩和检验、方差分析等。

2)聚类分析
根据具体指标(变量),对研究样本进行分类。聚类分析需要建立一种方法来度量样本之间的相似度或不相似度(通常是欧氏距离、相关系数等)。常用的聚类方法有系统聚类(分层聚类)、K-means聚类等。

3)多变量分析
-主成分分析(PCA)

样本的PCA一般可以反映各组样本之间整体的代谢差异以及组内样本之间的变异程度。

多变量分析

-偏最小二乘(PLS)方法:PLSDA图类似于PCA

——OPLS-DA

为了消除与分类无关的噪声信息,同时也为了获得导致两组之间存在显著差异的相关代谢产物信息,我们使用OPLS-DA来过滤与模型分类无关的信号。

——相关分析

非靶向脂质组学或晚期靶向脂质组学鉴定出的脂质与表型相关。

4)构建回归方程进行预测

5)网络分析
-富集分析
-途径分析

拓扑分析计算出代谢物在网络中的中心位置,并加入到路径分析中,输出路径在整个网络中的影响。重要性越大,其在整个路径中的位置就越中心。

多变量分析

如果您对我们的脂质组学服务有任何疑问,请联系我们

*我们的服务只能用于研究目的,不能用于临床用途。

相关章节:


在线调查

联系我们

版权所有©2022创意蛋白质组学。保留所有权利。