代谢组学∣如何得到真正的高质量数据?
日期:2017-10-19

  代谢组学研究中,高通量数据批次内和批次间存在的非生物误差对分析结果有不可忽视的影响。今天给大家讲一讲,如何得到真正的高质量代谢组学数据?


  首先,样品的检测要持续很长时间,尤其是当样本量很大的时候。在检测过程中实时地监控仪器稳定性、信号是否正常就十分重要。我们需要及时发现异常,尽早将问题排除,以保证最终采集数据的质量!这就要求我们做好“过程质控”。


  另外,色谱质谱联用仪是一个十分复杂精密的系统,随着时间的推移会受到温度、湿度、震动、电路板老化等客观因素的影响,可能会导致一些系统误差,这是不可避免的。在检测过程中,由于人的不确定性也会引入一些误差。这就需要我们对数据进行“漂洗”,将噪音去除掉,做好“数据质控”。


  温馨提醒:仅对数据做QC质控,即对QC样本做PCA,只是对最终结果的一个展示。而获取“最终结果”的过程也要做质量控制。


  一、高质量数据之过程质控


  ①仪器稳定性


  由图1可以看到,QC样本TIC出峰保留时间和峰面积都重叠很好,说明仪器稳定性很好。


1.png


图1 正式检测前连续检测QC样本TIC图


  ②内标响应情况


  由图2可以看到内标XX在样品中的保留时间和峰面积稳定性很好。说明仪器数据采集稳定性很好。


2.png

图2 内标XX的EIC图


  ③物质残留情况


  通过对空白样品的检测可以考察在检测过程中物质残留情况。从图3中可以看到空白样品中无显著峰检出,说明物质残留控制的很好。不存在样品间的交叉污染。


3.png


图3 空白样品TIC图


  二、高质量数据之数据质控


  如果“过程质控”是OK的,那么我们要如何来判断实验数据是否“可接受”呢?需要以下4条质控来对数据进行把关:


  ①QC样本在PCA模式识别中的分布


  理论上讲,QC样本都是相同的,但是在物质提取、检测分析过程中会有系统误差,导致QC样品间会有差异。这个差异越小说明整个方法稳定性越好数据质量越高。体现在PCA分析图上就是QC样本的分布会聚集在一起。从图4我们可以看到QC样本密集分布,说明本次实验数据质量很高。


4.png


图4 PCA得分图绿色的点为QC样本,红色的点为正式实验样本


  ②QC样本的相关性


  QC样本相关性越高(越接近于1)说明整个方法稳定性越好数据质量越高。从图5我们可以看到QC样本相关性很高,说明本次实验数据质量很高。


5.png


图5 QC样本相关性分析


  ③QC样本中内标响应的稳定性


  QC样本中内标为外源引入的物质,加入的量也是相同的。所以内标的响应差异越小(RSD≤30%),说明系统越稳定,数据质量越高。


6.png


表1 QC样本中内标检测情况


  ④QC样本中信号响应稳定的峰的占比


  QC样本中信号响应稳定的峰才是真正有意义的数据,那么这些稳定峰的占比可以用来衡量数据的质量。占比越高,说明数据的质量越高。从表2中数据可以看到本次实验数据按照RSD≤30%筛选后的得率,无论是负离子模式还是正离子模式都需要高于70%,则说明实验数据质量很高。


7.png


表2 QC样本RSD≤30%筛选得率