目的 數(shù)據(jù)非依賴性采集( data independent acquisition,DIA) 是目前針對(duì)大通量蛋白質(zhì)組學(xué) 分析常用的一種數(shù)據(jù)采集方式。 在對(duì) DIA 數(shù)據(jù)無目標(biāo)的分析方式中,由于無法預(yù)測(cè)肽段出現(xiàn)在 DIA 數(shù) 據(jù)中的位置,需要對(duì)譜中所有的峰進(jìn)行分析。 但譜中含有大量的噪聲峰,這些峰會(huì)嚴(yán)重影響后續(xù)蛋白質(zhì) 定性定量分析的效率與效果,所以在 DIA 數(shù)據(jù)的無目標(biāo)分析過程中先進(jìn)行預(yù)處理以去除噪聲峰就成了 很重要的 一 步。 為 了 能 充 分 利 用 從 DIA 數(shù) 據(jù) 中 提 取 出 來 的 肽 段 在 一 級(jí) 質(zhì) 譜 ( first stage of mass spectrometry,MS1) 和二級(jí)質(zhì)譜( second stage of mass spectrometry,MS2) 中的峰信息,提出質(zhì)譜卷積神經(jīng)網(wǎng) 絡(luò)( mass spectrometry convolutional neural network,MSCNN) 模型。 方法 不同于傳統(tǒng)的方法,本文首先提 出適用于 MSCNN 網(wǎng)絡(luò)結(jié)構(gòu)的樣本提取流程,然后利用 MSCNN 對(duì)樣本進(jìn)行訓(xùn)練和學(xué)習(xí),該模型可以最 大限度利用肽在 MS1 和 MS2 中的特征,最后通過觀察模型在測(cè)試集中的結(jié)果來驗(yàn)證模型的效果。 結(jié)果 和傳統(tǒng)算法相比,在保證真峰處理效果大致相同的情況下,MSCNN 模型過濾噪聲峰的數(shù)量提高了約 11.2%。 結(jié)論 本文提出的 MSCNN 模型可以更有效地去除 DIA 數(shù)據(jù)中的噪聲峰。
|