目的 設(shè)計(jì)一種基于高通量測(cè)序數(shù)據(jù)的功能強(qiáng)大、處理速度快且不依賴于運(yùn)行環(huán)境的本地化的微生物檢測(cè)算法。方法 對(duì)微生物基因組進(jìn)行分組,每次使用一組微生物基因組提取映射到其上的測(cè)序數(shù)據(jù)并濾除數(shù)據(jù)中的人類基因組數(shù)據(jù),然后對(duì)序列進(jìn)行拼接和拼接片段比對(duì)。如果根據(jù)比對(duì)結(jié)果檢測(cè)出微生物種屬則流程結(jié)束,否則使用下一組微生物基因組進(jìn)行分析。若使用所有微生物基因組分析結(jié)束后仍未確定微生物種屬,則濾除剩余的測(cè)序序列中的人類測(cè)序數(shù)據(jù)并進(jìn)行拼接,拼接片段通過序列比對(duì)無法匹配到微生物基因組,則將這些拼接片段歸為未知病原微生物的基因組片段。結(jié)果 利用新的檢測(cè)算法對(duì)模擬數(shù)據(jù)和實(shí)際測(cè)序數(shù)據(jù)進(jìn)行分析,以RINS作為對(duì)比。對(duì)于已知病原微生物,新算法的平均處理時(shí)間為75min,RINS的平均處理時(shí)間為767min,兩個(gè)算法檢測(cè)結(jié)果一致,新算法得到的拼接序列更長(zhǎng)。對(duì)于未知病原微生物樣本,新算法檢測(cè)的平均處理時(shí)間為64min,RINS的為584min,新算法得到了較完整的原始序列。對(duì)于實(shí)測(cè)數(shù)據(jù),新算法的平均處理時(shí)間為23min,RINS的為68min,檢測(cè)結(jié)果一致。 結(jié)論 本文實(shí)現(xiàn)的微生物檢測(cè)算法能夠?qū)ξ⑸镞M(jìn)行準(zhǔn)確、快速的檢測(cè),同時(shí),新的檢測(cè)算法可以發(fā)現(xiàn)未知的微生物并獲取未知微生物的基因組片段。
|