目前,能夠完成DNA大規(guī)模平行測(cè)序的平臺(tái),除了基于邊合成邊測(cè)序原理的Illumina平臺(tái)和基于半導(dǎo)體測(cè)序法的Thermo Fisher平臺(tái)外,作為新興測(cè)序平臺(tái)代表的華大智造DNBSEQ平臺(tái)異軍突起,長(zhǎng)讀長(zhǎng)平臺(tái)Oxford Nanopore也呈飛躍式發(fā)展。 各家測(cè)序儀的“霸主之爭(zhēng)”由來已久,在人類和細(xì)菌基因組DNA層面的測(cè)序性能到底如何,不同的檢測(cè)需求又該如何進(jìn)行平臺(tái)選擇?到底應(yīng)該如何看待各個(gè)平臺(tái)的錯(cuò)誤模式? 近日,由生物分子資源設(shè)施協(xié)會(huì)(Association of Biomolecular Resource Facilities ,ARBF)支持的ABRF NGS II期研究成果發(fā)布于預(yù)印本平臺(tái)BioRxiv。此研究分析了在文庫制備和生物信息可控下, 各大測(cè)序平臺(tái)的數(shù)據(jù),將平臺(tái)的性能和測(cè)序錯(cuò)誤模式一一揭示,為各大平臺(tái)的“霸主之爭(zhēng)”提供真實(shí)全面的參考依據(jù)。 1 ABRF NGS II 期研究,規(guī)模宏大 ABRF于1989年正式組建,成員包括來自41個(gè)國(guó)家/地區(qū)、340個(gè)不同核心實(shí)驗(yàn)室的1000多位科學(xué)家,成員來自工業(yè)界、政府、學(xué)術(shù)界以及研究機(jī)構(gòu)。ABRF致力于通過研究、交流和教育推進(jìn)生物技術(shù)實(shí)驗(yàn)室的核心競(jìng)爭(zhēng)力和研究。 在ABRF NGS II期研究中,研究者在多個(gè)實(shí)驗(yàn)室內(nèi),基于16款測(cè)序平臺(tái),對(duì)一個(gè)人類基因組家族、三個(gè)單獨(dú)的菌株和十種細(xì)菌的宏基因組混合物測(cè)序,并將各平臺(tái)數(shù)據(jù)進(jìn)行多角度比較。 這些平臺(tái)包括6款I(lǐng)llumina平臺(tái)、3款ThermoFisher Ion Torrent平臺(tái), 2款DNBSEQ平臺(tái)(BGISEQ-500和MGISEQ-2000)以及Oxford Nanopore平臺(tái)和Genapsys平臺(tái)等。數(shù)據(jù)分析包括各平臺(tái)的reads mapping能力,不同平臺(tái)的測(cè)序覆蓋度、復(fù)雜區(qū)域的測(cè)序錯(cuò)誤率、不同突變類型的檢出影響因素等。 2 以25X均一化測(cè)序深度后,長(zhǎng)讀長(zhǎng)和短讀長(zhǎng)平臺(tái)的基因組覆蓋度均較好。 按照UCSC的 RepeatMask分類,DNA重復(fù)序列分為Alu、L1、L2、LTR、微衛(wèi)星、簡(jiǎn)單重復(fù)和端粒區(qū)域。測(cè)序數(shù)據(jù)顯示,對(duì)于DNA重復(fù)序列的檢測(cè),平臺(tái)各有所長(zhǎng):BGISEQ-500、HiSeq4000 、NovaSeq 2x150bp在捕獲Alu區(qū)域時(shí)具有優(yōu)勢(shì),HiSeq 2500、HiSeq X10和NovaSeq 2x150bp在捕獲L1、L2和低復(fù)雜度區(qū)域表現(xiàn)最佳,PacBio CCS和NovaSeq在微衛(wèi)星區(qū)域和簡(jiǎn)單重復(fù)區(qū)域的測(cè)序中表現(xiàn)最好, PromethION平臺(tái)的特長(zhǎng)則在端粒區(qū)域的捕獲。 分析結(jié)果顯示,測(cè)序錯(cuò)誤率與基因組GC含量具有直接相關(guān)性。在GC含量比較高的區(qū)域(75%-100%),各平臺(tái)的錯(cuò)誤率均比較高。就錯(cuò)誤模式而言,華大智造的DNBSEQ平臺(tái)和Illumina平臺(tái)更傾向于核苷酸替代,而且這兩個(gè)平臺(tái)比較,靈敏度相當(dāng),但華大智造的精度略好;Genapsys平臺(tái)和長(zhǎng)讀長(zhǎng)平臺(tái)最主要錯(cuò)誤來源是插入/缺失。 SNV(單核苷酸變異)和INDEL(插入/缺失突變)是生物DNA常見的突變類型。 在SNV的檢出中, 華大智造的DNBSEQ平臺(tái)最為靈敏,其次是NovaSeq 2x250bp、NovaSeq 2x150bp、HiSeq 2500、HiSeq X10和HiSeq4000平臺(tái)。對(duì)INDEL的檢出中,所有平臺(tái)靈敏度均達(dá)到99.5%,華大智造的DNBSEQ平臺(tái)和NovaSeq的檢出相似,優(yōu)于其他平臺(tái)。PacBio、Nanopore平臺(tái)對(duì)于SNV和INDEL的捕獲能力均較弱。 數(shù)據(jù)表明, SV(結(jié)構(gòu)變異)的檢出與多因素相關(guān),如SV類型、測(cè)序平臺(tái)、實(shí)驗(yàn)室間的操作等。 在各平臺(tái)數(shù)據(jù)中,HiSeqX10檢測(cè)到SVs數(shù)量最多,其次是HiSeq4000和HiSeq2500。檢出假陽性最多的平臺(tái)依次是HiSeq2500, HiSeqX10和HiSeq4000。 此研究對(duì)于GC不平衡的原核細(xì)菌基因組進(jìn)行了測(cè)序分析,包括三種單一菌種和十種細(xì)菌的混合物,各樣本分別于MiSeq、Ion PGM和 Ion S5平臺(tái)測(cè)序。 細(xì)菌基因組捕獲的影響因素主要為菌種差異和測(cè)序平臺(tái)差異。在各個(gè)平臺(tái)中,ThermoFisher的Ion PM和 S5平臺(tái)在錯(cuò)誤率角度略勝一籌。對(duì)于復(fù)雜的宏基因組樣本,所有平臺(tái)都能夠識(shí)別混合物中的所有菌株,但對(duì)基因突變的捕獲水平差異較大。 3 ABRF NGS II期研究是迄今為止最全面的DNA測(cè)序分析研究之一,此研究跨越不同基因組大小和核苷酸組成,多角度分析揭示了測(cè)序平臺(tái)之間的特征差異,以及同一平臺(tái)的可變性和可重復(fù)性。 綜合各項(xiàng)數(shù)據(jù),樣本的GC含量是影響測(cè)序錯(cuò)誤率的主要因素。對(duì)單一樣本的DNA測(cè)序而言,成熟的平臺(tái)如Illumina的表現(xiàn)依舊名列前茅,新興平臺(tái)的多項(xiàng)性能已經(jīng)和成熟平臺(tái)不相上下。但就特定區(qū)域如Alu的捕獲能力,對(duì)SNV、INDEL的檢出和錯(cuò)誤模式的評(píng)估,來自華大智造的DNBSEQ平臺(tái),受益于其獨(dú)特的測(cè)序文庫方法學(xué),已經(jīng)獨(dú)具優(yōu)勢(shì)。 不可忽略的是,“對(duì)于宏基因組樣本,各平臺(tái)對(duì)樣本變異的捕獲能力差異較大,這表明在復(fù)雜背景下對(duì)于特定突變的捕獲,仍存在挑戰(zhàn)”, 論文作者、威爾康奈爾醫(yī)學(xué)院Jonathan Foox教授如是說。 多年來,DNA大規(guī)模平行測(cè)序的市場(chǎng)一直由Illumina和ThermoFisher等寡頭壟斷。通過此研究,我們欣喜的發(fā)現(xiàn),越來越多的新興測(cè)序平臺(tái)依托精益求精的性能指標(biāo),在“霸主之爭(zhēng)”中不可小覷。 參考資料: Jonathan Foox .et al,Multi-Platform Assessment of DNA Sequencing Performance using Human and Bacterial Reference Genomes in the ABRF Next-Generation Sequencing Study , bioRxiv ,2020,doi:https://doi.org/10.1101/2020.07.23.218602 · END · |