近日,真邁生物(wù)與Sentieon團隊合作,開發并驗證了(le)GenoLab M測序儀搭配DNAscope專屬分(fēn)析模型的(de)高(gāo)精度變異檢測方案。基于該檢測方案,在人(rén)源細胞系标準品全基因組(WGS)與全外顯子組重測序(WES)測試中,GenoLab M展現出了(le)相對(duì)于Illumina NovaSeq與NextSeq測序平台在SNP與Indel檢測準确度的(de)顯著優勢。
高(gāo)通(tōng)量測序技術完成商業化(huà)的(de)15年間,市場(chǎng)基本上被Illumina測序平台所壟斷。尤其是2014年其推出的(de)桌面式測序儀NextSeq 500以及2017年推出的(de)生産工廠級别的(de)NovaSeq 6000,代表了(le)這(zhè)兩個(gè)級别測序儀的(de)主流水(shuǐ)平。然而,業界希望有更多(duō)的(de)選擇,期待有新的(de)測序儀品牌的(de)産品能夠同時(shí)滿足精準高(gāo)效,靈活,經濟的(de)應用(yòng)需求。
真邁生物(wù)推出了(le)全新桌面級測序平台GenoLab M。該平台基于芯片擴增的(de)表面熒光(guāng)測序技術SURFseq(Surface Restricted Fluorescence Sequencing)對(duì)堿基的(de)熒光(guāng)信号進行識别,實現大(dà)規模并行測序,在之前發表的(de)轉錄組評測文章(zhāng)中展現了(le)不俗的(de)應用(yòng)潛力。本次基于GenoLab M平台的(de)測序數據結合Sentieon DNAscope分(fēn)析流程,亦獲得(de)了(le)WGS和(hé)WES的(de)高(gāo)準确度變異結果,證明(míng)了(le)GenoLab M平台在DNA和(hé)RNA測序領域的(de)通(tōng)用(yòng)性。
Sentieon的(de)DNAsocpe分(fēn)析流程基于機器學習(xí)原理(lǐ),相比于開源GATK能夠更快(kuài)更準确的(de)處理(lǐ)DNA測序數據,完成變異檢測。相比于針對(duì)Illumina平台開發的(de)GATK流程,Sentieon DNAscope可(kě)以通(tōng)過訓練不同的(de)算(suàn)法模型,特異性的(de)适配各種測序平台的(de)數據特性,糾正系統性偏差,提升變異檢測準确率。
在本文中,作者團隊使用(yòng)NA12878人(rén)源細胞系标準品DNA構建的(de)WGS和(hé)WES(Agilent V8捕獲)兩個(gè)文庫分(fēn)别在GenoLab M、NovaSeq 6000和(hé)NextSeq 500平台上進行測序,NovaSeq/NextSeq平台測序結果使用(yòng)GATK算(suàn)法(文中使用(yòng)的(de)Sentieon DNAseq軟件是基于GATK算(suàn)法的(de)一個(gè)加速方案)分(fēn)析作爲标準流程産生基線數據,與GenoLab M平台測序數據使用(yòng)DNAscope适配流程的(de)結果進行準确度的(de)比對(duì)。
圖表1 流程圖
使用(yòng)兩種标準品文庫,三種測序平台,兩種分(fēn)析工具搭建的(de)項目流程圖
統計GenoLab M、NovaSeq 6000和(hé)NextSeq 500的(de)WGS和(hé)WES測序數據可(kě)見,GenoLab M原始下(xià)機數據的(de)質量值介于NovaSeq 6000和(hé)NextSeq 500之間,數據冗餘率(Duplication Rate)較低。
圖表2 測試數據集的(de)基本質控
GL_WGS_22/GL_WGS_33:分(fēn)别代表GenoLab M平台WGS測序深度22X/33X數據
NA_WGS_22/NA_WGS_33:分(fēn)别代表NovaSeq 6000平台WGS測序深度22X/33X數據
GL_WES_100/GL_WGS_raw:分(fēn)别代表GenoLab M平台WES測序深度100X/原始下(xià)機數據
NA_WES_100/NA_WGS_raw:分(fēn)别代表NovaSeq 6000平台WES測序深度100X/原始下(xià)機數據NT_WES_100/NT_WGS_raw:分(fēn)别代表NextSeq 500平台WES測序深度100X/原始下(xià)機數據
文章(zhāng)首先分(fēn)析了(le)GenoLab M以及NovaSeq 6000平台在全基因組數據處理(lǐ)中的(de)表現,考慮到測序深度決定了(le)大(dà)部分(fēn)數據生成的(de)成本,我們在33x深度以外又通(tōng)過降采樣增加了(le)22x的(de)淺深度數據進行分(fēn)析。分(fēn)析完成後一共生成了(le)4個(gè)VCF文件,參考GIAB高(gāo)置信變異集(V4.2.1)計算(suàn)SNP和(hé)InDel檢測的(de)靈敏度、特異性以及綜合F-score。
可(kě)以看出,在全基因組的(de)範圍内,Genolab M+DNAscope的(de)靈敏度與特異性都顯著超越同深度的(de)NovaSeq+GATK結果,并且前者22x深度的(de)整體準确率能夠達到後者33x的(de)水(shuǐ)平,展現了(le)卓越的(de)成本控制潛力。在基因組的(de)細分(fēn)區(qū)域,也(yě)可(kě)以看到相似的(de)結論。
在重複序列區(qū)域Genolab M平台展現了(le)更加顯著的(de)準确度優勢,爲該區(qū)域相關緻病基因的(de)檢測帶來(lái)了(le)更多(duō)潛力。
圖表3 WGS變異檢測結果數據統計
全基因組範圍内 (A) SNP、 (B) Indel的(de)靈敏度,特異性,F-score;分(fēn)區(qū)分(fēn)析中,20号染色體(chr20)、低難度區(qū)域(NIADR, not-in-all-difficult-region)、重複區(qū)域(SDR, seg-dup-region)中(C) SNP (D) InDel的(de)靈敏度,特異性,F-score。
在WES的(de)準确率評測中,作者比對(duì)了(le)GenoLab M,NovaSeq6000以及NextSeq500這(zhè)三個(gè)平台生成的(de)數據,每個(gè)數據又被降采樣到100x,一共産生6個(gè)結果文件進行比對(duì)。
通(tōng)過下(xià)圖可(kě)以看出,基于WES數據,Genolab M+DNAscope變異檢測的(de)靈敏度(Recall)與NovaSeq/NextSeq+GATK檢測結果類似,但是變異檢測的(de)特異性(Precision)大(dà)幅度領先,最終的(de)綜合F-score也(yě)較高(gāo),可(kě)以在100x的(de)深度下(xià)達到NovaSeq/NextSeq平台更高(gāo)深度才能達到的(de)準确率。
圖表4 WES變異檢測結果數據統計
(A) SNP (B) InDel的(de)靈敏度,特異性,F-score。
另外,我們比較了(le)WES數據平台間變異檢測結果的(de)一緻性可(kě)以看出,三個(gè)平台對(duì)SNP的(de)檢測結果一緻性非常高(gāo),絕大(dà)多(duō)數正确的(de)SNP被所有平台檢出,但不同平台對(duì)InDel的(de)檢測結果則略有差異。
圖表5 WES變異檢測結果平台間一緻性分(fēn)析
(A)SNP,(B)InDel。
GenoLab M作爲新一代桌面型高(gāo)通(tōng)量基因測序平台,爲用(yòng)戶提供了(le)一個(gè)新的(de)選擇。在本次的(de)WGS和(hé)WES評測中,真邁生物(wù)GenoLab M +Sentieon DNAscope檢測方案展現了(le)優異的(de)變異檢測準确率,這(zhè)不僅來(lái)源于測序平台本身的(de)高(gāo)質量,同時(shí)也(yě)來(lái)源于Sentieon DNAscope特異性适配模型的(de)高(gāo)性能。
真邁生物(wù)與Sentieon将持續合作,共同推動DNA重測序解決方案的(de)升級與叠代,爲業界提供更多(duō)更好的(de)技術選擇!
關于Sentieon
Sentieon緻力于解決生物(wù)信息數據分(fēn)析中的(de)速度與準确度瓶頸,通(tōng)過算(suàn)法的(de)深度優化(huà)和(hé)企業級的(de)軟件工程,大(dà)幅度提升NGS數據處理(lǐ)的(de)效率,準确度,和(hé)可(kě)靠性。公司自成立以來(lái),多(duō)次赢得(de)precisionFDA國際生物(wù)信息挑戰賽的(de)第一名,包括三次臨床多(duō)組學聯合分(fēn)析AI建模大(dà)賽冠軍,展現了(le)業内頂級的(de)研發實力。Sentieon爲來(lái)自于分(fēn)子診斷,藥物(wù)研發,臨床醫療等多(duō)個(gè)領域的(de)合作夥伴和(hé)科研機構提供軟件解決方案,共同推動基因技術的(de)發展,實現“成就精準數據,服務精準醫療“的(de)願景。