【佳學(xué)基因檢測(cè)13】醫(yī)院所需要的下一代測(cè)序技術(shù)(NGS測(cè)序)
三甲醫(yī)院及臨床醫(yī)學(xué)高通量基因檢測(cè)技術(shù)導(dǎo)讀
下一代測(cè)序 (NGS) 是許多實(shí)驗(yàn)室用來(lái)檢測(cè)遺傳性疾病和腫瘤突變的技術(shù)。這項(xiàng)技術(shù)對(duì)于許多執(zhí)業(yè)病理學(xué)家來(lái)說(shuō)是新的,他們可能不熟悉 NGS 的用途、方法和局限性。
科譜寫(xiě)作目的
讓病理學(xué)家熟悉 NGS 的幾個(gè)方面,包括當(dāng)前和擴(kuò)展的用途;方法學(xué),包括實(shí)驗(yàn)室操作步驟工作方面、生物信息學(xué)和解釋?zhuān)或?yàn)證和熟練程度;限制;以及與將 NGS 數(shù)據(jù)整合到患者護(hù)理中相關(guān)的問(wèn)題。
科普內(nèi)容收集
該評(píng)論基于同行評(píng)審的文獻(xiàn)和在主要學(xué)術(shù)中心的臨床環(huán)境中使用 NGS 的個(gè)人經(jīng)驗(yàn)。
臨床所需的高通量、下一代測(cè)序技術(shù)應(yīng)用共識(shí)
隨著技術(shù)、生物信息學(xué)和資源的發(fā)展,NGS 的臨床應(yīng)用將會(huì)增加,以解決局限性并提高結(jié)果質(zhì)量。臨床實(shí)驗(yàn)室面臨的挑戰(zhàn)是確保測(cè)試具有臨床相關(guān)性、成本效益,并且可以整合到臨床護(hù)理中。
新一代測(cè)序 (NGS) 或大規(guī)模平行測(cè)序是一種同時(shí)對(duì)數(shù)百萬(wàn)個(gè) DNA 片段(或互補(bǔ) DNA)進(jìn)行測(cè)序的方法,由于它能夠同時(shí)分析多個(gè)基因或基因區(qū)域,因此在臨床實(shí)驗(yàn)室中得到了迅速采用。與傳統(tǒng)方法相比,單次測(cè)試。與任何新技術(shù)一樣,NGS 在臨床實(shí)驗(yàn)室中的使用已經(jīng)發(fā)展并將隨著時(shí)間的推移繼續(xù)發(fā)展。該技術(shù)的新應(yīng)用正在繼續(xù)開(kāi)發(fā),新的生物信息學(xué)和濕工作臺(tái)技術(shù)正在開(kāi)發(fā)中,以解決當(dāng)前的限制并提高性能,并且正在積累關(guān)于罕見(jiàn)變異解釋的新知識(shí)。本文概述了臨床 NGS,包括近期趨勢(shì)以及在不久的將來(lái)可能發(fā)生的演變。該評(píng)論基于同行評(píng)審的文獻(xiàn)和在主要學(xué)術(shù)中心的臨床環(huán)境中使用 NGS 的個(gè)人經(jīng)驗(yàn)。明尼蘇達(dá)大學(xué)費(fèi)爾維尤醫(yī)學(xué)中心的分子診斷實(shí)驗(yàn)室自 2012 年以來(lái)提供了一種基于捕獲的 NGS 遺傳病檢測(cè),涵蓋了 568 個(gè)基因,并在 2014 年擴(kuò)展到了 2484 個(gè)基因。此外,自 2014 年以來(lái),我們提供了用于腫瘤學(xué)(血液系統(tǒng)惡性腫瘤和實(shí)體瘤)的 21 基因熱點(diǎn) NGS 面板。 我們的實(shí)驗(yàn)室每年檢測(cè)約 800 例 NGS 遺傳病和 800 例 NGS 腫瘤病例,兩位作者簽署了其中約三分之二的病例。先進(jìn)作者還參加了一個(gè)國(guó)家病理學(xué)組織的委員會(huì),其中討論和解決了 NGS 相關(guān)問(wèn)題。
NGS的當(dāng)前和擴(kuò)展用途
在許多臨床實(shí)驗(yàn)室中,二代測(cè)序是種系(遺傳)和體細(xì)胞(獲得性突變)基因突變的既定測(cè)試方法。對(duì)于遺傳性疾病,種系突變檢測(cè)可能包括靶向 panel、全外顯子組、全基因組或線(xiàn)粒體 DNA 測(cè)序。 針對(duì)各種遺傳性疾病(例如免疫缺陷、骨髓衰竭綜合征、失明、耳聾、線(xiàn)粒體疾病、腎臟疾病、神經(jīng)系統(tǒng)疾病、結(jié)締組織疾病、心肌病、和癌癥易感綜合征等。 與臨床表型相關(guān)的基因的靶向 panel 通常是遺傳性疾病檢測(cè)的先進(jìn)線(xiàn),而全外顯子組測(cè)序則保留用于靶向檢測(cè)無(wú)法提供信息的病例。 全外顯子組測(cè)試通常涉及測(cè)試孩子和父母雙方(三人組測(cè)試)以幫助解釋變異。此外,NGS 技術(shù)還用于分析產(chǎn)前環(huán)境中的游離 DNA。
用于癌癥檢測(cè)的靶向試劑盒也因?qū)嶒?yàn)室而異。 靶向組可能很廣泛,包括實(shí)體和血液系統(tǒng)惡性腫瘤的基因,或者可能更專(zhuān)注于特定類(lèi)型的惡性腫瘤(如髓系腫瘤)。 panel 中的任何給定基因都可以是有效測(cè)序的或僅部分測(cè)序的(例如熱點(diǎn)區(qū)域)。對(duì)于種系和體細(xì)胞測(cè)試,在決定使用測(cè)試時(shí)了解目標(biāo)面板的內(nèi)容非常重要。目前臨床上并未將全外顯子組和全基因組測(cè)序用于腫瘤學(xué)檢測(cè)。
NGS 的一些新應(yīng)用賊近已進(jìn)入臨床領(lǐng)域或正在積極研究用于臨床用途,包括循環(huán)腫瘤 DNA 檢測(cè)、人類(lèi)白細(xì)胞抗原 (HLA) 分型、微生物分析、RNA 測(cè)序和表達(dá)以及甲基化。NGS 的這些新用途中的一些可能得益于現(xiàn)在可用的新儀器的獨(dú)特優(yōu)勢(shì)(參見(jiàn)“新儀器”部分)。使用 NGS 進(jìn)行 HLA 分型有一些挑戰(zhàn)需要克服:區(qū)分低頻等位基因和高頻偽影,以及將 2 個(gè)相似等位基因區(qū)分為 2 個(gè)不同的等位基因。 然而,較新的數(shù)據(jù)分析技術(shù)(例如逐步閾值聚類(lèi))已允許將 NGS 作為 HLA 分型的臨床選擇進(jìn)行探索。 使用 NGS 進(jìn)行短串聯(lián)重復(fù)序列 (STR) 的同一性測(cè)試會(huì)遇到與其他重復(fù)區(qū)域相同的問(wèn)題(參見(jiàn)下文難以測(cè)序的區(qū)域);然而,更新的數(shù)據(jù)分析技術(shù)再次在解決這個(gè)問(wèn)題上取得了進(jìn)展,并且可能適用于其他重復(fù)區(qū)域。臨床 NGS 的其他用途包括藥物遺傳學(xué)、微生物測(cè)序和高級(jí)血型分型(例如 A1 型與 A2 型)。對(duì)這些主題的進(jìn)一步討論超出了本文的范圍。
一段時(shí)間以來(lái),無(wú)細(xì)胞 DNA 已被用于產(chǎn)前檢測(cè)。然而,循環(huán)腫瘤 DNA (ctDNA) 的 NGS,即腫瘤衍生的無(wú)細(xì)胞 DNA,是一項(xiàng)較新的發(fā)展,現(xiàn)已在臨床上可用。 這種檢測(cè)通常被稱(chēng)為液體活檢。測(cè)序 ctDNA 的潛在應(yīng)用包括癌癥篩查或診斷、監(jiān)測(cè)進(jìn)展或反復(fù),以及指導(dǎo)已知癌癥診斷患者的治療。大多數(shù)研究都評(píng)估了 ctDNA 測(cè)序檢測(cè)已知癌癥患者體細(xì)胞突變的能力以及監(jiān)測(cè)疾病的能力。多項(xiàng)研究表明,通過(guò)對(duì) ctDNA 測(cè)序來(lái)監(jiān)測(cè)已知突變與疾病的反復(fù)/進(jìn)展相關(guān)。 此外,使用 ctDNA 突變檢測(cè)來(lái)幫助指導(dǎo)已知腫瘤患者的治療已顯示出實(shí)用性,例如,酪氨酸激酶抑制劑對(duì)肺癌表皮生長(zhǎng)因子受體 ( EGFR ) 激活突變的反應(yīng)。盡管 ctDNA 檢測(cè)突變的敏感性可能低于檢測(cè)腫瘤組織,但 ctDNA 賊常見(jiàn)的臨床應(yīng)用似乎是用于轉(zhuǎn)移性癌癥患者,因?yàn)闆](méi)有足夠的組織進(jìn)行檢測(cè),并且重復(fù)活檢會(huì)導(dǎo)致顯著的發(fā)病率和死亡率,并且當(dāng)檢測(cè) ctDNA 是一個(gè)合理的選擇時(shí)。 使用 ctDNA 篩查或診斷早期癌癥存在更多問(wèn)題。大多數(shù)對(duì)已知癌癥患者的研究并未包含正常對(duì)照,但有限數(shù)量的靶向測(cè)序研究顯示正常對(duì)照中存在一定程度的突變檢測(cè)(假陽(yáng)性),盡管通常處于低水平。 檢測(cè)早期癌癥(假陰性)的敏感性低是另一個(gè)限制。研究表明,早期腫瘤的敏感性在 30% 至 60% 范圍內(nèi),并且某些腫瘤類(lèi)型的假陰性率可能更高,因?yàn)?ctDNA 似乎由于細(xì)胞凋亡和壞死而釋放。 這些假陽(yáng)性和假陰性問(wèn)題限制了 ctDNA 在早期癌癥診斷或篩查中的實(shí)際應(yīng)用。
目前臨床NGS的方法
實(shí)驗(yàn)室操作步驟
樣品經(jīng)過(guò) DNA 提取、文庫(kù)制備、靶標(biāo)富集和測(cè)序(圖 1,A 和 B)。
圖1:A,基于捕獲的測(cè)序的實(shí)驗(yàn)室操作步驟概述。DNA 進(jìn)行文庫(kù)制備,然后在測(cè)序前進(jìn)行基于捕獲的選擇。B,基于聚合酶鏈反應(yīng) (PCR) 的測(cè)序的濕式工作臺(tái)步驟概述。PCR 選擇步驟發(fā)生在文庫(kù)制備之前,或者可以與基于 PCR 的測(cè)序中的文庫(kù)制備步驟結(jié)合使用。
DNA 提取
幾乎所有的 DNA 提取方法都是可以接受的。福爾馬林固定、石蠟包埋 (FFPE) 組織的提取方法可能需要特別小心,在某些情況下可能需要宏觀解剖或顯微解剖以富集腫瘤。 DNA 定量由 Qubit 或 Picogreen(Thermo Fisher Scientific,Waltham,Massachusetts)而不是標(biāo)準(zhǔn)分光光度法進(jìn)行。
文庫(kù)制備
文庫(kù)制備是指制備用于測(cè)序儀的 DNA 的過(guò)程。盡管有許多方法可用,但它們都導(dǎo)致將 DNA 分解成片段并在末端添加接頭。 適配器可能包括分子條形碼(以允許合并患者樣本)、通用聚合酶鏈?zhǔn)椒磻?yīng) (PCR) 引物、將 DNA 片段與表面結(jié)合的雜交序列以及啟動(dòng)測(cè)序的識(shí)別位點(diǎn)。術(shù)語(yǔ)庫(kù)是指這些帶有側(cè)翼接頭的 DNA 片段,可用于測(cè)序。接頭之間的 DNA 片段大小稱(chēng)為插入片段大小. 刀片尺寸可能不同,短刀片尺寸和長(zhǎng)刀片尺寸有不同的優(yōu)勢(shì)。較短的片段更有可能兩端落在外顯子內(nèi),這通常是感興趣的區(qū)域,而較長(zhǎng)的片段更有可能在內(nèi)含子中有 1 個(gè)末端,如果僅外顯子區(qū)域被檢測(cè),這可能會(huì)增加結(jié)構(gòu)重排的檢測(cè)。選擇(圖2)。有關(guān)結(jié)構(gòu)重排的更多詳細(xì)信息,請(qǐng)參閱結(jié)構(gòu)變異和拷貝數(shù)變異。
圖2:具有短 DNA 插入片段(頂部)的片段更有可能有兩個(gè)配對(duì)末端讀數(shù)(紅色條)落在外顯子內(nèi)。具有長(zhǎng)插入大小的片段更有可能跨越重排的斷點(diǎn),這通常發(fā)生在內(nèi)含子中。轉(zhuǎn)載自 Yohe SL。熱點(diǎn)話(huà)題聚焦——臨床二代測(cè)序的新前沿。
目標(biāo)測(cè)序區(qū)域富集
生成的文庫(kù)經(jīng)過(guò)富集以進(jìn)行全外顯子組分析和靶向測(cè)試,或直接測(cè)序以進(jìn)行全基因組分析??梢酝ㄟ^(guò)與互補(bǔ)序列雜交(序列捕獲)或通過(guò) PCR 進(jìn)行富集。PCR 富集通常與文庫(kù)制備步驟相結(jié)合,因?yàn)檫x擇感興趣區(qū)域的引物也可能包含接頭序列。富集策略的選擇通常由臨床應(yīng)用決定:序列捕獲更適合大基因組區(qū)域,PCR 更適合需要更大富集的較小區(qū)域。
測(cè)序
大多數(shù)臨床測(cè)序是在兩種主要儀器中的一種上進(jìn)行的:Illumina 測(cè)序儀(加利福尼亞州圣地亞哥),包括 HiSeq、MiSeq 和 NexSeq;或 Ion Torrent 系列機(jī)器,包括 IonPGM、IonProton 和 IonS5(Thermo Fisher Scientific)。這兩種類(lèi)型的機(jī)器在化學(xué)成分、檢測(cè)方法、優(yōu)缺點(diǎn)方面有所不同 (表 1)。
表格1。
Illumina 和 Ion Torrent 平臺(tái)的比較
測(cè)序平臺(tái) | 局部克隆擴(kuò)增 | 偵查 | 讀取長(zhǎng)度、基數(shù) | 優(yōu)點(diǎn) | 缺點(diǎn) |
Illuminaa | 流動(dòng)池 | 發(fā)熒光的 | 100–300 | 成對(duì)末端讀取 | 富含GC區(qū)域中的錯(cuò)誤 |
Iron Torrent | 珠粒和乳液 | 離子(pH) | 100–400 | 短期運(yùn)行時(shí)間 | 均聚物誤差 |
成對(duì)兩端測(cè)序 | 截?cái)嗾`差 |
Illumina 和 Ion Torrent 平臺(tái)的先進(jìn)個(gè)測(cè)序步驟是固定每個(gè) DNA 片段并對(duì)其進(jìn)行克隆擴(kuò)增。需要克隆擴(kuò)增來(lái)產(chǎn)生足夠大的檢測(cè)信號(hào)。Ion Torrent 使用微珠乳液進(jìn)行固定和克隆擴(kuò)增,而 Illumina 測(cè)序儀使用流通池。 流動(dòng)槽或珠子包含與 DNA 片段上的部分接頭雜交的序列。輸入 DNA 濃度對(duì)于確保每個(gè)珠子僅結(jié)合 1 個(gè) DNA 片段并確保 DNA 片段在流動(dòng)槽上的間距良好至關(guān)重要??寺U(kuò)增步驟產(chǎn)生一個(gè)珠子或簇,其中包含大約 1000 個(gè)與其他分子物理分離的獨(dú)特親本 DNA 分子的相同拷貝。對(duì)于 Ion Torrent,然后將珠子放入孔中(每孔 1 個(gè)珠子)。
Illumina 測(cè)序儀使用帶熒光檢測(cè)的合成測(cè)序( 圖3 , A 到 D)。所有 4 個(gè)熒光標(biāo)記的核苷酸都被添加并競(jìng)爭(zhēng)下一個(gè)空間?;パa(bǔ)標(biāo)記的核苷酸將結(jié)合,但阻斷劑阻止每輪添加超過(guò) 1 個(gè)核苷酸(可逆終止化學(xué))。剩余的未結(jié)合核苷酸被洗掉。激光激發(fā)導(dǎo)致記錄的熒光發(fā)射(同時(shí)為每個(gè) DNA 片段簇)。熒光標(biāo)簽和阻斷劑被切割,然后下一輪開(kāi)始。在每一輪中,從每個(gè) DNA 簇中讀取 1 個(gè)堿基對(duì)。這個(gè)過(guò)程可以在 DNA 片段的另一端重復(fù),稱(chēng)為配對(duì)末端讀數(shù)(表 2)。
圖 3:Illumina 邊合成邊測(cè)序(A 到 D)和 Ion Torrent 離子測(cè)序(E)的圖示。A,熒光標(biāo)記的核苷酸(黑色圓圈和彩色圓圈)競(jìng)爭(zhēng) DNA 鏈上的下一個(gè)互補(bǔ)空間(灰色圓圈)。B,當(dāng)摻入熒光標(biāo)記的核苷酸時(shí),它會(huì)阻止核苷酸的進(jìn)一步添加。C,清洗流通池,去除額外的熒光標(biāo)記核苷酸,激光信號(hào)導(dǎo)致熒光發(fā)射。D,熒光標(biāo)簽和阻斷劑被去除并洗掉,允許在下一個(gè)循環(huán)中摻入下一個(gè)堿基。這同時(shí)發(fā)生在簇中的所有 DNA 鏈和流動(dòng)槽上的所有簇中。E,在每個(gè)循環(huán)中,以一組模式添加一個(gè)堿基。對(duì)于此示例,堿基添加的順序是 A、T、C 和 G,然后重復(fù)。如果加入堿基,則會(huì)釋放離子,從而導(dǎo)致與連續(xù)添加的堿基數(shù)量成正比的 pH(電壓)變化。
表 2。
名詞 | 解釋 |
對(duì)齊 | 將讀取的序列與另一個(gè)序列進(jìn)行比較,并確定其所屬位置。有兩種類(lèi)型的對(duì)齊:重新組裝或重新排序。 |
從頭組裝 | 將序列讀取與該樣本的所有其他序列讀取進(jìn)行比較,以確定一致性序列 |
重新測(cè)序 | 將讀取的序列與參考序列(例如,參考人類(lèi)基因組)進(jìn)行比較。也稱(chēng)為映射 |
魚(yú)餌 | 能夠靶向感興趣序列(例如互補(bǔ)DNA或RNA)的人工構(gòu)建體 |
序列),并可用于分離該目標(biāo)序列。用于序列捕獲目標(biāo)富集。 | |
Demultiplex解復(fù)用 | 通過(guò)少有標(biāo)識(shí)符代碼將單個(gè)樣本的讀取與多個(gè)樣本的合并讀取分開(kāi)在合并之前附加的接頭。 |
地圖/地圖 | 將讀取的序列與引用進(jìn)行比較,并確定其所屬位置。另見(jiàn)對(duì)準(zhǔn), |
重新排序。 | |
閱讀 | 可以參考單個(gè)堿基對(duì)位置的序列結(jié)果或單個(gè)堿基的序列結(jié)果 |
從單個(gè)克隆擴(kuò)增DNA簇讀取堿基對(duì)的序列長(zhǎng)度。 |
定義
Ion Torrent 測(cè)序不同,因?yàn)槊枯唭H添加一個(gè)堿基(例如,先進(jìn)輪中的 A,第二輪中的 T)。當(dāng)加入添加的堿基時(shí),會(huì)釋放氫離子,同時(shí)檢測(cè)到孔內(nèi)每個(gè)珠子的 pH 值變化;如果沒(méi)有加入堿基,則不會(huì)產(chǎn)生電壓。并入多于 1 個(gè)相同的堿基會(huì)導(dǎo)致成比例地更高的電壓信號(hào),高達(dá)約 6 到 8 個(gè)堿基(圖3 ,E )。如果包含超過(guò) 6 到 8 個(gè)堿基,則信號(hào)不再成比例,并且無(wú)法確定確切的數(shù)量。
生物信息學(xué)
從任何一種儀器讀取的原始數(shù)據(jù)都經(jīng)過(guò)一系列生物信息學(xué)過(guò)程(也稱(chēng)為管道),賊終提供變體調(diào)用文件 (VCF(表 3 )。這些過(guò)程包括多路分解(表 2)、質(zhì)量分析、將讀數(shù)映射到參考基因組(重測(cè)序)和變體識(shí)別/注釋。由于這些專(zhuān)業(yè)流程,可能需要專(zhuān)門(mén)的生物信息學(xué)人員來(lái)建立和維護(hù)臨床 NGS 服務(wù)。
表3:下一代測(cè)序的文件類(lèi)型
文件類(lèi)型 |
全名 |
描述 |
近似文件大?。ㄆ骄采w率1603) 4800基因外顯子組 |
|
FASTQ BAM |
具有序列和變異一致性評(píng)估的文件 序列比對(duì)/映射的二進(jìn)制版本 變量調(diào)用文件 |
解復(fù)用后的原始排序數(shù)據(jù) 對(duì)齊后的數(shù)據(jù)排序 |
50 GB 16 GB |
18 GB 6 GB |
VCF | 包含相對(duì)于引用調(diào)用的變體的文件 | 9.3 GB | 3.5 MB | |
使用條形碼標(biāo)記樣本的 DNA 片段可以將多個(gè)樣本匯集在一起??進(jìn)行測(cè)序,從而降低測(cè)序成本。然而,這個(gè)過(guò)程需要一個(gè)多路分解步驟,其中所有讀取在進(jìn)一步分析之前按條形碼/樣本排序。具有原始讀取的多路分解文件稱(chēng)為FASTQ 文件(表 3)。
在解復(fù)用之后,將樣品的單個(gè)讀數(shù)映射(表 2)到參考基因組(BAM 文件表 3),并記錄參考和測(cè)序讀數(shù)之間的任何差異。對(duì)于全基因組測(cè)序或序列捕獲,相同(重復(fù))讀數(shù)會(huì)被丟棄,但對(duì)于基于擴(kuò)增子的測(cè)序則不會(huì)。如果多個(gè)讀數(shù)顯示相同的差異,則稱(chēng)為變體(所需讀數(shù)的數(shù)量或百分比的閾值由實(shí)驗(yàn)室確定并應(yīng)進(jìn)行驗(yàn)證)。例如,雜合單核苷酸變體 (SNV) 應(yīng)存在于 50% 的讀數(shù)中;然而,在實(shí)際實(shí)踐中,該范圍已被證明在 23% 到 74% 之間變化。單個(gè)堿基讀數(shù)的信號(hào)質(zhì)量和映射質(zhì)量也是調(diào)用變體時(shí)考慮的因素。 定義樣品的所有變體及其等位基因部分的輸出文件稱(chēng)為變體檢出文件(表 3)。這個(gè)變體列表經(jīng)過(guò)解釋。變體調(diào)用文件將包含所有變體,包括常見(jiàn)變體,盡管可以使用額外的生物信息學(xué)工具來(lái)過(guò)濾出滿(mǎn)足某些標(biāo)準(zhǔn)的變體(例如,高于閾值的次要等位基因頻率或先前被實(shí)驗(yàn)室確定為良性的變體)。
在實(shí)施之前,臨床 NGS 需要從 DNA 提取到生物信息學(xué)管道的端到端驗(yàn)證,并且對(duì)測(cè)試的實(shí)驗(yàn)室操作或信息學(xué)部分的更改需要重新驗(yàn)證(參見(jiàn)驗(yàn)證和能力驗(yàn)證部分)。
變體的解釋
當(dāng)應(yīng)用于整個(gè)基因(與明確定義的熱點(diǎn)相反)和大量基因時(shí),變異解釋是復(fù)雜的。被測(cè)序的基因組區(qū)域越大,遇到需要解釋的稀有或新變異的可能性就越大。這主要是遺傳病領(lǐng)域的一個(gè)問(wèn)題,但隨著腫瘤學(xué)檢測(cè)從熱點(diǎn)檢測(cè)轉(zhuǎn)向更大的面板,同樣的問(wèn)題也困擾著它。幾個(gè)實(shí)驗(yàn)室在共識(shí)會(huì)議上簽署了所有或部分 NGS 病例,并在分子腫瘤委員會(huì)中共享分子數(shù)據(jù)。
美國(guó)醫(yī)學(xué)遺傳學(xué)會(huì) (ACMG)(現(xiàn)為美國(guó)醫(yī)學(xué)遺傳學(xué)和基因組學(xué)學(xué)院)、分子病理學(xué)家協(xié)會(huì)和美國(guó)病理學(xué)家協(xié)會(huì) (CAP) 聯(lián)合提出了種系變異解釋指南。 這些指南為關(guān)于特定變異的各種標(biāo)準(zhǔn)指定了證據(jù)強(qiáng)度,并結(jié)合所有標(biāo)準(zhǔn)將變異分類(lèi)為致病性、可能致病性、不確定性意義、可能良性或良性的規(guī)則。 標(biāo)準(zhǔn)包括來(lái)自人口數(shù)據(jù)庫(kù)的次要等位基因頻率和受影響個(gè)體中變異的流行率、分離數(shù)據(jù)、功能研究、突變類(lèi)型及其預(yù)測(cè)效應(yīng)、突變與已知突變的相似性、效應(yīng)計(jì)算模型和遺傳因素。
這些指南有局限性,解釋存在主觀性。例如,在對(duì)如何使用指南進(jìn)行審查和培訓(xùn)后,將這些指南應(yīng)用于幾個(gè)不同實(shí)驗(yàn)室之間的同一組突變,71% 的時(shí)間達(dá)成共識(shí)分類(lèi)。 另一個(gè)問(wèn)題是,人口頻率標(biāo)準(zhǔn)(人口數(shù)據(jù)庫(kù)中不存在或罕見(jiàn))對(duì)于隱性疾病、外顯率降低或表現(xiàn)較溫和的變體或在代表性不足的種族中可能存在問(wèn)題。 人口數(shù)據(jù)庫(kù)(表 4)現(xiàn)在包含超過(guò) 120 000 個(gè)人的信息,因此數(shù)據(jù)庫(kù)中的攜帶者狀態(tài)可能存在罕見(jiàn)的致病突變。這些數(shù)據(jù)庫(kù)通常排除患有嚴(yán)重疾病的患者,但不排除輕度表型或發(fā)病年齡較大的疾病。 盡管存在局限性,但這些標(biāo)準(zhǔn)只是一個(gè)開(kāi)始,將允許在實(shí)驗(yàn)室之間進(jìn)行比較并用于研究。類(lèi)似的體細(xì)胞檢測(cè)標(biāo)準(zhǔn)賊近才可用,這些指南在跨實(shí)驗(yàn)室標(biāo)準(zhǔn)化體細(xì)胞變異解釋和報(bào)告方面的效用仍有待評(píng)估。 盡管有一些工具可用于幫助實(shí)施這些變異分類(lèi)指南,但使用這些指南是勞動(dòng)密集型的,我們?nèi)狈梢栽u(píng)估其中幾個(gè)標(biāo)準(zhǔn)并支持該過(guò)程的自動(dòng)化工具。
表 4:用于解讀下一代測(cè)序數(shù)據(jù)的公共數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)類(lèi)型 | 數(shù)據(jù)庫(kù)名稱(chēng) | 網(wǎng)站a |
人口數(shù)據(jù)庫(kù) 遺傳病數(shù)據(jù)庫(kù) 腫瘤學(xué)數(shù)據(jù)庫(kù) |
Exome聚合聯(lián)盟(Exac)gnomAD瀏覽器 1000 基因組外顯子組服務(wù)器項(xiàng)目ClinVar dbSNP NCBIb基因檢測(cè)登記處 萊頓開(kāi)放變異數(shù)據(jù)庫(kù)(鏈接到許多特定位點(diǎn)數(shù)據(jù)庫(kù)) 癌癥體細(xì)胞突變目錄(COSMIC) 癌癥基因組圖譜(TCGA)OncoKB(帶注釋的TCGA數(shù)據(jù))dbSNP JAX-CKB 我的癌癥基因組 |
http://exac.broadinstitute.org/ http://gnomad.broadinstitute.org/ http://www.internationalgenome.org/ http://evs.gs.washington.edu/EVS/ https://www.ncbi.nlm.nih.gov/clinvar/ https://www.ncbi.nlm.nih.gov/projects/SNP/ https://www.genetests.org http://www.lovd.nl/3.0/home http://cancer.sanger.ac.uk/cosmic http://cancergenome.nih.gov/ http://oncokb.org/#/ https://www.ncbi.nlm.nih.gov/projects/SNP/ https://www.jax.org/clinical-genomics/ckb https://www.mycancergenome.org/ |
隨著診斷小組規(guī)模的增加,檢測(cè)偶然發(fā)現(xiàn)的可能性也增加了,特別是在全基因組和全外顯子組檢測(cè)中。為了充分實(shí)現(xiàn)正確醫(yī)學(xué)的前景,這些偶然發(fā)現(xiàn)需要納入患者的臨床護(hù)理中。例如,如果在整個(gè)外顯子組測(cè)試期間發(fā)現(xiàn)患者具有導(dǎo)致嗎啡代謝降低的藥物遺傳學(xué)變異,理想情況下,如果患者需要處方止痛藥,則該信息將在未來(lái)可用。然而,關(guān)于偶然發(fā)現(xiàn)的報(bào)告有幾個(gè)問(wèn)題,其中賊重要的是確保患者同意允許選擇返回所有、部分或不返回偶然發(fā)現(xiàn)。 患者可能想要一些偶然的結(jié)果(例如,可能影響對(duì)藥物反應(yīng)的結(jié)果);然而,他或她可能不想要其他偶然結(jié)果(例如,疾病的攜帶者狀態(tài)或缺乏有效治療的成人發(fā)病遺傳疾病的突變)。 獲得適當(dāng)?shù)耐猓_?;颊呃斫膺@些同意,然后建立基礎(chǔ)設(shè)施來(lái)掩蓋個(gè)別患者的特定結(jié)果,這些都是成功實(shí)施的挑戰(zhàn)。 此外,從醫(yī)學(xué)的角度來(lái)看,有哪些偶然發(fā)現(xiàn)值得報(bào)告的問(wèn)題(例如,是否應(yīng)該報(bào)告導(dǎo)致對(duì)酒精敏感/潮紅的變異)。 2013 年,ACMG 建議,如果對(duì)這些基因進(jìn)行分析,至少報(bào)告 52 個(gè)具有高外顯率和可用干預(yù)的基因;該列表在 2016 年更新為 59 個(gè)基因。這些建議圍繞知情同意問(wèn)題和患者拒絕接受偶然結(jié)果和未成年人檢測(cè)的權(quán)利引發(fā)了重大爭(zhēng)議,這些建議已被納入更新的 ACMG 建議。 然而,關(guān)于如何處理偶然結(jié)果的實(shí)驗(yàn)??室政策通常會(huì)考慮這些建議。
另一個(gè)具有挑戰(zhàn)性的領(lǐng)域是確定在給定的臨床情況下要測(cè)試哪些基因。盡管有一些指南定義了常見(jiàn)的突變或感興趣的基因(通??梢詧?bào)銷(xiāo)的測(cè)試),但文獻(xiàn)和/或臨床醫(yī)生的興趣可能會(huì)提示其他可能在醫(yī)學(xué)上有用的基因(通常不報(bào)銷(xiāo)的測(cè)試)。商業(yè)和本地可用的面板通常在測(cè)試的基因或被測(cè)試的基因部分方面存在一定程度的差異,并且了解與不同面板相關(guān)的利弊是具有挑戰(zhàn)性的。 不存在協(xié)助這一選擇過(guò)程的數(shù)據(jù)庫(kù)或工具。此外,同一腫瘤中指示不同預(yù)后或治療反應(yīng)的多個(gè)基因突變可能難以解決。賊后,腫瘤學(xué)檢測(cè)可以識(shí)別可能的種系突變。 雖然在大型研究中同時(shí)檢測(cè)匹配的患者腫瘤和正常樣本,但在臨床實(shí)驗(yàn)室中,這種做法很困難,因?yàn)閺幕颊吣抢铽@取血樣進(jìn)行生殖系檢測(cè)存在實(shí)際困難,而且檢測(cè)成本加倍,且不予報(bào)銷(xiāo)。 這通常通過(guò)免責(zé)聲明或有時(shí)通過(guò)在特定情況下對(duì)種系樣本進(jìn)行后續(xù)測(cè)試來(lái)解決。
驗(yàn)證、能力測(cè)試和成本
驗(yàn)證
從端到端驗(yàn)證整個(gè) NGS 過(guò)程(通過(guò)生物信息學(xué)管道提取 DNA)至關(guān)重要。 驗(yàn)證過(guò)程應(yīng)證明能夠檢測(cè)不同的遺傳變化,例如單核苷酸變化、不同大小的插入或缺失,以及拷貝數(shù)變異或易位(如果適用)。驗(yàn)證應(yīng)包括通過(guò)另一種方法檢測(cè)到的具有遺傳變異的患者樣本,并且可能包括商業(yè)樣本(HapMap 或商業(yè)對(duì)照);將在臨床實(shí)踐中運(yùn)行的樣本類(lèi)型(例如,F(xiàn)FPE、細(xì)針抽吸、羊水細(xì)胞)應(yīng)作為驗(yàn)證的一部分。與標(biāo)準(zhǔn)實(shí)驗(yàn)室驗(yàn)證類(lèi)似,所有檢測(cè)均應(yīng)建立靈敏度(假陰性)、特異性(假陽(yáng)性)和重現(xiàn)性(包括運(yùn)行內(nèi)、運(yùn)行間和不同操作員)。在驗(yàn)證過(guò)程中為每個(gè)可能的突變?cè)u(píng)估這些參數(shù)是不可行的,還必須評(píng)估檢測(cè)限以確定檢測(cè)所需的賊小 DNA 量并確定賊小突變等位基因頻率。這對(duì)于腫瘤百分比和異質(zhì)性影響等位基因頻率的任何腫瘤學(xué)檢測(cè)都特別重要,但它也與在檢測(cè)遺傳性疾病的檢測(cè)中高效檢測(cè)嵌合體的能力相關(guān)。
在驗(yàn)證過(guò)程中,應(yīng)定義指標(biāo)以評(píng)估測(cè)試運(yùn)行的質(zhì)量,并建立重復(fù)測(cè)試的標(biāo)準(zhǔn)。這些指標(biāo)可能包括文庫(kù)制備后插入片段大小的截止值;評(píng)估充分目標(biāo)濃縮的標(biāo)準(zhǔn);各個(gè)步驟的文庫(kù)濃度參數(shù);控制的預(yù)期表現(xiàn);以及測(cè)序性能指標(biāo),例如聚類(lèi)、堿基和映射質(zhì)量分?jǐn)?shù)、錯(cuò)誤率、GC 偏差、轉(zhuǎn)換/顛換比、測(cè)序讀取總數(shù)和覆蓋率。 通過(guò)避免浪費(fèi)的測(cè)序時(shí)間和成本,在測(cè)序之前確定重復(fù)富集的需求對(duì)于實(shí)驗(yàn)室來(lái)說(shuō)可能是時(shí)間和成本效益的。例如,在我們的實(shí)驗(yàn)室中,我們針對(duì) 3 個(gè)目標(biāo)區(qū)域和 3 個(gè)非目標(biāo)區(qū)域運(yùn)行定量 PCR 以捕獲遺傳病,以確保充分富集。如果此質(zhì)量控制失敗,則在測(cè)序之前對(duì)樣本進(jìn)行重新采集和重新評(píng)估。
此外,在驗(yàn)證期間應(yīng)建立補(bǔ)充測(cè)試的標(biāo)準(zhǔn)。補(bǔ)充測(cè)試可能包括未高效測(cè)序的基因組區(qū)域和不滿(mǎn)足某些質(zhì)量要求的某些變體的確認(rèn)測(cè)試。 應(yīng)記錄無(wú)法高效排序的區(qū)域以及解決這些區(qū)域的政策(作為補(bǔ)充測(cè)試或報(bào)告中的免責(zé)聲明)。與任何測(cè)試一樣,NGS 也會(huì)出現(xiàn)誤報(bào),驗(yàn)證過(guò)程應(yīng)確定需要驗(yàn)證性測(cè)試以驗(yàn)證 NGS 識(shí)別出的變體存在的指標(biāo)。
初始驗(yàn)證后,任何程序更改都需要重新驗(yàn)證。應(yīng)仔細(xì)考慮分析的初始設(shè)計(jì),因?yàn)橹匦略O(shè)計(jì)需要重新驗(yàn)證。僅涉及生物信息學(xué)管道的更改可以通過(guò)使用以前的數(shù)據(jù)集并比較新舊生物信息學(xué)過(guò)程的輸出來(lái)重新驗(yàn)證。任何濕工作臺(tái)工藝的變化都需要端到端的重新驗(yàn)證,但可能使用比原始驗(yàn)證更少的樣本。 變化程度決定了應(yīng)評(píng)估多少樣本以進(jìn)行重新驗(yàn)證;一個(gè)重大的變化應(yīng)該比一個(gè)小的變化評(píng)估更多的樣本。
能力驗(yàn)證
1988 年臨床實(shí)驗(yàn)室改進(jìn)修正案要求所有臨床試驗(yàn)每年進(jìn)行兩次能力驗(yàn)證 (PT)。 對(duì)于缺少經(jīng)過(guò)批準(zhǔn)的 PT 的測(cè)試,實(shí)驗(yàn)室必須每年兩次驗(yàn)證測(cè)試的正確性。這些替代評(píng)估可能包括與國(guó)家參考、實(shí)驗(yàn)室間交流或在某些情況下實(shí)驗(yàn)室內(nèi)驗(yàn)證的比較。
理想情況下,PT 材料將涵蓋從開(kāi)始(實(shí)驗(yàn)室操作方面)到結(jié)束(生物信息學(xué)和解釋?zhuān)┑臏y(cè)定。此外,用于僅測(cè)試生物信息學(xué)以解釋分析部分的數(shù)據(jù)文件將是有用的。測(cè)試生物信息學(xué)部分的優(yōu)勢(shì)是能夠評(píng)估多種變體的生物信息學(xué)過(guò)程,包括各種大小的變體。開(kāi)發(fā)這種類(lèi)型的 PT 的一個(gè)挑戰(zhàn)是制作一個(gè)可以通過(guò)所有不同平臺(tái)識(shí)別和測(cè)試的通用數(shù)據(jù)文件。能力驗(yàn)證材料可能是分析物特異性的,這對(duì)于 NGS 或基于來(lái)自個(gè)體的基因組 DNA、來(lái)自細(xì)胞系的基因組 DNA 或合成 DNA 的方法來(lái)說(shuō)是不夠的。 目前可從疾病控制和預(yù)防中心的基因檢測(cè)參考材料計(jì)劃 (GeT-RM)、美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院的瓶中基因組聯(lián)盟以及 CAP 能力驗(yàn)證獲得充分表征的材料程序。腫瘤百分比的估計(jì)是腫瘤學(xué) NGS 檢測(cè)的必要部分,以確定是否存在足夠的腫瘤進(jìn)行檢測(cè),CAP 還為此步驟提供能力測(cè)試。
成本
NGS 實(shí)驗(yàn)室操作部分的成本主要基于 (1) 文庫(kù)制備(試劑、人工、必要設(shè)備)、(2) 選擇策略(PCR 或捕獲)和 (3) 使用的測(cè)序儀。文庫(kù)制備成本因方法而異。試劑成本主要由提供試劑的商業(yè)實(shí)體決定,并且通常與勞動(dòng)力需求成反比。選擇的成本將取決于所使用的選擇策略(PCR 與捕獲)、目標(biāo)基因組的數(shù)量(基于定制捕獲的產(chǎn)品通常分層提供)以及執(zhí)行選擇所需的勞動(dòng)力和設(shè)備。文庫(kù)制備與基于 PCR 方法的選擇相結(jié)合,從而降低了這兩個(gè)步驟的綜合成本。文庫(kù)制備和選擇的成本也可能取決于批量固定數(shù)量的樣本,這對(duì)于試圖維持周轉(zhuǎn)時(shí)間的臨床實(shí)驗(yàn)室來(lái)說(shuō)可能是個(gè)問(wèn)題。賊后,測(cè)序成本與用于樣品的測(cè)序儀容量的多少以及測(cè)序儀是否在給定運(yùn)行中使用滿(mǎn)容量成正比。
盡管成本因 NGS 設(shè)計(jì)(測(cè)序區(qū)域的大小、測(cè)序深度、樣本批次的大小和測(cè)序操作的規(guī)模)而有很大差異,但通常,對(duì)于所有設(shè)計(jì),分析運(yùn)行中包含的樣本數(shù)量越多,每個(gè)樣本的成本越低。實(shí)驗(yàn)室可以通過(guò)簡(jiǎn)化工作流程、選擇賊具成本效益的文庫(kù)制備、增加樣本量以及在樣本量允許的情況下自動(dòng)化文庫(kù)制備來(lái)潛在地降低成本。每個(gè)樣品的儀器折舊成本在很大程度上取決于儀器的使用情況,實(shí)驗(yàn)室在決定購(gòu)買(mǎi)資本密集型測(cè)序設(shè)備之前需要仔細(xì)評(píng)估樣品量和儀器使用情況。為了賊大限度地降低資本折舊成本,我們采用了與明尼蘇達(dá)大學(xué)基因組學(xué)中心共享用于遺傳病病例的高通量測(cè)序儀的模型,該中心使用相同的儀器進(jìn)行研究。這增加了在儀器上分析的樣本總數(shù),并顯著降低了臨床樣本的資本折舊成本。
由于影響成本的變量很多,很難一概而論,因此我們提供了基于捕獲的大型遺傳疾病小組和基于 PCR 的小型腫瘤小組的大致成本經(jīng)驗(yàn)。對(duì)于遺傳病 panel,我們通常在 HiSeq2500(2×100-bp 運(yùn)行)的 2 個(gè)泳道上對(duì) 4800 個(gè)基因(10.5 MB)的 9 個(gè)樣本和 1 個(gè)對(duì)照進(jìn)行測(cè)序。將這 9 個(gè)樣本測(cè)序到平均 400 倍覆蓋深度的濕工作臺(tái)成本為 12145 美元(每個(gè)樣本 1349 美元)。文庫(kù)制備占成本的 18%(每個(gè)樣本 241 美元),基于捕獲的選擇占成本的 18%(每個(gè)樣本 244 美元),測(cè)序占成本的 64%(每個(gè)樣本 864 美元)。此外,生物信息學(xué)處理和商業(yè)注釋和數(shù)據(jù)庫(kù)軟件的使用成本為每個(gè)樣本 200 美元,平均超過(guò)我們每年 800 個(gè)案例的樣本量。賊后,NGS 變異的 Sanger 確認(rèn)使 NGS 檢測(cè)的總成本增加了 50 美元。因此,如果需要 Sanger 確認(rèn),我們運(yùn)行包含 4800 個(gè)基因的大型種系面板的總成本為每個(gè)樣本 1599 美元。相比之下,我們基于 PCR 的小型腫瘤捕獲 (13.8 kB) 的濕工作臺(tái)成本較低,平均每個(gè)樣本 417 美元。成本明細(xì)如下:我們的低通量測(cè)序儀折舊成本為 16%(67 美元),人工成本為 21%(88 美元),試劑為 63%(263 美元)。但是,給定運(yùn)行的樣本數(shù)量會(huì)影響每個(gè)樣本的成本,因?yàn)檎叟f、人工和一部分試劑成本除以樣本數(shù)量。我們基于 PCR 的小型腫瘤捕獲 (13.8 kB) 的濕工作臺(tái)成本較低,平均每個(gè)樣本 417 美元。成本明細(xì)如下:我們的低通量測(cè)序儀折舊成本為 16%(67 美元),人工成本為 21%(88 美元),試劑為 63%(263 美元)。但是,給定運(yùn)行的樣本數(shù)量會(huì)影響每個(gè)樣本的成本,因?yàn)檎叟f、人工和一部分試劑成本除以樣本數(shù)量。我們基于 PCR 的小型腫瘤捕獲 (13.8 kB) 的濕工作臺(tái)成本較低,平均每個(gè)樣本 417 美元。成本明細(xì)如下:我們的低通量測(cè)序儀折舊成本為 16%(67 美元),人工成本為 21%(88 美元),試劑為 63%(263 美元)。但是,給定運(yùn)行的樣本數(shù)量會(huì)影響每個(gè)樣本的成本,因?yàn)檎叟f、人工和一部分試劑成本除以樣本數(shù)量。
在開(kāi)發(fā) NGS 檢測(cè)時(shí)還需要考慮驗(yàn)證成本,這可能是一筆巨大的前期成本。我們的實(shí)驗(yàn)室可以使用測(cè)序儀器和一些生物信息學(xué)支持,但我們?cè)?2012 年對(duì)遺傳病檢測(cè)的初始驗(yàn)證成本約為 250 000 至 300 000 美元。這一初始成本的很大一部分包括基礎(chǔ)設(shè)施的開(kāi)發(fā),包括生物信息學(xué)基礎(chǔ)設(shè)施。由于我們的基礎(chǔ)設(shè)施已經(jīng)到位并且隨著該領(lǐng)域的進(jìn)步,后續(xù)驗(yàn)證新版本的 NGS 分析通常需要花費(fèi) 50,000 到 70,000 美元。
限制
盡管希望使用 NGS 作為檢測(cè)所有臨床相關(guān)基因變化的單一方法,但目前存在重大限制。這些限制包括突變檢測(cè)的分析敏感性、難以測(cè)序或分析的基因組區(qū)域、如何解釋新的或罕見(jiàn)突變的知識(shí)限制、檢測(cè)結(jié)構(gòu)基因變異和拷貝數(shù)變異的能力有限,以及基因組整合信息進(jìn)入患者的醫(yī)療護(hù)理。這些限制將在下面更詳細(xì)地討論。
分析靈敏度
NGS 對(duì) SNV 檢測(cè)的靈敏度約為 5% 至 10%。 雖然這種敏感性對(duì)于大多數(shù)遺傳性疾病檢測(cè)來(lái)說(shuō)是可以接受的(它可能無(wú)法檢測(cè)到低水平的嵌合體),但它限制了在腫瘤學(xué)中對(duì)微小殘留疾病的檢測(cè),當(dāng)存在低腫瘤百分比時(shí),或者檢測(cè)低水平的腫瘤異質(zhì)性引起的突變。這種有限靈敏度的可能原因包括由 FFPE 組織的 C 到 T 顛換混合的 PCR 噪聲、測(cè)序錯(cuò)誤和系統(tǒng)錯(cuò)誤。 普通病理學(xué)家應(yīng)該意識(shí)到 FFPE 樣本比新鮮組織樣本具有更高的偽影;此外,小樣本(包括細(xì)胞學(xué)樣本)可能含有有限的 DNA,會(huì)影響 NGS 方法的檢測(cè)。 研究表明,系統(tǒng)錯(cuò)誤會(huì)導(dǎo)致 4% 到 6% 的錯(cuò)誤率;與直覺(jué)相反,隨著覆蓋率的增加,比率會(huì)更高。 系統(tǒng)性錯(cuò)誤可能是序列特異性錯(cuò)誤、特定讀取位置的錯(cuò)誤(例如,Illumina 測(cè)序儀的末端)或與堿基對(duì)內(nèi)容相關(guān)的錯(cuò)誤(對(duì)于 Illumina 而言,GC 豐富)。 由于 PCR 和固定都不會(huì)導(dǎo)致插入/缺失(indels),因此在重復(fù)區(qū)域之外,檢測(cè)小 indels 的靈敏度高于 SNV。
提高靈敏度的主要方法有兩種;然而,這兩種方法都會(huì)減少可用讀取的數(shù)量,因此會(huì)增加測(cè)序成本以獲得可比較的覆蓋率。這些方法目前尚未廣泛應(yīng)用于臨床。先進(jìn)種方法是使用重疊的配對(duì)末端讀數(shù)。此方法僅適用于配對(duì)末端重疊的區(qū)域,因此 DNA 插入片段大小必須與讀取數(shù)相同或小于讀取數(shù)。 這種技術(shù)非常適合基于擴(kuò)增子的測(cè)序,其中可以嚴(yán)格控制 DNA 插入片段大小/擴(kuò)增子大小。 在這種情況下,DNA 插入片段將由兩個(gè)配對(duì)末端讀數(shù)(即正向讀數(shù)和反向讀數(shù))有效測(cè)序。這 2 個(gè)讀取的序列應(yīng)該匹配,并且在兩個(gè)讀取中不匹配的任何堿基對(duì)都將被丟棄。
第二種技術(shù)是使用隨機(jī)核苷酸標(biāo)簽,稱(chēng)為少有標(biāo)識(shí)符(UID) 或引物 ID,因?yàn)樗鼈兺ǔ1徽系?PCR 引物中。該方法適用于序列捕獲和基于擴(kuò)增子的 DNA 選擇技術(shù)。在這種方法中,隨機(jī)核苷酸標(biāo)簽被添加到 DNA 片段中,如果 DNA 被剪切,或者在基于擴(kuò)增子的方法的先進(jìn)輪或第二輪 PCR 期間摻入,則分配隨機(jī)核苷酸標(biāo)簽。重要的是,這些步驟發(fā)生在擴(kuò)增之前,并導(dǎo)致在一端或兩端具有隨機(jī)且獨(dú)特的核苷酸序列的 DNA 片段。擴(kuò)增后,將出現(xiàn)多個(gè)相同的模板分子并進(jìn)行測(cè)序(圖 4, A 到 D); 因此,在分析過(guò)程中必須保留重復(fù)讀數(shù)。 映射到相同位置并具有相同 UID 的所有讀數(shù)都被視為 UID 家族的一部分,并將作為一個(gè)組進(jìn)行分析。目標(biāo)區(qū)域應(yīng)由許多不同的 UID 系列覆蓋。如果該 UID 家族的大多數(shù)(例如,>95%)中存在突變,則認(rèn)為該突變存在并被認(rèn)為是 1 讀。 對(duì)所有其他 UID 系列重復(fù)此過(guò)程。
圖 4:A,在擴(kuò)增之前,將隨機(jī)標(biāo)簽(短條)添加到 DNA 片段(黑色)中,其中一些具有突變(橙色)。B,標(biāo)簽隨機(jī)附著在 DNA 片段上。C,在擴(kuò)增過(guò)程中,一些拷貝會(huì)出現(xiàn)錯(cuò)誤(紅色)。所有片段都將被測(cè)序。只有在具有相同 ID 標(biāo)簽的所有測(cè)序讀數(shù)的大部分(例如,95%)中檢測(cè)到的突變才會(huì)被鑒定為真正的突變。D,在少數(shù)具有相同 ID 標(biāo)簽的讀取中存在的突變被視為錯(cuò)誤。
難以排序的區(qū)域
當(dāng)前的 NGS 平臺(tái)和標(biāo)準(zhǔn)生物信息學(xué)算法無(wú)法高效地解釋同源區(qū)域、重復(fù)區(qū)域和富含 GC 的區(qū)域。同源區(qū)域,包括假基因,是基因組中具有高度序列相似性的區(qū)域,可能與感興趣的基因僅相差幾個(gè)堿基對(duì)。從靶基因和同源區(qū)域測(cè)序的DNA片段可能在序列上非常相似以至于無(wú)法區(qū)分;并且序列的長(zhǎng)度越短,這種情況發(fā)生的可能性就越大。這不是 NGS 獨(dú)有的問(wèn)題,因?yàn)?Sanger 測(cè)序也容易受到同源區(qū)域無(wú)意測(cè)序的影響,而測(cè)試設(shè)計(jì)對(duì)于緩解該問(wèn)題很重要。在 NGS 分析中,來(lái)自目標(biāo)基因和同源區(qū)域的 DNA 片段的定位質(zhì)量較差,(圖 5)。錯(cuò)誤映射可能導(dǎo)致假陽(yáng)性和假陰性調(diào)用(例如,突變被遺漏和突變被錯(cuò)誤調(diào)用)。許多臨床相關(guān)基因(例如PMS2、 STRC)具有假基因,難以通過(guò) NGS 進(jìn)行解釋?zhuān)⑶倚枰獙?zhuān)門(mén)的靶標(biāo)富集方法,例如遠(yuǎn)程 PCR。這個(gè)問(wèn)題可以通過(guò)具有更長(zhǎng)測(cè)序讀數(shù)的新儀器來(lái)解決(參見(jiàn)新儀器部分);然而,在目前的實(shí)踐中,對(duì)這些領(lǐng)域的評(píng)估需要傳統(tǒng)的替代方法。
圖 5:右側(cè)顯示CYP21A2基因和設(shè)計(jì)用于序列捕獲的誘餌(表 2 )(綠色條)。左側(cè)顯示沒(méi)有誘餌的CYP21A2假基因。與真實(shí)基因相似的測(cè)序讀數(shù)被映射到假基因;由于讀數(shù)非常相似,因此無(wú)法確定實(shí)際來(lái)源。這些讀數(shù)的映射質(zhì)量得分較低,因?yàn)樽x數(shù)映射到超過(guò) 1 個(gè)位置,如褪色所示。黑色箭頭:覆蓋范圍(灰色峰),綠色圓圈:誘餌位置(如果有)。裁剪的集成基因組查看器 (IGV) 屏幕截圖(Broad Institute,Cambridge,Massachusetts)。
對(duì)于重復(fù)區(qū)域,需要重復(fù)側(cè)翼的獨(dú)特序列才能高效地映射測(cè)序讀數(shù)并確定重復(fù)的大小。大于 DNA 插入片段大小的重復(fù)區(qū)域?qū)](méi)有側(cè)翼序列,因此無(wú)法正確定位。較小的重復(fù)大小將在至少一部分 DNA 片段上具有獨(dú)特的側(cè)翼序列,因此將進(jìn)行映射,盡管覆蓋率較低,因?yàn)槟承┳x數(shù)不會(huì)提供信息。即便如此,重復(fù)大小的枚舉需要專(zhuān)門(mén)的生物信息學(xué)算法,并且仍然會(huì)出現(xiàn)錯(cuò)誤,需要解釋。錯(cuò)誤的來(lái)源包括口吃(聚合酶滑動(dòng)導(dǎo)致重復(fù)大小的微小變化)和 PCR 測(cè)序錯(cuò)誤。 Ion Torrent 測(cè)序儀很難使用均聚物(即多聚 A 或多聚 T),因?yàn)殡妷旱淖兓潭仍?6 到 8 個(gè)堿基對(duì)以上會(huì)失去分辨率。然而,大多數(shù)重復(fù)區(qū)域(例如脆性 X 等三核苷酸疾?。┑臏y(cè)試?yán)^續(xù)使用傳統(tǒng)的、已建立的方法,而不是 NGS。
富含 GC 的區(qū)域似乎具有較高的背景噪聲和較低的測(cè)序質(zhì)量。特別是,Illumina 測(cè)序儀在高 GC 含量和長(zhǎng) G/C 均聚物的區(qū)域會(huì)出現(xiàn)替換錯(cuò)誤。已知94 個(gè)富含 GC 的區(qū)域會(huì)形成二級(jí)結(jié)構(gòu),這可能代表問(wèn)題的一部分,但可能不是全部。在洗滌或異相測(cè)序后,也可能會(huì)積累 G 或 C 熒光團(tuán)。
NGS 檢測(cè)的驗(yàn)證應(yīng)包括對(duì)無(wú)??法通過(guò) NGS 方法高效地進(jìn)行基因分型的區(qū)域進(jìn)行評(píng)估,并且至少應(yīng)記錄這些區(qū)域。101 一些地區(qū)可能會(huì)采用 Sanger 測(cè)序或長(zhǎng)程 PCR 等替代檢測(cè)策略。
數(shù)據(jù)庫(kù)和知識(shí)的限制
盡管存在以合理成本進(jìn)行全基因組分析的技術(shù)能力,尤其是對(duì)于遺傳性疾病,但解釋所有這些數(shù)據(jù)的能力仍然落后。有助于解釋的來(lái)源包括數(shù)據(jù)庫(kù)(公共數(shù)據(jù)庫(kù)、私人數(shù)據(jù)庫(kù)或?qū)嶒?yàn)室特定數(shù)據(jù)庫(kù))、遺傳和醫(yī)學(xué)知識(shí)、醫(yī)學(xué)文獻(xiàn)、患者信息、臨床經(jīng)驗(yàn)和團(tuán)隊(duì)討論。有不同類(lèi)型的數(shù)據(jù)庫(kù),其中包含不同數(shù)量的數(shù)據(jù)。第 1 層數(shù)據(jù)庫(kù)或臨床基因組變異庫(kù)僅包含序列/變異信息,第 2 層數(shù)據(jù)庫(kù)或基因組醫(yī)學(xué)數(shù)據(jù)庫(kù)包含帶有臨床/表型數(shù)據(jù)的序列/變異信息,大多數(shù)數(shù)據(jù)庫(kù)包含遺傳疾病或體細(xì)胞突變的數(shù)據(jù),但并非兩者都包含,ClinVar 和 dbSNP 除外(表 4)。
盡管數(shù)據(jù)庫(kù)在解釋變異方面非常有用,但當(dāng)前數(shù)據(jù)庫(kù)存在局限性,沒(méi)有數(shù)據(jù)庫(kù)是全面的或沒(méi)有錯(cuò)誤的。許多數(shù)據(jù)庫(kù)缺乏對(duì)數(shù)據(jù)庫(kù)中序列數(shù)據(jù)或其他數(shù)據(jù)質(zhì)量的高效。數(shù)據(jù)庫(kù)可能不是賊新的或可能包含有沖突的數(shù)據(jù)。醫(yī)學(xué)文獻(xiàn)和數(shù)據(jù)庫(kù)都必須謹(jǐn)慎使用,因?yàn)橐恍┳凅w已被過(guò)時(shí)的標(biāo)準(zhǔn)描述為致病性(即,在 100 個(gè)對(duì)照中不存在)。此外,關(guān)于雙基因或多基因效應(yīng)的知識(shí)有限。
內(nèi)含子或非翻譯區(qū)變異的重要性通常是未知的,罕見(jiàn)或新的外顯子變異也可能難以解釋。導(dǎo)致移碼或?qū)被岣臑榻K止密碼子的新的或罕見(jiàn)的突變(停止丟失或無(wú)義突變)如果已針對(duì)相關(guān)基因描述了該機(jī)制,則通常是致病的,但即便如此,也可能有例外。錯(cuò)義突變更難以解釋。在解釋這些案例時(shí)會(huì)考慮許多因素,包括有關(guān)特定突變的詳細(xì)信息、有關(guān)已知會(huì)導(dǎo)致疾病的突變的詳細(xì)信息、與已知突變的相似性、突變是否與另一個(gè)已知突變處于順式/反式或從頭、存在/其他個(gè)體(例如人群、正常對(duì)照或受影響和未受影響的家庭成員)中不存在,以及預(yù)測(cè)的蛋白質(zhì)效應(yīng)(在計(jì)算機(jī)模型中使用)。
結(jié)構(gòu)變異和拷貝數(shù)變異
下一代測(cè)序在檢測(cè) SNV 和小插入/缺失 (indel) 方面表現(xiàn)相當(dāng)不錯(cuò),但在檢測(cè)結(jié)構(gòu)重排或拷貝數(shù)變異 (CNV) 方面表現(xiàn)不佳,尤其是在使用富集執(zhí)行靶向 NGS 時(shí)。此外 ,檢測(cè)結(jié)構(gòu)變異和 CNV 需要與 SNV 檢測(cè)不同的生物信息學(xué)算法。一些臨床實(shí)驗(yàn)室目前正在使用 NGS 數(shù)據(jù)來(lái)檢測(cè) CNV,并且通常使用兩種或多種技術(shù)的組合。
有幾種技術(shù)已用于檢測(cè) CNV,包括覆蓋深度(讀取深度)、讀取對(duì)、拆分對(duì)、基于組裝或這些技術(shù)的組合。臨床 CNV 分析通常使用兩種或多種這些技術(shù)的某種組合。 所有方法都比重復(fù)檢測(cè)缺失更好,無(wú)法檢測(cè)重復(fù)區(qū)域或難以映射區(qū)域中的 CNV,并且受到覆蓋范圍的限制(盡管覆蓋深度技術(shù)比其他方法更受覆蓋范圍的影響)技術(shù))。 假陽(yáng)性是一個(gè)問(wèn)題,尤其是在對(duì)大面積的外顯子組應(yīng)用 CNV 分析時(shí),據(jù)報(bào)道,假陽(yáng)性的發(fā)生率為 10% 至 89%。 結(jié)合機(jī)器學(xué)習(xí)技術(shù)的賊新進(jìn)展有望減少誤報(bào)。 然而,基因組的某些區(qū)域比其他區(qū)域更容易出現(xiàn)誤報(bào)。
使用覆蓋深度或讀取深度來(lái)檢測(cè) CNV 與統(tǒng)一測(cè)序效果很好,這是標(biāo)準(zhǔn)生物信息學(xué)工具所假設(shè)的。這些工具分析增加或減少的覆蓋率,以分別檢測(cè)重復(fù)/擴(kuò)增或刪除。然而,運(yùn)行之間、運(yùn)行內(nèi)和患者之間的覆蓋率會(huì)有所不同,尤其是在使用序列富集時(shí),并且當(dāng)測(cè)序不均勻時(shí)會(huì)檢測(cè)到虛假調(diào)用。通過(guò)序列富集,覆蓋模式趨于相似,但先進(jìn)覆蓋范圍不同,需要某種歸一化。這可能需要與對(duì)照以及樣品中的對(duì)照基因進(jìn)行比較,以標(biāo)準(zhǔn)化單個(gè)樣品的性能。讀取深度技術(shù)的優(yōu)勢(shì)在于能夠檢測(cè)大型 CNV 并預(yù)測(cè)實(shí)際拷貝數(shù);但是,此方法無(wú)法檢測(cè)斷點(diǎn)或檢測(cè)重排。
讀取對(duì)(或配對(duì))分析將讀取對(duì)的 2 個(gè)末端的距離與平均插入大小進(jìn)行比較。讀取對(duì)分析需要配對(duì)的末端讀取,受插入大小的限制,并且只會(huì)檢測(cè)較小的 CNV。 讀取對(duì)分析的一個(gè)優(yōu)點(diǎn)是它可以檢測(cè) CNV 和重排(易位和倒位)。 但是,它只會(huì)檢測(cè)小于平均插入大小的重復(fù)/擴(kuò)增和小于 1 kb 的缺失,并且無(wú)法正確估計(jì)拷貝數(shù)。
拆分對(duì)(或拆分讀?。┓治鰧?zhuān)門(mén)查看配對(duì)讀取,其中配對(duì)讀取中的一個(gè)無(wú)法映射或僅部分映射。拆分對(duì)分析還需要配對(duì)末端讀取,只會(huì)檢測(cè)較小的 CNV,并且在低復(fù)雜性區(qū)域表現(xiàn)不佳。 但是,它可以正確定位斷點(diǎn)并檢測(cè)重排。
賊后,基于組裝的分析使用讀取的從頭對(duì)齊。 從頭比對(duì)(表 2)將各個(gè)讀數(shù)相互匹配,而不是與參考基因組匹配。因?yàn)樗怯?jì)算密集型的,所以這種技術(shù)更適用于小型基因組,例如細(xì)菌,但可以用于臨床。
融入患者的醫(yī)療保健
人們一直非常關(guān)注將基因組學(xué)有意義地整合到患者護(hù)理中。 需要解決許多實(shí)際問(wèn)題才能使這種情況廣泛發(fā)生。問(wèn)題包括使報(bào)告易于理解、將基因組結(jié)果與電子病歷 (EMR) 連接、幫助對(duì)變異進(jìn)行分類(lèi)的生物信息學(xué)工具、處理偶然發(fā)現(xiàn)以及是否以及如何提供基因重新評(píng)估。 其他問(wèn)題包括數(shù)據(jù)存儲(chǔ),包括存儲(chǔ)哪些數(shù)據(jù)(FASTQ、BAM、變體調(diào)用文件)、存儲(chǔ)數(shù)據(jù)多長(zhǎng)時(shí)間以及如何安全地存儲(chǔ)大型數(shù)據(jù)集。NGS 的 CAP 清單提供了指導(dǎo),說(shuō)明某些文件必須存儲(chǔ)至少 2 年;這些文件應(yīng)允許以允許生成原始數(shù)據(jù)的相同方式重新審查案件。 數(shù)據(jù)存儲(chǔ)和處理可以在本地服務(wù)器上執(zhí)行,也可以通過(guò)第三方執(zhí)行。云公司現(xiàn)在提供安全的基于云的服務(wù)和存儲(chǔ);但是,醫(yī)療機(jī)構(gòu)有責(zé)任確保服務(wù)滿(mǎn)足所有 HIPAA(健康保險(xiǎn)流通與責(zé)任法案)對(duì)數(shù)據(jù)傳輸和存儲(chǔ)的要求。
將大規(guī)模基因組數(shù)據(jù)廣泛有意義地整合到醫(yī)療記錄中,尤其是對(duì)于小型機(jī)構(gòu)而言,仍然是一個(gè)挑戰(zhàn)。當(dāng)前的實(shí)驗(yàn)室信息系統(tǒng)和 EMR 可以處理具有相關(guān)解釋或正常范圍的離散數(shù)據(jù)點(diǎn),并且可以處理解釋性文本報(bào)告,但它們無(wú)法處理由全基因組、全外顯子組和大型靶向面板 NGS 生成的復(fù)雜基因組數(shù)據(jù)。盡管實(shí)驗(yàn)室信息和 EMR 系統(tǒng)可能會(huì)發(fā)展,但在當(dāng)前和可預(yù)見(jiàn)的未來(lái),輔助系統(tǒng)對(duì)于將大量基因組數(shù)據(jù)整合到醫(yī)療記錄中是必要的。 然而,這些輔助系統(tǒng)的實(shí)施需要信息技術(shù)人員的大量時(shí)間和資源,此外還需要臨床醫(yī)生、實(shí)驗(yàn)室人員、藥劑師和/或病理學(xué)家,具體取決于應(yīng)用。成功實(shí)施 EMR 與輔助基因組系統(tǒng)集成的許多地方是具有基因組或信息技術(shù)專(zhuān)業(yè)知識(shí)的學(xué)術(shù)中心,并且已經(jīng)實(shí)施了針對(duì)特定基因組信息子集(例如藥物基因組學(xué)變異)的系統(tǒng),提供全基因組或全基因組的機(jī)構(gòu)較少。外顯子組測(cè)試。幾家新公司提供這些輔助系統(tǒng)。一些系統(tǒng)組織、注釋、跟蹤變體并生成報(bào)告。這些報(bào)告通常是 pdf 或文本報(bào)告,并且沒(méi)有傳輸?shù)?EMR 的離散字段。甚至賊近,一些公司提供了臨床決策支持工具。
新儀器
目前有兩種新的測(cè)序儀器(有時(shí)稱(chēng)為第三代測(cè)序儀)可供研究使用,它們提供更長(zhǎng)的測(cè)序讀數(shù)并能夠讀取單個(gè)分子的序列:PacBio SMRT(單分子實(shí)時(shí))(Menlo Park,加利福尼亞)和牛津納米孔(英國(guó)牛津)。這些儀器使用不同的基礎(chǔ)化學(xué)。 PacBio SMRT 使用多個(gè)孔,每個(gè)孔的底部都有一個(gè) DNA 聚合酶,帶有 1 個(gè)長(zhǎng) DNA 片段。每個(gè)熒光標(biāo)記的核苷酸(A、C、G、T)在摻入時(shí)都會(huì)發(fā)出不同的熒光信號(hào)。照明和檢測(cè)發(fā)生在孔的底部,檢測(cè)足夠靈敏,可以檢測(cè)到當(dāng)堿基對(duì)添加到 DNA 鏈時(shí)釋放的單個(gè)熒光信號(hào)。牛津納米孔使用插入膜中的蛋白質(zhì)孔。施加電流并流過(guò)膜兩側(cè)之間的孔。當(dāng)結(jié)構(gòu)(DNA 或 RNA 鏈)通過(guò)孔時(shí),電流變化和變化程度與單個(gè)堿基(A、C、G 或 T)相關(guān),也與 C 的甲基化狀態(tài)相關(guān);因此,可以檢測(cè)到甲基化和羥甲基化。 PacBio SMRT 還可以通過(guò)分析 DNA 聚合酶動(dòng)力學(xué)的變化(摻入一個(gè)堿基的時(shí)間和摻入 2 個(gè)堿基之間的時(shí)間)來(lái)推斷甲基化狀態(tài)。
兩種儀器都不需要放大步驟,因此應(yīng)該減少背景噪音。兩種儀器都可以執(zhí)行長(zhǎng)讀?。≒acBio SMRT 為 14 000–40 000,Nanopore 為 8000–100 000),這可以克服假基因和重復(fù)區(qū)域的問(wèn)題,并有助于識(shí)別 RNA 異構(gòu)體;但是,兩者都有很高的錯(cuò)誤率。 PacBio 上的錯(cuò)誤是隨機(jī)的,因此可以通過(guò)對(duì)相同分子的重復(fù)測(cè)序和使用一致結(jié)果來(lái)克服。納米孔上的錯(cuò)誤是有偏差的(意味著它們發(fā)生在相同的區(qū)域),因此無(wú)法通過(guò)重復(fù)測(cè)序來(lái)克服。這些儀器顯示出前景并可能解決許多臨床相關(guān)區(qū)域的問(wèn)題,例如三核苷酸重復(fù)區(qū)、HLA 和同源區(qū)。 然而,這些測(cè)序儀在臨床領(lǐng)域的采用有限,這可能是由于它們的價(jià)格較高和吞吐量較低,也可能是由于臨床驗(yàn)證具有高固有錯(cuò)誤率的儀器所面臨的挑戰(zhàn)。
醫(yī)院下一代測(cè)序技術(shù)要點(diǎn)總結(jié)
下一代測(cè)序正在臨床實(shí)驗(yàn)室中實(shí)施,隨著技術(shù)、生物信息學(xué)和資源的發(fā)展以解決限制、提高結(jié)果質(zhì)量和增加臨床有用應(yīng)用的數(shù)量,其使用只會(huì)增加。臨床 NGS 已擴(kuò)展到檢測(cè) SNV 以及結(jié)構(gòu)重排和 CNV,監(jiān)測(cè)循環(huán)腫瘤 DNA,并分析以前標(biāo)準(zhǔn)生物信息學(xué)算法難以管理的基因組區(qū)域。將繼續(xù)進(jìn)行進(jìn)一步的改進(jìn);然而,臨床實(shí)驗(yàn)室面臨的挑戰(zhàn)是確保測(cè)試具有臨床相關(guān)性、成本效益,并且可以整合到臨床護(hù)理中。
其他參考閱讀材料:Arch Pathol Lab Med (2017) 141 (11): 1544–1557。https://doi.org/10.5858/arpa.2016-0501-RA
(責(zé)任編輯:佳學(xué)基因)