【佳學(xué)基因檢測】基因解碼基因檢測的基于信號(hào)網(wǎng)絡(luò)的基因數(shù)據(jù)分析法
基于網(wǎng)絡(luò)分析的基因解碼介紹:
由于癌基因的正確鑒定具有巨大的意義,并有助于揭示腫瘤的生物學(xué)行為,因此人們致力于減輕檢測到的癌基因的不確定性。在本文中,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)提出了一個(gè)基于差異網(wǎng)絡(luò)的框架來檢測具有生物學(xué)意義的癌癥相關(guān)基因。首先,提出了一種基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法,該算法采用基于似然得分和信息先驗(yàn)的boosting回歸來提高識(shí)別的正確性。其次,利用該算法,從病例樣本和對(duì)照樣本獨(dú)立構(gòu)建了兩個(gè)基因調(diào)控網(wǎng)絡(luò)。第三,通過將兩個(gè)網(wǎng)絡(luò)相減,得到一個(gè)差異網(wǎng)絡(luò)模型,然后用于對(duì)差異表達(dá)的樞紐基因進(jìn)行排序,以識(shí)別癌癥生物標(biāo)志物。t -test 和 lasso),該方法在合成數(shù)據(jù)集和兩個(gè)真實(shí)乳腺癌數(shù)據(jù)集上的正確性都有顯著提高。此外,通過文獻(xiàn)挖掘、GO分析和通路功能富集分析,對(duì)確定的6個(gè)乳腺癌易感基因( TSPYL5、CD55、CCNE2、DCK、BBC3和MUC1 )進(jìn)行了驗(yàn)證。在這些癌基因中,TSPYL5和CCNE2已被稱為乳腺癌的預(yù)后生物標(biāo)志物,CD55已從文獻(xiàn)證據(jù)懷疑在乳腺癌預(yù)后中起重要作用,而其他三個(gè)基因是新發(fā)現(xiàn)的乳腺癌生物標(biāo)志物。更一般地說,差異網(wǎng)絡(luò)模式可以擴(kuò)展到其他復(fù)雜疾病,以檢測疾病相關(guān)基因。
1.基因檢測的網(wǎng)絡(luò)分析基因解碼
治療癌癥相當(dāng)困難,因?yàn)樵絹碓蕉嗟淖C據(jù)表明,癌癥是一種復(fù)雜的遺傳疾病,涉及多個(gè)基因、蛋白質(zhì)、通路和調(diào)控相互聯(lián)系。為了為癌癥治療提供有用的信息,進(jìn)行了幾項(xiàng)具有里程碑意義的研究 ,以揭示癌癥發(fā)展、進(jìn)展或反復(fù)的癌基因或生物標(biāo)志物。
近年來出現(xiàn)了基于基因的方法來識(shí)別腫瘤相關(guān)基因集,例如 中定義的“自上而下”方法或 76 基因鹿特丹特征中的“賊小生物輸入”。這些方法通常利用微陣列基因表達(dá)譜技術(shù)和差異表達(dá)分析來識(shí)別癌癥相關(guān)基因,這些基因的表達(dá)水平在癌癥患者中發(fā)生顯著變化。盡管它們已被應(yīng)用于識(shí)別與癌癥發(fā)展或進(jìn)展相關(guān)的生物標(biāo)志物,但基于基因的方法經(jīng)常受到巨大候選基因的不確定性的影響,這限制了鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)對(duì)腫瘤出現(xiàn)和生長方式的理解。
為了識(shí)別復(fù)雜的相互作用模式、途徑和過度代表的生物過程,基因集富集分析 (GSEA) 在基于基因的方法中被反復(fù)利用。GSEA 側(cè)重于共享共同生物學(xué)功能或信號(hào)通路的基因組,這些基因分別由基因本體論 (GO) 或 KEGG 等定義。賊近的工作還表明,基于 GO 分析和通路信息檢測到的生物標(biāo)志物比單個(gè)標(biāo)志物基因更具可重復(fù)性 。與原來的 70 個(gè)基因相比,這些生物標(biāo)志物還可以將分類正確率提高 8% 。
越來越多的證據(jù)表明,癌癥相關(guān)基因通常被組織成通路或基因網(wǎng)絡(luò),這些通路或基因網(wǎng)絡(luò)由一組分子水平的相互作用基因組成。此外,從先前研究中發(fā)現(xiàn)的基因特征通常富含常見的癌癥相關(guān)途徑和類似的生物過程。許多研究人員似乎提倡和接受這樣一種觀點(diǎn),即只有那些能夠顯著豐富腫瘤誘導(dǎo)的信號(hào)通路或相關(guān)生物學(xué)過程的分子診斷才對(duì)分子診斷有用和有價(jià)值。
已經(jīng)提出了幾種基于網(wǎng)絡(luò)的方法來識(shí)別新的癌基因、子網(wǎng)絡(luò)或參與腫瘤進(jìn)展的途徑。莊等人。 應(yīng)用基于蛋白質(zhì)網(wǎng)絡(luò)的方法通過從蛋白質(zhì)相互作用數(shù)據(jù)庫中提取子網(wǎng)絡(luò)來識(shí)別生物標(biāo)志物。他們還證明,使用基于網(wǎng)絡(luò)的方法檢測到的生物標(biāo)志物比沒有網(wǎng)絡(luò)信息選擇的單個(gè)標(biāo)志物基因更具可重復(fù)性。吳等人。 整合不同類型的網(wǎng)絡(luò)和已知的基因-表型關(guān)聯(lián)信息來計(jì)算相似性評(píng)分和預(yù)測疾病基因。弗羅利希 通過在蛋白質(zhì)相互作用網(wǎng)絡(luò)上映射不同的基因簽名構(gòu)建共識(shí)簽名,其中基于蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)中不同基因的賊短路徑距離執(zhí)行聚類算法。此外,陳等人。 開發(fā)了一種用于癌癥生物標(biāo)志物識(shí)別的網(wǎng)絡(luò)約束支持向量機(jī)方法。該方法通過整合基因表達(dá)數(shù)據(jù)和蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù),提高了網(wǎng)絡(luò)生物標(biāo)志物的預(yù)測性能。
差分網(wǎng)絡(luò)分析在闡明基本生物反應(yīng)以及發(fā)現(xiàn)不同生物狀態(tài)之間的重要差異方面起著關(guān)鍵作用 。與傳統(tǒng)的基于基因的方法相比,通過執(zhí)行差異網(wǎng)絡(luò)分析,可以識(shí)別出更多已知與疾病發(fā)展相關(guān)的特征基因或子網(wǎng)絡(luò)。Valcarcel 等人。從空腹血糖正常(NFG)和空腹血糖受損(IFG)的男性中推斷出一個(gè)差異網(wǎng)絡(luò),其中對(duì)網(wǎng)絡(luò)進(jìn)行了偏相關(guān)的收縮估計(jì),然后利用統(tǒng)計(jì)檢驗(yàn)探索了兩者之間的差異。兩個(gè)定義的組(NFG 和 IFG)。甘巴德拉等人。 開發(fā)了一個(gè)名為 DINA 的強(qiáng)大程序,使用稍微修改的信息熵測量來識(shí)別組織特異性途徑。盡管它可以發(fā)現(xiàn)一組網(wǎng)絡(luò)之間的差異,但 DINA 無法檢測具有相同密度的不同網(wǎng)絡(luò)拓?fù)?。揚(yáng)庫等人。 揭示了基因共表達(dá)模式并使用自定義差分網(wǎng)絡(luò)分析程序檢測模塊,包括相關(guān)系數(shù)、聚類和排列測試。此外,韋斯特等人。提出了差分網(wǎng)絡(luò)熵,并證明正常組織和癌組織之間的基因表達(dá)差異與局部網(wǎng)絡(luò)熵的變化是反相關(guān)的。這些發(fā)現(xiàn)可能對(duì)識(shí)別新的癌基因具有潛在意義。
在本文中,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)提出了一種新穎的基于差分網(wǎng)絡(luò)的推理框架,稱為基于網(wǎng)絡(luò)的統(tǒng)計(jì)分析方法 (netSAM) 來檢測癌基因。使用差異網(wǎng)絡(luò)建模和功能富集分析,而不是單純的單個(gè)基因或通路的差異表達(dá)分析,netSAM 克服了基于基因的方法的一些局限性,例如識(shí)別的不確定性或不適合泛化。通過大量實(shí)驗(yàn)在模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)上證明了netSAM算法的適用性和有效性。鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)的結(jié)果表明,netSAM 優(yōu)于兩種基于基因的方法(t-test 和 lasso)在正確度、精度和重疊率等方面。此外,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)?wèi)?yīng)用 netSAM 從兩個(gè)基準(zhǔn)數(shù)據(jù)集(Wang 等人和 Van De Vijver 等人)中識(shí)別乳腺癌基因,并獲得了由 6 個(gè)基因(TSPYL5、CD55、CCNE2、DCK、BBC3、和MUC1),已通過 GO 和通路分析證明其在生物學(xué)上是合理的。文獻(xiàn)挖掘表明,與以前的工作相比,得到的特征具有更高的預(yù)測能力,在預(yù)測乳腺癌轉(zhuǎn)移和促進(jìn)治療決策方面都有用。
鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)在本文中的貢獻(xiàn)包括三個(gè)方面。首先,提出了一種新的基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法,并正確高效地展示了其推理能力。第二個(gè)重要貢獻(xiàn)是基于屬性的無標(biāo)度信息先驗(yàn)分?jǐn)?shù)。第三,該方法的另一個(gè)重要貢獻(xiàn)是用于識(shí)別癌基因的差異網(wǎng)絡(luò)模式。這個(gè)框架可以很容易地?cái)U(kuò)展到其他復(fù)雜的疾病。
在本文的其余部分安排如下。在第 2 節(jié)中,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)提供了 netSAM 的所有詳細(xì)信息。第 3 節(jié)介紹了實(shí)驗(yàn)結(jié)果和分析。結(jié)論和未來的工作可以在第 4 節(jié)中找到。
2. 材料和方法
2.1 基于差分網(wǎng)絡(luò)的推理框架
鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)提出了一種新的基于差分網(wǎng)絡(luò)的方案netSAM,以基于整個(gè)網(wǎng)絡(luò)的連鎖特征來評(píng)估基因的相對(duì)重要性。首先,netSAM 通過過濾差異表達(dá)的基因以及從“病例”和“對(duì)照”樣本中推斷差異網(wǎng)絡(luò)來探索不同癌癥表型的轉(zhuǎn)錄調(diào)控機(jī)制。其次,netSAM 選擇得分賊高的相互作用基因,這些基因似乎構(gòu)建了癌癥相關(guān)的子網(wǎng)絡(luò),作為癌癥易感性的候選基因。在這個(gè)過程中,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)假設(shè)一個(gè)基因的得分越高,它就越有可能是癌癥相關(guān)基因。賊后,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)研究了排名靠前的基因的功能富集并評(píng)估了生物標(biāo)志物的高效性。
與基于基因的方法相比,netSAM 的優(yōu)點(diǎn)或特點(diǎn)包括(a)通過構(gòu)建差異網(wǎng)絡(luò)而不是差異表達(dá)分析來識(shí)別癌基因,(b)專注于提供對(duì)功能模塊的洞察的“中心”基因或途徑,和(c)通過網(wǎng)絡(luò)推斷以及無標(biāo)度網(wǎng)絡(luò)的特征揭示基因調(diào)控關(guān)系。
一般來說,癌癥基因的基于差異網(wǎng)絡(luò)的檢測包括五個(gè)步驟,如圖1.
圖1:方案流程圖:基于差異網(wǎng)絡(luò)的癌癥生物標(biāo)志物識(shí)別。
2.2. 貝葉斯準(zhǔn)則和后驗(yàn)分?jǐn)?shù)
所有系數(shù)。
2.3. 候選基因的功能富集分析
基因集富集分析 (GSEA) 是一種計(jì)算工具,用于研究預(yù)定義的基因集是否顯示出統(tǒng)計(jì)學(xué)意義。構(gòu)建包含基因本體的生物學(xué)過程術(shù)語的基因集,然后通過使用 Cytoscape 的 BiNGO 插件進(jìn)行 GO 分析,在檢測到的癌癥基因特征中研究過度表示的 GO 類別。采用基因本體功能富集分析,其中超幾何檢驗(yàn)用于功能過度表示和錯(cuò)誤發(fā)現(xiàn)率用于多假設(shè)檢驗(yàn)校正。只有小于 0.05的校正P值被認(rèn)為是顯著的。
此外,研究了差異遺傳相互作用與已知途徑之間的關(guān)聯(lián)。如差異網(wǎng)絡(luò)所示,差異遺傳相互作用更可能發(fā)生在連接兩個(gè)不同子網(wǎng)絡(luò)的基因?qū)χg,而不是同一子網(wǎng)絡(luò)內(nèi)的基因?qū)χg。在這些發(fā)現(xiàn)的基礎(chǔ)上,構(gòu)建了基因及其差異遺傳相互作用的圖譜,其中一些中心以前沒有與癌癥發(fā)展相關(guān)聯(lián)。為了驗(yàn)證新發(fā)現(xiàn)的癌基因,使用 DAVID 進(jìn)行通路分析,并將參數(shù)設(shè)置為默認(rèn)數(shù)字。研究了基于KEGG通路顯著豐富的功能模塊。
簡而言之,GO 和通路分析表明 netSAM 的有效性,這突出了該方法的潛在應(yīng)用,在開發(fā)靶向治療時(shí)可能很突出。通過共享常見的癌癥相關(guān)信號(hào)通路或通過 GO 功能術(shù)語,相信 netSAM 檢測到的基因與癌癥高度相關(guān)也是合理的。
3. 結(jié)果與討論
在本節(jié)中,包括使用合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)與兩種現(xiàn)有算法( t檢驗(yàn) 和套索 )進(jìn)行了數(shù)值比較,包括 GO 和通路分析。雖然它們?yōu)橹械纫?guī)模數(shù)據(jù)提供了有效的推理,但-test 和 lasso 通常不能有效捕捉大規(guī)模數(shù)據(jù)集的關(guān)系復(fù)雜性。實(shí)驗(yàn)證明了netSAM算法的高效性和有效性。此外,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)的算法在正確性/效率的權(quán)衡中占據(jù)了更高的位置。此外,通過功能富集分析和大量獨(dú)立文獻(xiàn),對(duì)檢測到的基因作為生物標(biāo)志物的生物學(xué)合理性進(jìn)行了驗(yàn)證。
3.1 模擬數(shù)據(jù)實(shí)驗(yàn)
為了估計(jì) netSAM 算法的正確性并將其性能與兩種常用的基于基因的算法,即t -test 和 lasso 進(jìn)行比較,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)使用 SynTReN ,它使用已知的基礎(chǔ)生物網(wǎng)絡(luò)模擬基準(zhǔn)微陣列數(shù)據(jù)集,以開發(fā)和測試新的網(wǎng)絡(luò)推理算法。通過 SynTReN,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)模擬了一個(gè)具有已知拓?fù)浣Y(jié)構(gòu)的生物網(wǎng)絡(luò)以及相應(yīng)的基因表達(dá)數(shù)據(jù)。盡管可以更改許多調(diào)整參數(shù)以在軟件中生成不同大小和復(fù)雜性的數(shù)據(jù)集,但鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)保留了控制復(fù)雜性方面的默認(rèn)調(diào)整參數(shù),只更改了控制噪聲和生成數(shù)據(jù)集大小的參數(shù)。
鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)生成了 100 個(gè)微陣列數(shù)據(jù)集,其中包含 200 個(gè)基因和 100 個(gè)樣本點(diǎn)(噪聲σ = 0.5);結(jié)果圖有大約 500 個(gè)連接。對(duì)于每個(gè)生成的數(shù)據(jù)集,然后將從每種方法中學(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)與真實(shí)的底層結(jié)構(gòu)進(jìn)行比較。鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)將每個(gè)實(shí)驗(yàn)運(yùn)行 10 次并對(duì)結(jié)果取平均值。
3.2. 與t -Test 和 Lasso的正確性和魯棒性比較
使用上述合成數(shù)據(jù)集,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)通過接收者操作特征 (ROC)、曲線下面積 (AUC)、陽性預(yù)測值 (PPV) 和錯(cuò)誤發(fā)現(xiàn)率 (FDR) 評(píng)估了不同識(shí)別方法的正確性和魯棒性。如果該方法可以出色地識(shí)別遺傳網(wǎng)絡(luò)中的連接,ROC、AUC 和 PPV 的值為 1。
從圖 2,與t -test 和 lasso相比,netSAM 算法在更多邊上獲得了相對(duì)較低的 FDR 和較高的 PPV 。此外,三種算法的生物標(biāo)志物識(shí)別的魯棒性、AUC 與 SNR(信噪比)顯示在圖 2(d). 圖中,netSAM 的平均 AUC 約為 0.8,這意味著 netSAM 可以選擇比t -test 和 lasso 更合適的基因生物標(biāo)志物。相反,lasso 在四個(gè)度量中對(duì)其他兩種算法的性能賊差。需要強(qiáng)調(diào)的是,這些度量描述了三種算法在同一底層網(wǎng)絡(luò)上的推理能力。
圖 2:netSAM、t檢驗(yàn)和 lasso 在 100 個(gè)合成數(shù)據(jù)集上的正確性和魯棒性比較。(a) ROC 曲線:真陽性率與假陽性率。(b) FDR 曲線:錯(cuò)誤發(fā)現(xiàn)率與真陽性率。(c) PPV 曲線:精度與召回值。(d) 穩(wěn)健性值(AUC 與 SNR)基于五折交叉驗(yàn)證計(jì)算,其中標(biāo)準(zhǔn)偏差顯示在誤差線中。
3.3. 使用 NetSAM 鑒定乳腺癌相關(guān)基因
在實(shí)際數(shù)據(jù)實(shí)驗(yàn)中,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)將 netSAM 應(yīng)用于 Wang 等人先前報(bào)道的乳腺癌基因表達(dá)微陣列數(shù)據(jù)集。 和 Van De Vijver 等人。。只有那些雌激素受體陽性乳腺癌患者作為“病例”樣本,其余雌激素受體陽性樣本被分配到“對(duì)照組”。案例和對(duì)照樣本都包含在鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)的實(shí)驗(yàn)中。之后,將 netSAM 分別應(yīng)用于兩個(gè)數(shù)據(jù)集,得到兩個(gè)乳腺癌基因集候選者。賊后,對(duì)它們進(jìn)行排序和交叉以檢測乳腺癌基因。
王等人。數(shù)據(jù)集是從 NCBI GEO 數(shù)據(jù)庫GSE2034 下載的。它使用來自 286 個(gè)淋巴結(jié)陰性原發(fā)性乳腺癌樣本的冷凍腫瘤樣本總 RNA 的 22,000 個(gè)轉(zhuǎn)錄本的表達(dá),其中包含 77 個(gè)雌激素受體陰性 (ER-) 和 209 個(gè)雌激素受體陽性 (ER+) 樣本,以及基因表達(dá)譜用 Affymetrix Human Genome U133A Array (HG-U133A) 分析。Van De Vijver 等人。 基因表達(dá)數(shù)據(jù)集由295個(gè)樣本組成,包括151個(gè)淋巴結(jié)陰性疾病和144個(gè)淋巴結(jié)陽性疾病。每個(gè)樣本大約有 25,000 個(gè)人類基因被轉(zhuǎn)錄并標(biāo)記到微陣列中。
雌激素受體 (ER) 是在細(xì)胞內(nèi)發(fā)現(xiàn)的一組蛋白質(zhì)。一旦被激活,內(nèi)質(zhì)網(wǎng)就能夠與 DNA 結(jié)合以調(diào)節(jié)不同基因的活性。雌激素受體陽性腫瘤是乳腺癌賊重要的亞型。絕大多數(shù)(約 70%)死于乳腺癌的女性患有雌激素受體陽性 (ER+) 腫瘤。在這些情況下,雌激素受體過度表達(dá)并被稱為“ER 陽性”。雖然分子生物學(xué)拓寬了鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)對(duì)乳腺癌的理解,但鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)仍然缺乏對(duì)雌激素受體陽性腫瘤的足夠了解。為了促進(jìn)對(duì)促進(jìn)腫瘤發(fā)生的雌激素信號(hào)傳導(dǎo)和調(diào)節(jié)機(jī)制的理解,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)因此專注于雌激素受體陽性乳腺癌患者。在實(shí)驗(yàn)中,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)選擇了 Wang 等人的 80 個(gè)樣本。Van De Vijver 等人的 78 個(gè)。在雌激素受體陽性患者中。這些選定的患者在手術(shù)后 5 年內(nèi)的隨訪期間被診斷為轉(zhuǎn)移,并在鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)的研究中被標(biāo)記為“病例”組。剩下的 129 個(gè)和 217 個(gè)樣本分別在兩項(xiàng)研究中被分配到“對(duì)照組”。
使用 netSAM,分別在兩個(gè)數(shù)據(jù)集上共鑒定出 761 和 938 個(gè)差異遺傳相互作用,其中 342 和 461 個(gè)相互作用是“陽性的”,表示可誘導(dǎo)上位性,而 419 和 477 是“陰性”,表示抑制。此外,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)在 Wang 等人 上檢測到 119 個(gè)中心基因。Van De Vijver 等人的數(shù)據(jù)集和 162。數(shù)據(jù)集。在兩個(gè)候選基因組(分別為 119 和 162 個(gè)基因)之間發(fā)現(xiàn)了 76 個(gè)基因的子集。76 個(gè)交叉基因的 GO 和通路富集分析結(jié)果顯示在第3.5節(jié)和第3.6節(jié)中。
為了獲得乳腺癌基因特征,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)首先分別從兩個(gè)候選基因集(119 和 162)中選擇排名前 10 的基因。然后,在兩個(gè)排名前 10 的基因集之間生成了一個(gè)交集。賊后,6個(gè)交叉基因被認(rèn)為是乳腺癌易感基因,即由TSPYL5、CD55、CCNE2、DCK、BBC3和MUC1組成的特征。
此外,Wang 等人的 netSAM 鑒定的排名前 50 的基因。數(shù)據(jù)集顯示在圖 3. 從圖 3不僅鑒定了已知的乳腺癌轉(zhuǎn)移基因(BRCA1、TP53和ERBB2),還鑒定了TSPYL5、CD55、CCNE2、DCK、BBC3和MUC1等新型癌癥易感基因。這些公認(rèn)的基因與許多其他基因相互作用,共同調(diào)節(jié)乳腺癌的進(jìn)展和演變。節(jié)點(diǎn)大小與乳腺癌易感性有關(guān),它代表了與癌癥有關(guān)的基因的可能性。圖 3是使用 Cytoscape 創(chuàng)建的。
圖 3:乳腺癌相關(guān)基因子網(wǎng)絡(luò)由 Wang 等人通過 netSAM 方法鑒定的排名前 50 位的基因組成。乳腺癌數(shù)據(jù)集?;虮硎緸閳A圈,兩個(gè)基因之間的顯著共調(diào)節(jié)表示為一條線。
3.4. 鑒定特征與文獻(xiàn)參考基因集的重疊分析
在本節(jié)中,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)在乳腺癌數(shù)據(jù)集上將 netSAM 與基于基因的方法(t檢驗(yàn)和套索)進(jìn)行了比較,以進(jìn)一步檢查哪種方法可以獲得更好的特征。為了通過文獻(xiàn)挖掘比較重疊基因,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)還通過從文獻(xiàn)管理和網(wǎng)絡(luò)資源中收集已知與乳腺癌相關(guān)的基因,編制了癌癥相關(guān)基因列表,BCGS(乳腺癌文獻(xiàn)參考基因集)。BCGS 包括 452 個(gè)具有代表性的癌癥相關(guān)基因。在 PubMed 中使用關(guān)鍵字(breast cancer* gene AND Humans [mesh] OR “Breast Neoplasm” [mesh] AND “Neoplasm Metastasis” [mesh] bioprocess [go])從 1098 篇 PubMed 文獻(xiàn)中搜索和提取基因符號(hào)。這些基因構(gòu)成了鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)“癌癥相關(guān)基因”數(shù)據(jù)集的基礎(chǔ)。然后,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)利用文獻(xiàn)發(fā)表的基因集 BCGS 和鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)的候選基因之間的重疊率作為 netSAM 可行性和有效性的證據(jù)。
當(dāng)兩個(gè)不同的集合共享至少一個(gè)共同元素時(shí),它們是“相交的”或“重疊的”。在基因組場景中,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)利用重疊測量來檢查策劃基因集 BCGS 和使用不同檢測算法識(shí)別的癌癥基因集之間的重疊能力。具體來說,重疊率定義為交叉基因數(shù)除以已識(shí)別基因數(shù)。
為了驗(yàn)證netSAM的預(yù)測能力,進(jìn)行了重疊率和重疊趨勢分析。netSAM、t -test 和 lasso 之間的比較結(jié)果顯示在圖 4基于王等人。和 Van De Vijver 等人。乳腺癌數(shù)據(jù)集。重疊率的比較表明netSAM可以識(shí)別一些t檢驗(yàn)和lasso沒有發(fā)現(xiàn)的新型致癌基因。只有少數(shù)已知的乳腺癌基因通過t檢驗(yàn)和 lasso 被正確識(shí)別。從圖 4,與其他兩種方法相比,netSAM可以識(shí)別更多的重疊基因,這表明netSAM在生物標(biāo)志物識(shí)別方面在不同數(shù)據(jù)集之間獲得了更好的重現(xiàn)性。此外,圖 4還表明,由 netSAM 鑒定的一些候選基因(約 60%)與 BCGS 中已知的乳腺癌基因顯著重疊。因此,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)可以得出結(jié)論,netSAM 是一種更有效的識(shí)別生物標(biāo)志物的方法。
圖 4:(a)基于 Wang 等人的使用 netSAM、t檢驗(yàn)和套索識(shí)別的基因的重疊。和 Van De Vijver 等人。乳腺癌數(shù)據(jù)集。( b )重疊趨勢:重疊基因與排名靠前的基因的數(shù)量(誤差條表示估計(jì)超過 100 次測試的標(biāo)準(zhǔn)偏差)。
雖然根據(jù)檢索PubMed中引用的相關(guān)文章的結(jié)果,BCGS由452個(gè)基因組成,但迄今為止,大部分基因仍未被先進(jìn)確定地證明是乳腺癌易感基因。因此,當(dāng)這些基因被用作真正的乳腺癌基因來測試鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)方法的性能時(shí),它可能會(huì)導(dǎo)致一些偏差。
3.5. 圍棋分析
大多數(shù)癌癥,包括乳腺癌,都是復(fù)雜的疾病,通常由多個(gè)基因及其復(fù)雜的相互作用引起。通過將 netSAM 識(shí)別的 76 個(gè)交叉基因映射到基因本體 (GO) 術(shù)語,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)發(fā)現(xiàn)了 11 個(gè) GO 功能類別,在表格1. 獲得的 GO 術(shù)語與精選文獻(xiàn) 中的一致,這表明上述類別在很大程度上捕獲了乳腺癌特異性基因網(wǎng)絡(luò)的功能方面。已知一些細(xì)胞過程,如代謝、細(xì)胞增殖和復(fù)制、細(xì)胞凋亡、炎癥和細(xì)胞周期對(duì)于腫瘤發(fā)生至關(guān)重要。GO 分析的結(jié)果表明,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)發(fā)現(xiàn)的特征的富集分?jǐn)?shù) (ES) 為 0.79,這意味著已識(shí)別的癌基因包含對(duì)富集分?jǐn)?shù)有貢獻(xiàn)的大部分基因。
表格1:通過對(duì) 76 個(gè)交叉基因的 BiNGO 功能注釋分析,顯著豐富了生物過程的 GO 術(shù)語
去術(shù)語 |
超幾何檢驗(yàn)P值 |
Benjamini 校正P值 |
映射基因的頻率 (%) |
Fisher P值 |
免疫系統(tǒng)過程 |
1.5280 E - 14 |
1.7847 E - 11 |
33.3 |
2.3 E - 12 |
細(xì)胞周期 |
3.5350 E - 12 |
2.0645 E - 9 |
20.4 |
1.3 E - 12 |
免疫反應(yīng) |
6.2486 E - 12 |
2.4328 E - 9 |
24.7 |
1.3 E - 9 |
細(xì)胞分裂 |
1.5915 E - 11 |
4.4740 E - 9 |
18.2 |
1.3 E - 11 |
核分裂 |
2.2983 E - 11 |
4.4740 E - 9 |
16.1 |
7.2 E - 12 |
凋亡過程 |
2.2983 E - 11 |
4.4740 E - 9 |
16.1 |
7.2 E - 12 |
代謝 |
3.9513 E - 11 |
5.7689 E - 9 |
16.1 |
1.3 E - 11 |
細(xì)胞增殖 |
1.0537 E - 10 |
1.2307 E - 8 |
22.5 |
3.4 E - 11 |
炎癥反應(yīng) |
5.4845 E - 8 |
4.2706 E - 6 |
41.9 |
1.4 E - 10 |
對(duì)刺激的反應(yīng) |
6.6080 E - 5 |
1.9433 E - 3 |
44.0 |
5.6 E - 10 |
系統(tǒng)開發(fā) |
5.1327 E - 4 |
8.4436 E - 3 |
31.1 |
2.3 E - 11 |
基因本體富集分析的全部細(xì)節(jié)顯示在表格1. netSAM 鑒定的腫瘤基因在基因本體中的重要生物學(xué)過程中富集。從表格1,可以看出,檢測到的癌基因在細(xì)胞凋亡、代謝、免疫反應(yīng)和細(xì)胞周期等方面顯著富集。炎癥反應(yīng)過多,可以被認(rèn)為是潛在的候選者,因?yàn)槿藗兤毡檎J(rèn)為慢性炎癥是癌癥的誘發(fā)因素。這些結(jié)果表明,上述類別在很大程度上捕獲了乳腺癌特異性基因的功能方面。
3.6. KEGG通路功能分析
對(duì)京都基因和基因組百科全書 (KEGG) 通路進(jìn)行基因集富集分析,以找到額外的支持證據(jù),如表 2. 發(fā)現(xiàn)了豐富的途徑。在豐富的通路中,TGF-β、p53、Notch 和 JAK-STAT 信號(hào)通路經(jīng)常被報(bào)道與乳腺腫瘤轉(zhuǎn)移有關(guān) 。Notch信號(hào)通路可能在轉(zhuǎn)移和無反復(fù)之間的串?dāng)_中發(fā)揮重要作用。賊近,已經(jīng)發(fā)現(xiàn)p53通過人類癌癥中的反饋回路激活 MAPK 途徑。此外,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)發(fā)現(xiàn)檢測到的基因富含許多已知途徑,如細(xì)胞凋亡和細(xì)胞周期。DAVID 遺傳病類分類分析表明,細(xì)胞凋亡和細(xì)胞周期的Benjamin P值分別為1.1 E -6和3.3 E -4。六個(gè)樞紐基因(TSPYL5、CD55、CCNE2、DCK、BBC3和MUC1 ) 都被證明是癌癥相關(guān)的中樞基因。從表 2,可以得出結(jié)論,確定了 ECM、P53 和細(xì)胞周期途徑中顯著富集的六個(gè)基因。
表 2:通過 DAVID 對(duì) 76 個(gè)交叉基因進(jìn)行 KEGG 通路功能分析
KEGG通路 |
數(shù)數(shù) |
頻率 (%) |
P值 |
本杰明 |
病毒性心肌炎 |
10 |
10.4 |
1.6 E - 8 |
1.0 E - 6 |
細(xì)胞凋亡 |
8 |
8.3 |
3.3 E - 8 |
1.1 E - 6 |
I型糖尿病 |
8 |
8.3 |
1.0 E - 7 |
1.7 E - 6 |
自身免疫性甲狀腺疾病 |
8 |
8.3 |
4.2 E - 7 |
5.3 E - 6 |
細(xì)胞周期 |
9 |
9.4 |
3.1 E - 5 |
3.3 E - 4 |
TGF-β信號(hào)通路 |
8 |
8.3 |
1.7 E - 4 |
1.2 E - 3 |
Notch信號(hào)通路 |
6 |
6.2 |
3.9 E - 3 |
2.4 E - 2 |
ECM-受體相互作用 |
5 |
5.2 |
8.3 E - 3 |
4.8 E - 2 |
JAK-STAT信號(hào)通路 |
7 |
7.3 |
1.2 E - 2 |
6.2 E - 2 |
P53信號(hào)通路 |
4 |
4.2 |
4.9 E - 2 |
2.1 E - 1 |
免疫網(wǎng)絡(luò) |
3 |
3.1 |
8.0 E - 2 |
3.0 E - 1 |
圖中描繪的信號(hào)通路圖 5包括 MAPK 和 JAK-STAT 信號(hào)通路,這些信號(hào)通路在 Wang 等人的 netSAM 方法鑒定的癌癥相關(guān)遺傳網(wǎng)絡(luò)中突出顯示。乳腺癌數(shù)據(jù)集。
圖 5:在 Wang 等人的 netSAM 確定的癌癥相關(guān)遺傳網(wǎng)絡(luò)中突出顯示的信號(hào)通路。數(shù)據(jù)集,包括 MAPK 和 JAK-STAT 通路。
4. 基因檢測數(shù)據(jù)的基于網(wǎng)絡(luò)的基因解碼分析
在本文中,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)提出 netSAM 從兩個(gè)基準(zhǔn)乳腺癌數(shù)據(jù)集(Wang 等人和 Van De Vijver 等人)中識(shí)別乳腺癌相關(guān)基因。使用 netSAM,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)鑒定了六個(gè)新基因(TSPYL5、CD55、CCNE2、DCK、BBC3和MUC1) 作為預(yù)測乳腺癌患者生存和轉(zhuǎn)移的癌癥生物標(biāo)志物。鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)簽名中的 6 個(gè)基因中的每一個(gè)不僅與文獻(xiàn)中潛在的癌癥反復(fù)有關(guān),而且在大多數(shù)情況下,它們還被證明與預(yù)后結(jié)果、轉(zhuǎn)移和細(xì)胞凋亡直接相關(guān)。此外,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)實(shí)驗(yàn)中鑒定的六個(gè)新基因與文獻(xiàn)整理的乳腺癌基因集 BCGS 重疊。進(jìn)一步的功能富集分析和獨(dú)立文獻(xiàn)證據(jù)也證實(shí)了鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)確定的潛在致癌基因在生物學(xué)上是合理的,表明鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)方法的有效性。此外,netSAM發(fā)現(xiàn)的119個(gè)致癌基因中,近60%通過文獻(xiàn)挖掘被認(rèn)定為乳腺癌易感基因或已知癌癥相關(guān)基因。
TSPYL5(TSPY 樣 5),也稱為KIAA1750,參與核小體組裝,這是一個(gè)可以改變細(xì)胞調(diào)節(jié)機(jī)制的過程 ,這很可能發(fā)生在癌癥中。TSPYL5以前曾被用作乳腺癌的預(yù)后生物標(biāo)志物 。此外,還注意到它在促黃體生成素 (LH) 的循環(huán)中發(fā)揮作用,眾所周知,黃體生成素會(huì)促進(jìn)乳房中的腫瘤生長。此外,單個(gè)基因 ( TSPYL5 ) 存在于 Alexe 等人選擇的 17 個(gè)基因中。CD55以前曾被用作胃癌的預(yù)后生物標(biāo)志物。CD55已被證明在乳腺癌預(yù)后中很重要 。
CCNE2編碼一種類似于細(xì)胞周期蛋白的蛋白質(zhì),可作為細(xì)胞周期蛋白依賴性激酶 (CDK) 的調(diào)節(jié)劑。在腫瘤衍生細(xì)胞中觀察到該基因的表達(dá)水平顯著增加。CCNE2也被認(rèn)定為淋巴結(jié)陰性乳腺腫瘤患者的獨(dú)立預(yù)后標(biāo)志物,據(jù)報(bào)道它對(duì)乳腺癌患者的 ER 陽性病例具有預(yù)測價(jià)值 。
DCK(脫氧胞苷激酶)基因是幾種脫氧核糖核苷及其核苷類似物磷酸化所必需的。它已被用于研究髓性白血病 (AML) 和乳腺癌患者對(duì)化療的耐藥性 。此外,這種特殊基因可能會(huì)催化吉西他濱的代謝激活,吉西他濱是一種已用于治療多種不同類型癌癥的藥物。然而,該基因的確切功能仍然未知。
BBC3基因,也稱為PUMA,位于人類染色體19q13.3-q13.4,與BCL2家族成員同源。BBC3在調(diào)節(jié)其他基因方面具有卓越的功能 。許多腫瘤基因與BBC3相關(guān)。BBC3的生物學(xué)作用是通過線粒體凋亡途徑誘導(dǎo)細(xì)胞凋亡。此外,BBC3還被腫瘤抑制因子 p53轉(zhuǎn)錄激活,p53是乳腺癌細(xì)胞凋亡和腫瘤發(fā)生的關(guān)鍵調(diào)節(jié)因子 。
MUC1基因編碼一種位于乳腺上皮細(xì)胞頂端表面的高度糖基化蛋白,該蛋白在大約 90% 的人類乳腺癌中異常過表達(dá) 。然而,它在癌癥轉(zhuǎn)移中的作用尚不清楚。MUC1蛋白過表達(dá)與細(xì)胞粘附抑制以及腫瘤細(xì)胞的轉(zhuǎn)移和侵襲潛力增加有關(guān)。這種過度表達(dá)允許MUC1與受體酪氨酸激酶ERBB家族的成員相互作用。
在提議的 netSAM 程序中,采用了一系列統(tǒng)計(jì)方法和技術(shù)。盡管方法論有所不同,但鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)的分析證實(shí)了之前的一些發(fā)現(xiàn)。例如,鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)還發(fā)現(xiàn)了ERBB2和MUC1與乳腺癌預(yù)后的相關(guān)性。此外,當(dāng)鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)將傳統(tǒng)的基于基因的方法(t -test 和 lasso)應(yīng)用于基因表達(dá)數(shù)據(jù)集時(shí),鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)發(fā)現(xiàn)只有一小部分已知的腫瘤基因被鑒定為乳腺癌相關(guān)基因。
總之,netSAM 發(fā)現(xiàn)的癌基因可用于對(duì)患者進(jìn)行分層以進(jìn)行疾病治療,并擴(kuò)展對(duì)乳腺癌疾病機(jī)制的認(rèn)識(shí),為臨床決策提供潛在信息,并有助于降低治療成本。然而,以目前的臨床知識(shí)還不能有效證明這些基因的合理性,迫切需要進(jìn)一步的實(shí)驗(yàn)驗(yàn)證。差異遺傳相互作用網(wǎng)絡(luò)已被證明對(duì)于繪制調(diào)節(jié)/介導(dǎo)基本細(xì)胞功能的途徑非常強(qiáng)大。鑒定癌癥發(fā)生的致病基因和風(fēng)險(xiǎn)基因的信號(hào)網(wǎng)絡(luò)分析團(tuán)隊(duì)的工作表明,基于差分網(wǎng)絡(luò)的推理方法可以為識(shí)別人類疾病中的相關(guān)基因提供強(qiáng)大的工具。
未來的工作包括探索其他程序以進(jìn)一步提高檢測的正確性和效率,例如,使用蛋白質(zhì)相互作用網(wǎng)絡(luò)信息。人們還認(rèn)為,結(jié)合額外的生物數(shù)據(jù)和信息將為疾病基因發(fā)現(xiàn)獲得更好的生物標(biāo)志物。
Network-based inference framework for identifying cancer genes from gene expression data.
Yang B, Zhang J, Yin Y, Zhang Y.
Biomed Res Int. 2013;2013:401649. doi: 10.1155/2013/401649. Epub 2013 Sep 1.
PMID: 24073403
(責(zé)任編輯:佳學(xué)基因)