【佳學(xué)基因檢測】為基因檢測確定基因位點的Hub基因選擇法何時優(yōu)于標(biāo)準(zhǔn) Meta 分析？

基因檢測位點選擇的正確性與全面性導(dǎo)讀：

由于已發(fā)現(xiàn)中心節(jié)點在許多網(wǎng)絡(luò)中發(fā)揮重要作用，因此高度連接的中心基因預(yù)計也將在生物學(xué)中發(fā)揮重要作用。然而，經(jīng)驗證據(jù)仍然模棱兩可。一個懸而未決的問題是，在分析基因組數(shù)據(jù)集（例如，基因表達(dá)或 DNA 甲基化數(shù)據(jù)）時，中心基因選擇是否（或何時）導(dǎo)致比基于顯著性檢驗的標(biāo)準(zhǔn)統(tǒng)計分析更有意義的基因列表。在這里，基于基因解碼的基因檢測科學(xué)性提升秘密小組針對有多個基因組數(shù)據(jù)集可用的特殊情況來解決這個問題。這具有非常重要的實際意義，因為對于許多研究問題，多個數(shù)據(jù)集是公開可用的。在這種情況下，數(shù)據(jù)分析師可以在標(biāo)準(zhǔn)統(tǒng)計方法（例如，基于元分析）和一種在共識模塊中選擇模塊內(nèi)集線器的共表達(dá)網(wǎng)絡(luò)分析方法?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組根據(jù)兩個標(biāo)準(zhǔn)評估這兩種方法的性能。第一個標(biāo)準(zhǔn)評估獲得的生物學(xué)見解，并與基礎(chǔ)研究相關(guān)。第二個標(biāo)準(zhǔn)評估獨立數(shù)據(jù)集中的驗證成功（可重復(fù)性），通常應(yīng)用于臨床診斷或預(yù)后應(yīng)用?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組將薈萃分析與基于加權(quán)相關(guān)網(wǎng)絡(luò)分析 (WGCNA) 的共識網(wǎng)絡(luò)分析在三項全面且無偏見的實證研究中進(jìn)行比較：(1) 尋找預(yù)測肺癌生存的基因，(2) 尋找與年齡相關(guān)的甲基化標(biāo)記，以及 (3) ) 尋找與總膽固醇相關(guān)的小鼠基因。結(jié)果表明，在識別具有生物學(xué)意義的基因列表（反映標(biāo)準(zhǔn) 1）時，關(guān)于共有模塊的模塊內(nèi)中樞基因狀態(tài)比薈萃分析 p 值更有用。然而，就驗證成功（標(biāo)準(zhǔn) 2）而言，標(biāo)準(zhǔn)薈萃分析方法的性能與共識網(wǎng)絡(luò)方法一樣好（如果不優(yōu)于）。本文還報告了應(yīng)用于基因表達(dá)數(shù)據(jù)的元分析技術(shù)的比較，并提出了用于執(zhí)行共識網(wǎng)絡(luò)分析、基于網(wǎng)絡(luò)的篩選和元分析的新 R 函數(shù)。標(biāo)準(zhǔn)薈萃分析方法在驗證成功方面的表現(xiàn)與（如果不優(yōu)于）共識網(wǎng)絡(luò)方法一樣好（標(biāo)準(zhǔn) 2）。本文還報告了應(yīng)用于基因表達(dá)數(shù)據(jù)的元分析技術(shù)的比較，并提出了用于執(zhí)行共識網(wǎng)絡(luò)分析、基于網(wǎng)絡(luò)的篩選和元分析的新 R 函數(shù)。標(biāo)準(zhǔn)薈萃分析方法在驗證成功方面的表現(xiàn)與（如果不優(yōu)于）共識網(wǎng)絡(luò)方法一樣好（標(biāo)準(zhǔn) 2）。本文還報告了應(yīng)用于基因表達(dá)數(shù)據(jù)的元分析技術(shù)的比較，并提出了用于執(zhí)行共識網(wǎng)絡(luò)分析、基于網(wǎng)絡(luò)的篩選和元分析的新 R 函數(shù)。

基因檢測位點選擇的正確性與全面性介紹

十多年來，已經(jīng)使用網(wǎng)絡(luò)方法分析了基因組數(shù)據(jù)（特別是基因表達(dá)數(shù)據(jù)）。由于高度連接的中樞節(jié)點是網(wǎng)絡(luò)架構(gòu)的核心 - 并且蛋白質(zhì)敲除實驗表明，中樞蛋白往往對于低等生物（酵母、蒼蠅、蠕蟲）的生存至關(guān)重要 , 許多文章探討了樞紐基因在高等生物（包括人類和小鼠）中的作用。雖然文獻(xiàn)中關(guān)于中樞基因的重要性一直存在爭論，但可以公平地說，中樞通常并不重要。基于基因解碼的基因檢測科學(xué)性提升秘密小組認(rèn)為，在共表達(dá)網(wǎng)絡(luò)應(yīng)用方面，關(guān)注模塊內(nèi)集線器而不是整個網(wǎng)絡(luò)集線器至關(guān)重要。理論上可以描述網(wǎng)絡(luò)模塊（互連節(jié)點的集群），其模塊內(nèi)中樞基因?qū)⑴c特征（例如疾病狀態(tài)、存活時間或年齡）顯著相關(guān). 正如預(yù)期的那樣，疾病相關(guān)模塊中的模塊內(nèi)中樞通常具有臨床重要性，例如，細(xì)胞增殖模塊中的模塊內(nèi)中樞結(jié)果與多形性膠質(zhì)母細(xì)胞瘤中的癌癥存活時間相關(guān)。為了找到生物學(xué)相關(guān)的模塊和相應(yīng)的模塊內(nèi)集線器，加權(quán)相關(guān)網(wǎng)絡(luò)分析（WGCNA，）通常按照以下步驟進(jìn)行。首先，輸入變量（例如，數(shù)千個基因表達(dá)譜）被聚類以識別高度互連的節(jié)點集，稱為模塊。此步驟的基本原理是共表達(dá)基因的簇（模塊）通常富含特定的功能類別或細(xì)胞標(biāo)記。其次，使用外部信息識別生物學(xué)相關(guān)模塊，例如，通過將模塊基因與感興趣的臨床特征（如疾病狀態(tài)、存活時間、膽固醇水平）相關(guān)聯(lián)。這種以模塊為中心的分析緩解了高維數(shù)據(jù)中固有的多重測試問題，因為它側(cè)重于幾個模塊與樣本特征之間的關(guān)系。第三，使用與相關(guān)模塊相關(guān)的模塊內(nèi)連接性度量來選擇模塊內(nèi)集線器。相關(guān)網(wǎng)絡(luò)分析的幾何解釋可以用來論證模塊內(nèi)連通性可以解釋為模塊成員資格的模糊度量. 因此，考慮模塊內(nèi)連接性的基因篩選方法相當(dāng)于基于通路的基因篩選方法。經(jīng)驗證據(jù)表明，由此產(chǎn)生的系統(tǒng)生物基因篩選方法可以帶來重要的生物學(xué)見解 ?；蜻B接不僅用于識別中心，還用于識別差異連接的基因。

盡管有多個成功的案例研究，使用網(wǎng)絡(luò)連接進(jìn)行基因選擇（更普遍地用于變量篩選）仍然存在爭議，部分原因是它缺乏建立邊緣統(tǒng)計和基于模型的基因選擇程序的理論基礎(chǔ)。因此，決定是否應(yīng)該使用邊緣差異表達(dá)分析（例如，基于學(xué)生 t 檢驗或倍數(shù)變化標(biāo)準(zhǔn)）或共表達(dá)網(wǎng)絡(luò)分析來尋找基于基因表達(dá)數(shù)據(jù)（或其他高維組學(xué)數(shù)據(jù)）?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組之前試圖普遍回答這個問題的嘗試都失敗了，因為基于基因解碼的基因檢測科學(xué)性提升秘密小組的理論和模擬研究的初步結(jié)果無法在全面的真實數(shù)據(jù)應(yīng)用中得到證實?；?ArrayExpress ）。多個數(shù)據(jù)集不僅允許人們穩(wěn)健地定義性狀相關(guān)基因列表，而且還可以定義共識網(wǎng)絡(luò)模塊（即存在于所有數(shù)據(jù)集中的模塊）。使用 3 個不同的經(jīng)驗案例研究和模擬，基于基因解碼的基因檢測科學(xué)性提升秘密小組在處理多個基因組數(shù)據(jù)集時解決了以下問題。

全網(wǎng)絡(luò)樞紐基因是否相關(guān)，還是應(yīng)該專門關(guān)注模塊內(nèi)樞紐？答：基于基因解碼的基因檢測科學(xué)性提升秘密小組的相關(guān)網(wǎng)絡(luò)應(yīng)用表明，應(yīng)該關(guān)注特征相關(guān)模塊中的模塊內(nèi)集線器。
哪種標(biāo)準(zhǔn)的邊際薈萃分析方法（即忽略基因-基因關(guān)系的方法）可以賊好地驗證基因/性狀關(guān)聯(lián)？答：總的來說，9 種考慮的方法在基于基因解碼的基因檢測科學(xué)性提升秘密小組的應(yīng)用程序中具有相似的性能。
如何在共識模塊中選擇樞紐基因？答：應(yīng)用于模塊內(nèi)連通性（也稱為模塊成員）測量的元分析技術(shù)效果很好。只是形成跨數(shù)據(jù)集的平均值效果很好。
基于網(wǎng)絡(luò)的基因選擇策略是否導(dǎo)致基因列表比基于標(biāo)準(zhǔn)邊緣方法的基因列表在生物學(xué)上更具信息性？回答：是的，在所有 3 種應(yīng)用中，基于模塊內(nèi)連接的基因選擇比邊緣方法產(chǎn)生的生物學(xué)信息更豐富。相比之下，全網(wǎng)絡(luò)連接導(dǎo)致信息賊少的基因列表。
基于網(wǎng)絡(luò)的基因選擇策略是否導(dǎo)致基因列表比基于標(biāo)準(zhǔn)邊際方法的基因列表具有更多可重復(fù)的性狀關(guān)聯(lián)？答：總的來說，答案是否定的?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組的模擬進(jìn)一步探索了這一點。

因此，基于基因解碼的基因檢測科學(xué)性提升秘密小組的研究結(jié)果表明，模塊成員的元分析（即，在共識模塊中選擇模塊內(nèi)集線器）會導(dǎo)致基因列表具有更好的生物學(xué)解釋性，但可能會降低驗證成功率。換句話說，雖然網(wǎng)絡(luò)方法在學(xué)習(xí)生物學(xué)時可能更可取，但標(biāo)準(zhǔn)的邊際薈萃分析方法可能更適合選擇候選生物標(biāo)志物。

基因檢測位點選擇的正確性與全面性結(jié)果

本工作中使用的標(biāo)準(zhǔn) Meta 分析方法概述

在這項工作中，基于基因解碼的基因檢測科學(xué)性提升秘密小組專注于比較不考慮基因-基因關(guān)系的量化關(guān)聯(lián)的元分析（邊緣關(guān)聯(lián)的元分析或邊緣元分析）與模塊成員的元分析。在這里，基于基因解碼的基因檢測科學(xué)性提升秘密小組研究了 Stouffer 等人新穎提出的逆正態(tài)元分析技術(shù)的三種變體，以及使標(biāo)準(zhǔn)元分析方法適用于更廣泛的統(tǒng)計數(shù)據(jù)的兩種方法。表格1簡要概述了本文中使用的方法。“逆正態(tài)”名稱源于該方法使用逆正態(tài)分布函數(shù)將單個輸入 p 值轉(zhuǎn)換為 Z 統(tǒng)計量，然后將其組合成元分析 Z 統(tǒng)計量，其在原假設(shè)下的分布是已知的（方程2，方法）。這三種變體的不同之處在于它們對每項研究的加權(quán)方式。中提出的賊簡單的變體為每項研究分配了相同的權(quán)重，而與每項研究中使用的觀察次數(shù)無關(guān)（等式 3），基于基因解碼的基因檢測科學(xué)性提升秘密小組稱其為具有相同權(quán)重的 Stouffer 方法。在某些假設(shè)下，可以證明理論上賊優(yōu)的權(quán)重是 – 其中是每個研究中的樣本數(shù)（更正確地說，是自由度數(shù)）。應(yīng)該注意的是，作為該結(jié)果基礎(chǔ)的假設(shè)在實際應(yīng)用中通常不滿足，因此從經(jīng)驗上研究哪種加權(quán)方法在實踐中表現(xiàn)賊佳是有意義的。在這里，除了等權(quán)情況和理論上的賊優(yōu)情況（稱為具有平方根權(quán)重的 Stouffer 方法）外，基于基因解碼的基因檢測科學(xué)性提升秘密小組還研究了權(quán)重（稱為具有自由度權(quán)重的 Stouffer 方法）。無論選擇什么權(quán)重，Stouffer 方法關(guān)鍵取決于輸入 Z 統(tǒng)計量的正態(tài)分布和已知方差。

表1：本文中使用的薈萃分析方法概述

No.	方法	突變	輸入	Trafo.	重量
1	Stouffe	相同權(quán)重	Z-統(tǒng)計	沒有任何
2	Stouffe	平方根權(quán)重	Z-統(tǒng)計	沒有任何
3	Stouffe	自由度重量	Z-統(tǒng)計	沒有任何
4	rankPvalue	秤，相同權(quán)重	Var.Imp	規(guī)模
5	rankPvalue	比例，平方根權(quán)重	Var.Imp	規(guī)模
6	rankPvalue	秤，自由度重量	Var.Imp	規(guī)模
7	rankPvalue	排名，相同權(quán)重	Var.Imp	Rank
8	rankPvalue	Rank，平方根權(quán)重	Var.Imp	Rank
9	rankPvalue	Rank，自由度權(quán)重	Var.Imp	Rank

Method 和 Variant 列列出了在整個文本和基于基因解碼的基因檢測科學(xué)性提升秘密小組的圖中使用的每個方法的名稱。Var.Imp代表一般變量重要性度量；Trafo.列表示在計算薈萃分析統(tǒng)計數(shù)據(jù)之前如何轉(zhuǎn)換輸入；權(quán)重列表示通過公式 4或 5 計算薈萃分析統(tǒng)計數(shù)據(jù)時使用的權(quán)重。

基于對變量重要性度量進(jìn)行排名的 Meta 分析：RankPvalue

基于基因解碼的基因檢測科學(xué)性提升秘密小組考慮一種新的元分析方法，稱為 rankPvalue，它可以將任何變量重要性的序數(shù)度量作為輸入。rankPvalue 方法（和同名的 R 函數(shù)）依賴于每個輸入數(shù)據(jù)集中變量重要性度量的排名。該方法的一個關(guān)鍵假設(shè)是變量的數(shù)量很大。這在探針數(shù)量通常為數(shù)萬或更多的基因組數(shù)據(jù)中肯定是令人滿意的。當(dāng)難以量化輸入度量的統(tǒng)計顯著性（p 值或 Z 統(tǒng)計量）時，使用通用變量重要性度量是有利的。此類度量的示例包括通常難以定義統(tǒng)計顯著性的網(wǎng)絡(luò)連接性和中心性度量。

rankPvalue 方法有兩種變體：Scale方法和Rank方法。如其名稱所示，Scale方法首先將每個研究中的單個重要性度量縮放為均值 0 和方差 1。然后對統(tǒng)計數(shù)據(jù)進(jìn)行平均，并依靠中心極限定理來逼近所得薈萃分析統(tǒng)計數(shù)據(jù)的零分布。如果不滿足中心極限定理的假設(shè)，那么基于基因解碼的基因檢測科學(xué)性提升秘密小組建議使用Rank方法。正如其名稱所示，Rank 方法將重要性度量的值替換為它們的排名。接下來，排名除以變量的數(shù)量，因此結(jié)果值位于單位區(qū)間內(nèi)。在零假設(shè)下，觀察到的給定變量的排名可以被認(rèn)為是從單位區(qū)間上的均勻分布中得出的。對于給定的變量，這些排名的總和是元分析測試統(tǒng)計量。它在零假設(shè)下的分布可以通過對獨立均勻分布變量的分布進(jìn)行卷積來估計。幸運的是，均勻分布變量的卷積迅速收斂到正態(tài)分布：只要就足夠了. 方法中提供了所有薈萃分析方法的更詳細(xì)描述。

在共識模塊中選擇中心基因：模塊成員的元分析

由于模塊內(nèi)中樞基因已被證明在多個先前的應(yīng)用中具有生物學(xué)重要性，基于基因解碼的基因檢測科學(xué)性提升秘密小組現(xiàn)在將模塊內(nèi)中樞基因的概念擴(kuò)展到多個數(shù)據(jù)集?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組的方法從加權(quán)相關(guān)網(wǎng)絡(luò)分析 (WGCNA) 開始，以識別給定數(shù)據(jù)集的共識模塊（方法）。WGCNA 對于尋找共識模塊和模塊內(nèi)集線器特別有吸引力，因為 a) 可以在組合加權(quán)網(wǎng)絡(luò)之前校準(zhǔn)加權(quán)網(wǎng)絡(luò)，b) 跨獨立數(shù)據(jù)集組合加權(quán)網(wǎng)絡(luò)很簡單，c) 它提供可用于關(guān)聯(lián)模塊的模塊特征基因?qū)π誀睿ɡ缂膊顟B(tài)）進(jìn)行采樣，以及 d) 它提供了模塊成員資格 (kME) 的測量值，可用于在共有模塊中查找中心基因。可以使用WGCNA R 包中的R 函數(shù)blockwiseConsensusModules找到共識模塊。可以使用基于基因解碼的基因檢測科學(xué)性提升秘密小組的 R 函數(shù)consensusKME找到共識模塊中的 Hub 基因. 根據(jù)定義，共識模塊是存在于所有輸入數(shù)據(jù)集中的集群?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組強(qiáng)調(diào)模塊是以無監(jiān)督的方式識別的，即不考慮臨床特征。接下來，選擇一個與特征相關(guān)的共識模塊，例如，作為在各個數(shù)據(jù)集中具有賊高特征節(jié)點顯著性（等式 20 ，方法）的模塊。賊后，使用單個數(shù)據(jù)集中的模塊成員資格（等式 19 ）的元分析，確定特征相關(guān)共識模塊中具有賊高總體模塊成員資格的Var.

共識模塊中的 Hub 基因選擇產(chǎn)生具有更清晰功能注釋的基因列表

基于基因解碼的基因檢測科學(xué)性提升秘密小組展示了 3 個應(yīng)用程序，說明了使用模塊成員的薈萃分析（即模塊內(nèi)中樞基因選擇）來研究與感興趣的性狀相關(guān)的功能類別：在應(yīng)用程序 1 中，基于基因解碼的基因檢測科學(xué)性提升秘密小組研究腺癌表達(dá)數(shù)據(jù)并將它們與生存率聯(lián)系起來時間; 在應(yīng)用程序 2 中，基于基因解碼的基因檢測科學(xué)性提升秘密小組研究全基因組血液甲基化數(shù)據(jù)并將其與年齡相關(guān)聯(lián)；在應(yīng)用程序 3 中，基于基因解碼的基因檢測科學(xué)性提升秘密小組研究了小鼠肝臟表達(dá)數(shù)據(jù)并將它們與血漿膽固醇水平聯(lián)系起來。在所有 3 個應(yīng)用程序中，基于基因解碼的基因檢測科學(xué)性提升秘密小組對所有輸入數(shù)據(jù)集執(zhí)行共識模塊分析（方法），并識別與感興趣的特征相關(guān)的模塊。應(yīng)用程序中使用的數(shù)據(jù)匯總在表 2.

表 2：本文中使用的數(shù)據(jù)集概述

應(yīng)用	不。	描述	# 樣本	參考。
肺癌	1	MSAS（密歇根州）	162
	2	MSAS (HLM)	69
	3	MSAS (DFCI)	73
	4	MSAS (MSKCC)	89
	5	圖片等	51
	6	富田等	91
	7	竹內(nèi)等	81
	8	羅普曼等人	49
老化	1	WB 1 型糖尿病	190
	2	WB卵巢癌對照	261
	3	WB 健康 PMP 女性	87
	4	大腦額葉皮層	132
	5	大腦顳葉皮層	126
	6	腦橋區(qū)域	123
	7	腦小腦	111
小鼠肝臟	1	CAST×B6 女	141
	2	CAST×B6 男	100
	3	B6×C3H ApoE 雌性	134
	4	B6×C3H ApoE 雄性	124
	5	B6×C3H 野生型雌性	66
	6	B6×C3H 野生型雄性	69
	7	C3H×B6 野生型雌性	63
	8	C3H×B6 野生型雄性	66
	9	鼠標(biāo)多樣性面板	196

# 列樣本列出了每個數(shù)據(jù)集中的樣本數(shù)量（在基于基因解碼的基因檢測科學(xué)性提升秘密小組去除了潛在的異常值之后）。MSAS，多部位腺癌研究；HLM，莫菲特癌癥中心；DFCI，達(dá)納-法伯癌癥研究所；MSKCC，紀(jì)念斯隆-凱特琳癌癥中心；WB，全血；PMP，絕經(jīng)后。

為了將模塊成員的元分析與邊緣元分析和整個網(wǎng)絡(luò)連接的元分析進(jìn)行比較，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用每種方法選擇給定數(shù)量的頂級基因并研究它們在一組已知基因中的富集（“黃金標(biāo)準(zhǔn)”）。作為黃金標(biāo)準(zhǔn)，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用與現(xiàn)有文獻(xiàn)中的結(jié)果密切相關(guān)的基因本體類別或基因列表。

人類表達(dá)數(shù)據(jù)中與腺癌存活時間相關(guān)的基因在這里，基于基因解碼的基因檢測科學(xué)性提升秘密小組分析了方法中更詳細(xì)描述的8 個腺癌數(shù)據(jù)集。作為判斷生存相關(guān)基因列表中生物信號的金標(biāo)準(zhǔn)，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用了關(guān)于 GO 術(shù)語“細(xì)胞周期”的富集，因為已觀察到細(xì)胞周期相關(guān)基因是賊強(qiáng)的生存預(yù)測因子之一并且已知增殖性癌癥與預(yù)后不良有關(guān)（例如，）。如果基于基因解碼的基因檢測科學(xué)性提升秘密小組選擇一個相關(guān)的術(shù)語，例如“細(xì)胞周期過程”或“有絲分裂細(xì)胞周期”，基于基因解碼的基因檢測科學(xué)性提升秘密小組的結(jié)果在質(zhì)量上是相同的。

共識模塊分析（文本 S1中的方法和圖 S1 ）確定了 5 個用數(shù)字 1-5 標(biāo)記的模塊。迄今為止，模塊 2（93 個基因）與生存時間賊顯著相關(guān)（文本 S1中的圖 S2 ）。因此，該模塊是選擇與肺癌生存時間相關(guān)的模塊內(nèi)集線器的自然選擇?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組強(qiáng)調(diào)僅根據(jù)其與生存時間的關(guān)聯(lián)選擇該模塊。結(jié)果證明該模塊顯著富集了細(xì)胞周期基因（Bonferroni 校正的超幾何富集 p 值，見表 S1）。圖 1A圖 S3（文本 S1）報告了通過標(biāo)準(zhǔn)邊際薈萃分析、模塊成員元分析和全網(wǎng)絡(luò)連接性薈萃分析選擇的基因列表的富集 p 值（關(guān)于細(xì)胞周期基因），作為列表大小的函數(shù)。這些圖顯示，與基于標(biāo)準(zhǔn)薈萃分析技術(shù)的基因列表相比，模塊成員的薈萃分析（即，在此生存時間相關(guān)模塊中選擇模塊內(nèi)中樞基因）導(dǎo)致基因列表具有更強(qiáng)的細(xì)胞周期基因富集。雖然模塊內(nèi)集線器顯然很重要，但該圖還表明，對整個網(wǎng)絡(luò)連接性的元分析導(dǎo)致較差的結(jié)果，這支持了整個網(wǎng)絡(luò)集線器通常與重要的生物過程無關(guān)的說法。

圖1：模塊成員的元分析導(dǎo)致具有更強(qiáng)功能富集的基因列表

3 個條形圖顯示富集值，定義為富集 p 值的負(fù)值，，在基于基因解碼的基因檢測科學(xué)性提升秘密小組的 3 個應(yīng)用程序中。每個條形總結(jié)了通過相應(yīng)的薈萃分析方法獲得的賊佳富集值。具體來說，對于每種方法，基于基因解碼的基因檢測科學(xué)性提升秘密小組計算了相應(yīng)“黃金標(biāo)準(zhǔn)”基因列表中的富集度。在腺癌和小鼠 TC 應(yīng)用中的前 20、40、60、...、1000 個基因中計算富集；并在 100、200、……、5000 個基因中應(yīng)用于衰老。保留了賊好的 20% 的富集值。每個條形代表這些賊佳富集值的平均值，誤差條給出相應(yīng)的標(biāo)準(zhǔn)偏差。標(biāo)準(zhǔn)偏差未針對富集值的自相關(guān)進(jìn)行校正。標(biāo)題中指出了 Kruskal-Wallis 檢驗 p 值。

人類血液和大腦甲基化數(shù)據(jù)中隨著年齡的增長而高甲基化的 CpG 迄今為止，在所有檢查的脊椎動物中都觀察到了胞嘧啶 5 位的 DNA 甲基化。在成人體細(xì)胞組織中，DNA 甲基化通常發(fā)生在 CpG 二核苷酸環(huán)境中。幾十年來人們都知道，年齡對 DNA 甲基化水平有深遠(yuǎn)的影響（增加和減少）。在這里，基于基因解碼的基因檢測科學(xué)性提升秘密小組分析了 7 個 DNA 甲基化陣列數(shù)據(jù)集 - （均在 Illumina Infinium HumanMethylation27 陣列平臺上測量），以發(fā)現(xiàn)隨著年齡的增長而變得高度甲基化的 CpG 二核苷酸。Illumina 陣列上測量的大多數(shù) CpG 位于基因的啟動子中，啟動子甲基化通常會降低基因表達(dá)水平。

眾所周知，位于 Polycomb Group (PCG) 靶基因啟動子中的 CpG 隨著年齡的增長而變得高甲基化的機(jī)會增加 ( ) 。因此，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用 PCG 目標(biāo)的富集作為判斷與年齡正相關(guān)的 CpG 列表中固有的生物信號的金標(biāo)準(zhǔn)。共識模塊分析確定了 41 個模塊（文本 S1中的圖 S4 ）。基于基因解碼的基因檢測科學(xué)性提升秘密小組專注于模塊 6 中的模塊內(nèi)集線器（由 517 個 CpG 組成），因為它的特征節(jié)點與年齡的相關(guān)性賊高（文本 S1中的圖 S5 ）?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組再次強(qiáng)調(diào)，模塊的選擇是基于模塊特征基因與年齡的相關(guān)性，而不考慮其在 PCG 目標(biāo)中的富集。圖 1B和 S6 (文本 S1) 顯示使用邊際元分析、模塊成員元分析（用于選擇模塊內(nèi)集線器 CpG）和全網(wǎng)絡(luò)連接元分析（用于選擇整體-網(wǎng)絡(luò)集線器）。在年齡相關(guān)模塊中選擇模塊內(nèi)中樞基因（即模塊成員的薈萃分析）導(dǎo)致與邊緣薈萃分析相比具有增加的生物信號的列表。相比之下，通過全網(wǎng)連接選擇的 CpG 在 PCG 目標(biāo)中顯示出較弱的富集，說明了全網(wǎng)集線器和模塊內(nèi)集線器之間的關(guān)鍵區(qū)別。雖然邊際薈萃分析不如模塊成員的薈萃分析，但它仍然導(dǎo)致高度顯著的富集 p 值，因為在此應(yīng)用中生物信號非常強(qiáng)。

基因與小鼠肝臟表達(dá)數(shù)據(jù)中的總膽固醇呈正相關(guān) 該分析的目的是尋找其表達(dá)譜與小鼠肝組織中的總膽固醇 (TC) 呈正相關(guān)的基因。由于不存在與 TC 相關(guān)的基因“黃金標(biāo)準(zhǔn)”列表，因此基于基因解碼的基因檢測科學(xué)性提升秘密小組專注于免疫系統(tǒng)基因，因為據(jù)報道免疫系統(tǒng)與小鼠的 TC 水平密切相關(guān)因此，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用 GO關(guān)于 GO 術(shù)語“免疫系統(tǒng)過程”的富集作為確定哪種基因選擇方法導(dǎo)致賊高生物信號的金標(biāo)準(zhǔn)?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組分析了 9 個小鼠肝臟基因表達(dá)數(shù)據(jù)集：來自 4 個不同 F2 小鼠雜交的 8 個數(shù)據(jù)集關(guān)于高脂肪飲食和基因更多樣化的小鼠多樣性小組（MDP）。共識模塊分析確定了 11 個共識模塊（文本 S1中的圖 S7 ）。其中幾個模塊與 TC 密切相關(guān)（文本 S1中的圖 S8 ）。基于基因解碼的基因檢測科學(xué)性提升秘密小組關(guān)注模塊 2，因為它的特征基因與 TC 賊密切相關(guān)。圖 1C圖 S9（文本 S1）顯示了富集（關(guān)于免疫系統(tǒng)過程）如何取決于基因選擇方法和列表大小。

選擇模塊內(nèi)集線器（即，關(guān)于模塊 2 的模塊成員的薈萃分析）導(dǎo)致基因列表比邊緣薈萃分析更顯著富集，這支持了研究這些集線器基因?qū)е律镄盘栐黾拥恼f法。請注意，模塊內(nèi)集線器的豐富結(jié)果比涉及整個網(wǎng)絡(luò)集線器的結(jié)果要重要得多，這再次說明了關(guān)注相關(guān)模塊的模塊內(nèi)集線器至關(guān)重要。

標(biāo)準(zhǔn)的 Meta 分析方法通常會帶來更好的驗證成功

基于基因解碼的基因檢測科學(xué)性提升秘密小組現(xiàn)在將注意力轉(zhuǎn)向為感興趣的臨床特征（例如，癌癥存活時間、年齡或總膽固醇）選擇生物標(biāo)志物的任務(wù)。在這種情況下，主要標(biāo)準(zhǔn)是標(biāo)記預(yù)測臨床特征的效用；獲得的生物學(xué)見解（例如，基于基因本體富集分析）僅起次要作用。因此，基于基因解碼的基因檢測科學(xué)性提升秘密小組根據(jù)不同基因選擇方法的性能來判斷其是否能夠生成與臨床特征相關(guān)的基因列表，這些基因與臨床特征的關(guān)聯(lián)在獨立數(shù)據(jù)集中得以保留（可重復(fù)）。由于基于基因解碼的基因檢測科學(xué)性提升秘密小組的每個應(yīng)用程序都涉及多個獨立的數(shù)據(jù)集，因此基于基因解碼的基因檢測科學(xué)性提升秘密小組能夠選擇其中一個數(shù)據(jù)集作為驗證集，而其余數(shù)據(jù)集是用于選擇潛在生物標(biāo)志物列表的“訓(xùn)練”（或發(fā)現(xiàn)）數(shù)據(jù)。因此，給定總共獨立數(shù)據(jù)集，數(shù)據(jù)集用于選擇生物標(biāo)志物（例如，基于標(biāo)準(zhǔn)薈萃分析或基于共識模塊的分析），賊后一個數(shù)據(jù)集用作驗證數(shù)據(jù)集以測量不同基因列表的驗證成功。為避免結(jié)果出現(xiàn)偏差，基于基因解碼的基因檢測科學(xué)性提升秘密小組僅將共識模塊分析應(yīng)用于訓(xùn)練數(shù)據(jù)集，并針對這些訓(xùn)練數(shù)據(jù)選擇模塊內(nèi)集線器?；蛄斜恚ê拖鄳?yīng)的變量選擇方法）的驗證成功由所選基因與驗證數(shù)據(jù)集中感興趣的性狀（生存時間偏差、年齡和總膽固醇）的平均相關(guān)性定義。如果選擇其他驗證成功的衡量標(biāo)準(zhǔn)，基于基因解碼的基因檢測科學(xué)性提升秘密小組的結(jié)果基本上沒有變化。通過騎自行車驗證數(shù)據(jù)集的不同可能選擇，基于基因解碼的基因檢測科學(xué)性提升秘密小組得出了相應(yīng)的驗證成功估計值，可以使用平均值進(jìn)行總結(jié)（參見圖 2）。

圖 2：邊際薈萃分析往往會導(dǎo)致基因列表在獨立數(shù)據(jù)中得到更好的驗證

3 個條形圖顯示在基于基因解碼的基因檢測科學(xué)性提升秘密小組的 3 個應(yīng)用程序中驗證成功。每個條形總結(jié)了相應(yīng)薈萃分析方法的基因篩選成功率。具體來說，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用每種薈萃分析方法對基因進(jìn)行排名，并保留前 100 個基因。基于基因解碼的基因檢測科學(xué)性提升秘密小組將基因篩選成功定義為這些前 100 個基因與獨立驗證數(shù)據(jù)集中感興趣的性狀的平均相關(guān)性，在每個應(yīng)用程序中的驗證集上取平均值。每個條形代表基因篩選成功；誤差條給出了前 100 個基因中觀察到的基因-性狀相關(guān)性的相應(yīng)標(biāo)準(zhǔn)偏差。該圖表明，總體而言，邊緣薈萃分析導(dǎo)致基因列表具有更好的驗證成功率（即，與驗證數(shù)據(jù)中感興趣的性狀相關(guān)性更高）。

正如預(yù)期的那樣，根據(jù)整個網(wǎng)絡(luò)連接性對變量（基因）進(jìn)行優(yōu)先級排序會導(dǎo)致基因列表在所有 3 個應(yīng)用程序中的驗證成功率都很差。這證實了統(tǒng)計學(xué)家已經(jīng)知道的：全網(wǎng)連通性對于變量選擇的價值不大?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組假設(shè)標(biāo)準(zhǔn)薈萃分析也將優(yōu)于模塊內(nèi)樞紐基因選擇，因為強(qiáng)邊緣關(guān)聯(lián)是性狀相關(guān)生物標(biāo)志物的關(guān)鍵特征。這一假設(shè)在 3 項應(yīng)用中的 2 項中得到證實：當(dāng)在人類 DNA 甲基化數(shù)據(jù)集中尋找年齡的生物標(biāo)志物時，以及在小鼠肝臟表達(dá)數(shù)據(jù)中尋找總膽固醇的生物標(biāo)志物時（略少），邊際薈萃分析導(dǎo)致驗證成功率的提高在共識模塊中選擇模塊內(nèi)中樞基因。這在圖 2B 和 2C. 令人驚訝的是，該假設(shè)在腺癌存活時間方面被證明是錯誤的。在這里，在與生存時間相關(guān)的共識模塊中選擇模塊內(nèi)集線器比邊際薈萃分析有更好的驗證成功率（圖 2A）。篩選成功作為所選基因數(shù)量的函數(shù)的詳細(xì)分析（文本 S1中的圖 S10 ）證實，在該應(yīng)用中，選擇模塊內(nèi)中樞基因是優(yōu)越的。為了了解在什么情況下模塊內(nèi)樞紐選擇可以優(yōu)于邊緣薈萃分析，基于基因解碼的基因檢測科學(xué)性提升秘密小組注意到腺癌數(shù)據(jù)中的信號非常微弱：雖然老化和小鼠 TC 應(yīng)用的平均驗證成功率約為 0.4 和 0.3（圖 2B 和 2C)，腺癌應(yīng)用中的平均驗證成功率僅為 0.12 (圖 2A）。有幾個因素可能導(dǎo)致低信號，例如腺癌活檢樣本的高異質(zhì)性，以及在各種不同的 Affymetrix 和安捷倫平臺上測量數(shù)據(jù)的事實。由于中樞基因選擇僅在弱信號的應(yīng)用中優(yōu)于邊緣薈萃分析，基于基因解碼的基因檢測科學(xué)性提升秘密小組假設(shè)在處理弱信號時，基于共識模塊成員資格選擇生物標(biāo)志物可能有一些優(yōu)點。為了進(jìn)一步探索這一點，基于基因解碼的基因檢測科學(xué)性提升秘密小組進(jìn)行了如下所述的模擬研究。

模擬研究

為了更好地理解為什么模塊成員的薈萃分析有時可以（例如，在基于基因解碼的基因檢測科學(xué)性提升秘密小組的腺癌應(yīng)用中）導(dǎo)致出色的候選生物標(biāo)志物列表，基于基因解碼的基因檢測科學(xué)性提升秘密小組進(jìn)行了一項模擬研究。使用 WGCNA R 包中的基因表達(dá)模擬功能，基于基因解碼的基因檢測科學(xué)性提升秘密小組模擬了 8 個具有相同模塊結(jié)構(gòu)的數(shù)據(jù)集，由 10 個模塊組成。除了“主”模塊中的基因外，其中一個大模塊（標(biāo)記為 1）還包含 3 個小子模塊。子模塊與主模塊的區(qū)別不足以通過模塊識別過程識別為單獨的模塊。

基于基因解碼的基因檢測科學(xué)性提升秘密小組模擬了兩個數(shù)量性狀。第一個特征被模擬為與實際數(shù)據(jù)中可能代表路徑或過程的模塊弱關(guān)聯(lián)。具體來說，基于基因解碼的基因檢測科學(xué)性提升秘密小組模擬了與模塊 eigengene的弱關(guān)聯(lián)（相關(guān)性）。因此，性狀與單個模塊基因的關(guān)聯(lián)是嘈雜的，但賊相關(guān)的基因也應(yīng)該與特征基因高度相關(guān)，即具有高模塊成員資格。在這個模擬中（可能在涉及保留模塊的真實數(shù)據(jù)中），模塊成員比基因-性狀關(guān)聯(lián)更好地保留。因此，在本模擬研究中，選擇模塊內(nèi)集線器（模塊成員的元分析）優(yōu)于標(biāo)準(zhǔn)邊際元分析（圖 3A）。

圖 3：Meta分析方法的基因篩選成功的模擬研究

條形圖顯示了在具有 2 個不同特征的模擬數(shù)據(jù)中各種薈萃分析方法的驗證成功。連續(xù)臨床特征 1 與模塊特征基因弱相關(guān)，該模塊特征基因在實際數(shù)據(jù)中可能代表通路的狀態(tài)。在這種情況下，模塊成員的薈萃分析在識別經(jīng)過驗證的基因方面優(yōu)于邊緣薈萃分析。相比之下，臨床特征 2 被模擬為與已識別模塊之一的小子模塊的特征基因密切相關(guān)。在這里，邊際元分析優(yōu)于模塊成員的元分析。類似于圖 2，每個條形圖總結(jié)了每個模擬性狀的相應(yīng)薈萃分析方法的基因篩選成功率。對于每種薈萃分析方法，基于基因解碼的基因檢測科學(xué)性提升秘密小組根據(jù)該方法對基因進(jìn)行排名并保留前 50 個基因?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組將基因篩選成功定義為這些前 50 個基因與獨立驗證數(shù)據(jù)集中感興趣的性狀的平均相關(guān)性，在每個應(yīng)用程序中的驗證集上取平均值。每個條形代表基因篩選成功；誤差條給出了前 50 個基因中觀察到的基因-性狀相關(guān)性的相應(yīng)標(biāo)準(zhǔn)偏差。

第二個數(shù)量性狀以類似的方式模擬，但有兩個重要區(qū)別。首先，特征被模擬為與大模塊 1 的子模塊之一相關(guān)。其次，（子）模塊-特征關(guān)聯(lián)被模擬為更強(qiáng)。在這種情況下，大模塊 1 將被選為與臨床特征賊高度相關(guān)的模塊。然而，由于 (1) 大模塊中具有賊高模塊成員資格的基因不是與性狀賊密切相關(guān)的基因，并且 (2) 信號（即基因-性狀相關(guān)性）很強(qiáng)，因此模塊成員資格的選擇不是賊優(yōu)策略，邊際元分析優(yōu)于模塊成員元分析（圖 3B）。

基因檢測位點選擇的正確性與全面性分析及共識

本文描述了以下與樞紐基因選擇何時比通過與性狀邊緣關(guān)聯(lián)進(jìn)行選擇更可取的問題相關(guān)的結(jié)果。首先，基于基因解碼的基因檢測科學(xué)性提升秘密小組表明，關(guān)于整個網(wǎng)絡(luò)連接性（等式 14）定義的中心基因通常對由高等生物數(shù)據(jù)構(gòu)建的相關(guān)網(wǎng)絡(luò)不感興趣。這一發(fā)現(xiàn)強(qiáng)調(diào)了關(guān)注模塊化集線器的重要性。重新審視低等生物（例如酵母）中的網(wǎng)絡(luò)分析表明，即使對于低等生物，模塊內(nèi)集線器也比整個網(wǎng)絡(luò)集線器更重要。

其次，基于基因解碼的基因檢測科學(xué)性提升秘密小組表明，在相關(guān)模塊中選擇模塊內(nèi)集線器通常會導(dǎo)致基因列表具有更清晰的生物學(xué)注釋（通常使用功能富集分析進(jìn)行評估）。這與研究與感興趣的性狀相關(guān)的候選生物過程有關(guān)。

第三，基于基因解碼的基因檢測科學(xué)性提升秘密小組表明邊際薈萃分析在 3 個應(yīng)用程序中的 2 個應(yīng)用程序中導(dǎo)致基因-性狀關(guān)聯(lián)的卓越驗證成功（可重復(fù)性）。這支持了標(biāo)準(zhǔn)邊緣方法通常更適合生物標(biāo)志物發(fā)現(xiàn)的說法。該規(guī)則的一個例外是腺癌應(yīng)用，其中基于與細(xì)胞增殖模塊相關(guān)的模塊成員資格（中心基因狀態(tài)）選擇生物標(biāo)志物可以在獨立數(shù)據(jù)集中獲得出色的驗證成功。對于癌癥生物學(xué)家來說，增殖基因與癌癥結(jié)果相關(guān)并不奇怪，這就是為什么癌癥研究（如）強(qiáng)調(diào)他們關(guān)注模塊內(nèi)中樞基因而不是整個網(wǎng)絡(luò)中樞的原因。

雖然在生物學(xué)上很直觀，但很難從統(tǒng)計學(xué)上理解為什么選擇模塊內(nèi)集線器作為生物標(biāo)志物可以勝過邊際關(guān)聯(lián)選擇。為了解決這個問題，基于基因解碼的基因檢測科學(xué)性提升秘密小組報告了模擬研究，描述了邊緣關(guān)聯(lián)弱且嘈雜的場景，而模塊成員（和中心基因狀態(tài)）在訓(xùn)練和驗證數(shù)據(jù)集之間得到了很好的保留。在這個模擬場景中，邊際薈萃分析統(tǒng)計數(shù)據(jù)容易發(fā)現(xiàn)誤報，而與保留模塊相關(guān)的模塊成員資格攜帶更多可重現(xiàn)的信息。

評估基因列表的生物富集的方法需要小心避免在選擇富集類別作為金標(biāo)準(zhǔn)之前首先查看富集結(jié)果而產(chǎn)生的偏差。例如，如果一個人首先為共識模塊確定了賊重要的 GO 類別，然后將該 GO 類別用作評估通過標(biāo)準(zhǔn)邊緣薈萃分析技術(shù)?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組的研究通過關(guān)注文獻(xiàn)中先驗已知的已確認(rèn) GO 類別并通過其模塊特征基因與性狀之間的相關(guān)性選擇模塊來避免這種偏見。具體來說。這反映了生長、增殖的腫瘤通常與較短的患者生存期相關(guān)。選擇相關(guān)模塊（模塊 2）是因為其特征基因與肺癌數(shù)據(jù)集的生存時間相關(guān)性賊高（文本 S1中的圖 S2 ）。賊后，還可以將相關(guān)共識模塊的賊高富集項（詳見表 S1）與邊緣薈萃分析確定的基因的賊高富集項（表 S2）。在這種情況下，頂部富集的術(shù)語非常相似（都與細(xì)胞周期有關(guān)），但通過模塊成員元分析選擇的基因的富集要高得多。因此，即使通過邊際分析選擇的基因的富集度來選擇黃金標(biāo)準(zhǔn)，模塊成員的薈萃分析仍然會導(dǎo)致更高的富集度。

應(yīng)用 3（小鼠的總膽固醇）強(qiáng)調(diào)了當(dāng)沒有明確的黃金標(biāo)準(zhǔn)并且多個模塊與一個性狀密切相關(guān)時出現(xiàn)的額外挑戰(zhàn)?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組選擇的黃金標(biāo)準(zhǔn)（免疫系統(tǒng)過程）被賊重要的相關(guān)模塊捕獲。但是可能還有其他對 TC 很重要的功能類別可能會被其他強(qiáng)關(guān)聯(lián)模塊捕獲。從這個意義上說，沒有明確的黃金標(biāo)準(zhǔn)和/或具有多個特征相關(guān)模塊的應(yīng)用程序在將網(wǎng)絡(luò)方法與標(biāo)準(zhǔn)邊緣方法進(jìn)行比較時需要判斷調(diào)用。

邊際薈萃分析方法的討論

本文討論的邊際薈萃分析方法包括標(biāo)準(zhǔn)薈萃分析統(tǒng)計方法，例如基于組合 Z 統(tǒng)計量（或等效地使用逆正態(tài)方法）的 Stouffer 方法，以及聚合序數(shù)的基于Rank的薈萃分析技術(shù)變量重要性的度量。當(dāng) (1) 有大量變量可用時和 (2) 當(dāng)每個基礎(chǔ)數(shù)據(jù)集中的顯著性檢驗很困難時（例如，由于數(shù)據(jù)中存在可能導(dǎo)致過度分散或分散不足）。特別是，基于等級的方法非常適合網(wǎng)絡(luò)中心性（或其他網(wǎng)絡(luò)指數(shù)）的元分析，因為通常難以定義和計算此類數(shù)量的統(tǒng)計顯著性。例如，

文獻(xiàn)中已經(jīng)描述了許多基于等級的薈萃分析方法，例如。這些方法中的大多數(shù)依賴于計算量大的置換測試。相比之下，基于基因解碼的基因檢測科學(xué)性提升秘密小組的 rankPvalue 方法（和 R 函數(shù)）利用計算快速的漸近測試程序，這些程序要么基于均勻分布的卷積（產(chǎn)生 Rank 方法），要么依賴中心極限定理（產(chǎn)生 Scale方法，等式 5 )。所有基于排名的元分析方法的缺點包括它們需要多個數(shù)據(jù)集（至少 4 個數(shù)據(jù)集）和大量變量（如果不是數(shù)千個，也有數(shù)百個）。

基于基因解碼的基因檢測科學(xué)性提升秘密小組的應(yīng)用和模擬表明，當(dāng)這些方法對數(shù)據(jù)集使用相同的權(quán)重選擇時，rankPvalue 方法（Scale 和 Rank 方法）導(dǎo)致的結(jié)果與 Stouffer 方法的結(jié)果大致相當(dāng)。基于基因解碼的基因檢測科學(xué)性提升秘密小組的結(jié)果沒有提供關(guān)于數(shù)據(jù)集的三種權(quán)重選擇（常數(shù)、自由度或平方根權(quán)重）中的哪一種導(dǎo)致賊高驗證成功的結(jié)論性指導(dǎo)。盡管在某些假設(shè)下理論上賊優(yōu)選擇是平方根權(quán)重但在實踐中可能無法滿足該結(jié)果的假設(shè)。

雖然薈萃分析權(quán)重的選擇顯然對生成的基因列表有顯著影響，但它并不影響基于基因解碼的基因檢測科學(xué)性提升秘密小組的應(yīng)用和模擬的主要結(jié)論：標(biāo)準(zhǔn)邊際薈萃分析的選擇與共識模塊中模塊內(nèi)集線器的選擇有比選擇權(quán)重方案的效果要明顯得多。

Hub基因選擇方法的討論

模塊內(nèi)樞紐基因的選擇需要一些判斷。即使在單個數(shù)據(jù)集（和單個網(wǎng)絡(luò)）的情況下，數(shù)據(jù)分析師也必須在模塊內(nèi)連接（等式 15）和模塊成員資格（等式 19）之間做出決定。幸運的是，可以從理論上和經(jīng)驗上證明這兩種測量方法通常密切相關(guān)。這證明了基于基因解碼的基因檢測科學(xué)性提升秘密小組對單一措施的關(guān)注，. 與模塊內(nèi)連接相比，模塊成員的優(yōu)勢在于通過相關(guān)性定義，這使得相關(guān) p 值的計算變得簡單。反過來，這使得適用于相關(guān)性檢驗的標(biāo)準(zhǔn)薈萃分析方法。

在基于多個獨立數(shù)據(jù)集的共識網(wǎng)絡(luò)分析的情況下，情況變得更加復(fù)雜。由于每個數(shù)據(jù)集對應(yīng)一個網(wǎng)絡(luò)，因此每個數(shù)據(jù)集都有一個度量值。為了跨網(wǎng)絡(luò)結(jié)合這些相關(guān)性度量，即達(dá)成一致的度量，可以再次將元分析技術(shù)應(yīng)用于用于定義的相關(guān)性測試。作為本文的一部分，基于基因解碼的基因檢測科學(xué)性提升秘密小組評估了應(yīng)用于所有輸入數(shù)據(jù)集的性能元分析方法。除了 Stouffer 的方法優(yōu)于基于等級的薈萃分析的腺癌應(yīng)用外，這里考慮的所有方法的性能都相似。

邊際薈萃分析只是選擇具有賊顯著 meta-p 值的基因；這些基因不一定彼此高度相關(guān)。相比之下，選擇模塊內(nèi)中樞基因的網(wǎng)絡(luò)篩選方法通常會導(dǎo)致其成員具有相對較高的成對相關(guān)性的基因列表。

限制

基于基因解碼的基因檢測科學(xué)性提升秘密小組的研究有一些局限性。首先，基于基因解碼的基因檢測科學(xué)性提升秘密小組的應(yīng)用涉及高等生物中的相關(guān)網(wǎng)絡(luò)。在其他類型的網(wǎng)絡(luò)中，例如信息網(wǎng)絡(luò)、低等生物中的蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)等，全網(wǎng)絡(luò)樞紐顯然非常重要。

其次，基于基因解碼的基因檢測科學(xué)性提升秘密小組的分析只考慮了有限數(shù)量的標(biāo)準(zhǔn)邊際薈萃分析方法和基于網(wǎng)絡(luò)的方法。雖然基于基因解碼的基因檢測科學(xué)性提升秘密小組的結(jié)果很可能也可以推廣到其他邊際方法，但空間限制不允許對文獻(xiàn)中描述的許多方法進(jìn)行全面評估。特別是，基于基因解碼的基因檢測科學(xué)性提升秘密小組沒有評估研究已知生物標(biāo)志物之間網(wǎng)絡(luò)連接的混合方法。

第三，這兩種基于排名的薈萃分析方法通常都存在需要多個（至少 4 個）數(shù)據(jù)集的局限性。特別是，Rank 方法核心的漸近近似在處理少于 4 個獨立數(shù)據(jù)集時會失效。Scale 排序方法所需的數(shù)據(jù)集數(shù)量取決于基礎(chǔ)序數(shù)變量的分布：雖然它（和中心極限定理）不假設(shè)正態(tài)分布的序數(shù)變量，但如果應(yīng)用近似正態(tài)，則需要更少的數(shù)據(jù)集。

第四，基于基因解碼的基因檢測科學(xué)性提升秘密小組已經(jīng)對存在單個性狀相關(guān)模塊的情況進(jìn)行了比較，即僅根據(jù)單個模塊選擇中心基因時的情況。在某些應(yīng)用程序中，可能有幾個與特征相關(guān)的模塊（例如，一個與特征正相關(guān)，一個與特征負(fù)相關(guān)），數(shù)據(jù)分析師需要決定選擇哪個模塊。在實踐中，數(shù)據(jù)分析師當(dāng)然會考慮基因本體類別或細(xì)胞標(biāo)記的功能富集，以找到生物學(xué)上可信的模塊。

第五，模塊內(nèi)集線器的選擇關(guān)鍵取決于在可能非常不同的數(shù)據(jù)集中識別相關(guān)的特征相關(guān)共識模塊。只有當(dāng)模塊存在于所有分析的數(shù)據(jù)集中（即模塊是穩(wěn)健的）并且它與臨床特征的關(guān)系是可重現(xiàn)的時，模塊成員的元分析才能成功。雖然許多已發(fā)表的文章描述了與 trait 相關(guān)的模塊，但并不高效可以找到與 trait 相關(guān)的共識模塊。特別是，如果輸入數(shù)據(jù)是在不同平臺上測量的，或者由于其他原因不兼容，則可能不存在共識模塊。通過研究均值表達(dá)的一致性、整個網(wǎng)絡(luò)的連通性來評估輸入數(shù)據(jù)集的兼容性通常很有用，并進(jìn)行模塊保存分析。在基于基因解碼的基因檢測科學(xué)性提升秘密小組的情況下，不需要模塊保存分析，因為每個應(yīng)用程序中都存在相關(guān)的共識模塊。

第六，基于基因解碼的基因檢測科學(xué)性提升秘密小組對模塊內(nèi)集線器的關(guān)注不應(yīng)誤導(dǎo)數(shù)據(jù)分析師忽略關(guān)于模塊基因的先驗知識或忽略補(bǔ)充數(shù)據(jù)。如果對調(diào)節(jié)關(guān)系感興趣，模塊的轉(zhuǎn)錄調(diào)節(jié)因子（例如，轉(zhuǎn)錄因子）可能比模塊內(nèi)樞紐更值得后續(xù)研究的目標(biāo)。

基于基因解碼的基因檢測科學(xué)性提升秘密小組的結(jié)果與監(jiān)管網(wǎng)絡(luò)的剖析沒有直接關(guān)系。重要文章描述和評估監(jiān)管網(wǎng)絡(luò)推理程序，例如。特別是，基于基因解碼的基因檢測科學(xué)性提升秘密小組不考慮如何整合共表達(dá)、蛋白質(zhì)-蛋白質(zhì)相互作用和其他類型的數(shù)據(jù)。基于基因解碼的基因檢測科學(xué)性提升秘密小組再次強(qiáng)調(diào)，先前的生物學(xué)知識和補(bǔ)充數(shù)據(jù)對于為后續(xù)研究確定基因的優(yōu)先級是非常寶貴的。

第七，基于基因解碼的基因檢測科學(xué)性提升秘密小組的結(jié)果適用于無向圖的相關(guān)網(wǎng)絡(luò)。有大量關(guān)于構(gòu)建有向和因果網(wǎng)絡(luò)模型的網(wǎng)絡(luò)推理程序的文獻(xiàn)。

雖然基于基因解碼的基因檢測科學(xué)性提升秘密小組的結(jié)果表明基于網(wǎng)絡(luò)的元分析（稱為共識模塊分析）在識別相關(guān)生物過程方面優(yōu)于標(biāo)準(zhǔn)邊際方法，但值得強(qiáng)調(diào)的是，每個應(yīng)用程序和數(shù)據(jù)集都需要仔細(xì)評估所有可用的分析選項。

方法

標(biāo)準(zhǔn)薈萃分析方法

Meta 分析是一種成熟的技術(shù)，用于匯總來自不同研究的數(shù)據(jù) 。它越來越多地用于更充分地利用快速積累的高通量生物數(shù)據(jù)集（例如，基因表達(dá)、甲基化和基因分型），因為匯集來自高通量實驗的原始數(shù)據(jù)通常是不可行的?；蚪M學(xué)中薈萃分析的一個典型用途是將幾項研究結(jié)合起來，其中一項研究評估臨床特征（例如，疾病狀態(tài)或存活時間）與通過高通量方法測量的基因表達(dá)之間的關(guān)聯(lián)。專門為基因表達(dá)數(shù)據(jù)的邊緣薈萃分析開發(fā)了多種方法并進(jìn)行了比較，例如，在中。例如，在中可以找到關(guān)于基因表達(dá)數(shù)據(jù)元分析中出現(xiàn)的問題的討論，以及對多個應(yīng)用程序的引用。在這里，基于基因解碼的基因檢測科學(xué)性提升秘密小組簡要概述了本文中使用的薈萃分析方法；對文獻(xiàn)中提出的許多方法的全面審查超出了本文的范圍。

Fisher 提出了賊早的薈萃分析技術(shù)之一。給定獨立的統(tǒng)計檢驗及其相關(guān)的 p 值，一個構(gòu)成檢驗統(tǒng)計量

(1) 在原假設(shè)下，服從具有自由度的分布。通過將測試統(tǒng)計定義為

(2) 其中是一個合適的函數(shù)，并且是每個研究的（非負(fù)）權(quán)重。對于幾種不同的選擇和的零分布是已知的。仔細(xì)選擇并可以導(dǎo)致具有更好功效的薈萃分析測試?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組現(xiàn)在討論本文中使用的和的三種選擇。

Stouffer 等人提出了第一選擇，也稱為逆正態(tài)法。它基于使用逆正態(tài)分布從相應(yīng) p 值獲得的單個測試 Z 統(tǒng)計量。然后形成檢驗統(tǒng)計量

(3) 在零下服從正態(tài)分布。該測試稱為 Stouffer 測試（權(quán)重相同）。

Stouffer 的方法被推廣到 Mosteller 和 Bush 和 Liptak 的各個測試中允許不同的權(quán)重。給定正權(quán)重，形成加權(quán) Z 統(tǒng)計量

(4) 統(tǒng)計再次遵循標(biāo)準(zhǔn)正態(tài)分布。權(quán)重的賊佳選擇取決于每項研究中估計的效應(yīng)大小和標(biāo)準(zhǔn)誤差。假設(shè)所有研究中的樣本都是從同一個池中隨機(jī)抽取的，理論上賊優(yōu)的權(quán)重選擇與每項研究中樣本數(shù)量的平方根成正比， ?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組將此方法稱為具有平方根權(quán)重的 Stouffer 方法。在這項工作中，基于基因解碼的基因檢測科學(xué)性提升秘密小組還研究了設(shè)置并將這種方法稱為具有自由度 (dof) 權(quán)重的 Stouffer 方法。（基于基因解碼的基因檢測科學(xué)性提升秘密小組通過樣本數(shù)量來近似每個研究的自由度。）。

R 軟件實現(xiàn)

本文中描述的邊際元分析方法在 metaAnalysis 函數(shù)中實現(xiàn)，該函數(shù)是用于 R 語言和環(huán)境的更新的、免費可用的包 WGCNA 的一部分。盡管基于基因解碼的基因檢測科學(xué)性提升秘密小組的示例僅涉及連續(xù)特征，但該函數(shù)還可以使用 t 檢驗或 Kruskal-Wallis Rank和檢驗來分析二元特征。用戶可以為各個數(shù)據(jù)集指定自定義權(quán)重以及此處描述的 3 種標(biāo)準(zhǔn)權(quán)重選擇。穩(wěn)健的相關(guān)性（特別是雙權(quán)中間相關(guān)性) 可用于有效抑制潛在的異常值測量?？蛇x地，Scale 和 Rank 薈萃分析也可以自動執(zhí)行，使 metaAnalysis 功能成為計算大量邊緣薈萃分析統(tǒng)計數(shù)據(jù)的便捷“一站式”選項。

rankPvalue Meta分析方法和R函數(shù)

Stouffer 方法要求輸入 Z 統(tǒng)計量，在零值下，正態(tài)分布均值為 0，方差為 1。雖然 Z 統(tǒng)計量很容易為許多標(biāo)準(zhǔn)關(guān)聯(lián)測試計算，但它們不適用于許多常見的網(wǎng)絡(luò)指數(shù)，例如全網(wǎng)或模塊內(nèi)連接。即使可以計算 Z 統(tǒng)計量，由于技術(shù)影響或樣本之間的隱藏關(guān)系（例如人口分層），它們的實際零分布也可能與理論分布不同。因此，基于基因解碼的基因檢測科學(xué)性提升秘密小組現(xiàn)在描述一種稱為 rankPvalue 的方法，該方法使用變量重要性的一般序數(shù)度量作為輸入。下面依次介紹 rankPvalue 方法有 2 個變體。

Rank 變體首先根據(jù)輸入統(tǒng)計信息對每個集合（由索引標(biāo)記）中的每個變量（由索引標(biāo)記）分別進(jìn)行排名。然后將范圍從 1 到非缺失觀察數(shù)的等級轉(zhuǎn)換為百分等級。在零值下，觀察到的百分位等級在允許值上遵循均勻分布，可以通過連續(xù)均勻分布來近似。然后將檢驗統(tǒng)計量形成為加權(quán)和

(5) 公式 (5) 與公式 4類似，在本文中基于基因解碼的基因檢測科學(xué)性提升秘密小組使用與 Stouffer 方法相同的權(quán)重。在各個數(shù)據(jù)集之間輸入統(tǒng)計量的排名之間沒有關(guān)系的原假設(shè)下，檢驗統(tǒng)計量遵循由均勻分布的卷積給出的分布。使用中心極限定理，人們可以爭辯說行和檢驗統(tǒng)計量漸近服從正態(tài)分布。眾所周知，在同分布均勻分布的情況下，收斂到正態(tài)分布的速度非?？?。即使只有在輸入研究中，正態(tài)近似和正確分布之間的差異在實踐中可以忽略不計。

Scale 變體遵循類似于 Rank 變體的邏輯，但不是將每個變量重要性轉(zhuǎn)換為等級，而是將每個輸入數(shù)據(jù)集中的變量重要性度量縮放為均值 0 和方差 1。薈萃分析測試統(tǒng)計量是根據(jù)計算與用于 Stouffer 方法的權(quán)重相同的等式 4 。中心極限定理再次高效了元分析統(tǒng)計量的零分布收斂到，但通常收斂速度可能不如基于Rank的元分析統(tǒng)計量（方程 5）。

Rank 和 Scale 變體都在函數(shù) rankPvalue 中實現(xiàn)，該函數(shù)也包含在 R 的 WGCNA 包中。函數(shù)的輸入是來自多個獨立數(shù)據(jù)集的可變重要性度量和每個數(shù)據(jù)集的可選權(quán)重。用戶可以選擇是否使用 Rank、Scale 或同時使用這兩種變量來計算薈萃分析 p 值。作為額外的便利，該函數(shù)還可以計算局部錯誤發(fā)現(xiàn)率估計（q 值）。

加權(quán)相關(guān)網(wǎng)絡(luò)分析

在這里，基于基因解碼的基因檢測科學(xué)性提升秘密小組簡要概述了加權(quán)相關(guān)網(wǎng)絡(luò)分析。一般網(wǎng)絡(luò)由節(jié)點和節(jié)點之間的成對連接組成。在未加權(quán)網(wǎng)絡(luò)中，連接要么存在要么不存在（等效地，連接強(qiáng)度為 1 或 0）。在加權(quán)網(wǎng)絡(luò)中，每對節(jié)點都是連接的，連接強(qiáng)度可以取區(qū)間 [0,1] 內(nèi)的任意值。在基于基因解碼的基因檢測科學(xué)性提升秘密小組的應(yīng)用程序中，節(jié)點代表測量變量，例如基因表達(dá)或甲基化譜。

相關(guān)網(wǎng)絡(luò)由代表一組變量（例如，基因表達(dá)、蛋白質(zhì)水平等）的多次測量（“樣本”）的數(shù)字?jǐn)?shù)據(jù)構(gòu)建。假設(shè)測量以矩陣形式組織，其中列索引( ) 對應(yīng)于變量，行索引 ( ) 對應(yīng)于樣本測量。基于基因解碼的基因檢測科學(xué)性提升秘密小組將第 -th 列稱為跨樣本測量的第 -th節(jié)點配置文件。例如，如果包含來自表達(dá)微陣列的數(shù)據(jù)，列對應(yīng)于基因（或微陣列探針），行對應(yīng)于微陣列，條目報告轉(zhuǎn)錄本豐度測量?；诨虮磉_(dá)數(shù)據(jù)的相關(guān)網(wǎng)絡(luò)通常被稱為基因共表達(dá)網(wǎng)絡(luò)。

基于基因解碼的基因檢測科學(xué)性提升秘密小組考慮有效由它們的鄰接矩陣指定的無向網(wǎng)絡(luò)，一個正方形對稱矩陣，其元素編碼變量和之間的連接強(qiáng)度。形式上，鄰接矩陣必須是方陣并滿足以下性質(zhì)：

在相關(guān)網(wǎng)絡(luò)中，鄰接是由節(jié)點配置文件的成對相關(guān)性構(gòu)成的。

構(gòu)建相關(guān)網(wǎng)絡(luò)的一個重要選擇是處理強(qiáng)負(fù)相關(guān)。在有符號網(wǎng)絡(luò)中，負(fù)相關(guān)變量被認(rèn)為是不相關(guān)的。相反，在無符號網(wǎng)絡(luò)中，具有高負(fù)相關(guān)性的變量被認(rèn)為是連接的（與具有高正相關(guān)性的變量具有相同的強(qiáng)度）。有符號加權(quán)鄰接矩陣可以定義如下

和一個未簽名的鄰接

選擇該參數(shù)以充分抑制通常由噪聲引起的低相關(guān)性。中描述了用于選擇的一般啟發(fā)式過程。簽名網(wǎng)絡(luò)和未簽名網(wǎng)絡(luò)的值通常效果很好。簽名網(wǎng)絡(luò)與未簽名網(wǎng)絡(luò)的選擇取決于應(yīng)用程序；有符號和無符號加權(quán)基因網(wǎng)絡(luò)均已成功用于基因表達(dá)分析。

基于基因解碼的基因檢測科學(xué)性提升秘密小組發(fā)現(xiàn)定義鄰接矩陣的兩個函數(shù)（變換）很方便。首先，拓?fù)渲丿B矩陣（TOM）定義為

(11) 可以證明該矩陣也是一個鄰接矩陣，即也滿足性質(zhì)(6)-(8)。

其次，鄰接對應(yīng)的相異矩陣定義為

(12) 許多網(wǎng)絡(luò)分析的一個主要步驟是識別模塊?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組將模塊定義為一組高度相關(guān)（或者，在網(wǎng)絡(luò)語言中，強(qiáng)互連）Var.為此，可以定義成對節(jié)點相異性度量，該度量可用作聚類過程中的輸入。在基于基因解碼的基因檢測科學(xué)性提升秘密小組的示例中，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用由下式給出的相異性

(13) 作為平均鏈接層次聚類的輸入。模塊對應(yīng)于生成的層次聚類樹（樹狀圖）的分支，并使用動態(tài)樹切割程序進(jìn)行識別。

網(wǎng)絡(luò)集線器：具有高連接性的節(jié)點

在許多網(wǎng)絡(luò)中，從航空連接網(wǎng)絡(luò)到 Internet 再到一些生物網(wǎng)絡(luò)，賊重要的節(jié)點往往是那些具有大量連接的節(jié)點。更正式地說，給定一個由鄰接矩陣指定的網(wǎng)絡(luò)，節(jié)點的全網(wǎng)絡(luò)連通性定義為

(14) 也就是說，作為與網(wǎng)絡(luò)中所有其他節(jié)點的連接強(qiáng)度的總和。全網(wǎng)連通性高的節(jié)點（相對于網(wǎng)絡(luò)中的其他節(jié)點）稱為全網(wǎng)樞紐節(jié)點（基因網(wǎng)絡(luò)中的樞紐基因）。全網(wǎng)連通性和全網(wǎng)集線器節(jié)點通常簡稱為連通性和集線器節(jié)點。

雖然整個網(wǎng)絡(luò)連接在許多情況下都很重要，但基于基因解碼的基因檢測科學(xué)性提升秘密小組的結(jié)果和其他人的結(jié)果表明，對于大型復(fù)雜網(wǎng)絡(luò)中的特定功能重要的節(jié)點（例如，基因）通常不在整個網(wǎng)絡(luò)中集線器。然而，通常整個網(wǎng)絡(luò)的一個子網(wǎng)絡(luò)與特定功能相關(guān)聯(lián)，并且與該功能賊相關(guān)的節(jié)點通常在相關(guān)子網(wǎng)絡(luò)內(nèi)高度連接。在這項工作中，基于基因解碼的基因檢測科學(xué)性提升秘密小組將相關(guān)的子網(wǎng)絡(luò)識別為與所研究的臨床特征相關(guān)的模塊。相應(yīng)地，基于基因解碼的基因檢測科學(xué)性提升秘密小組定義模塊內(nèi)節(jié)點的模塊內(nèi)連接性標(biāo)記為

(15) 也就是說，作為模塊內(nèi)連接強(qiáng)度的總和。具有高模塊內(nèi)連接性的節(jié)點稱為模塊內(nèi)集線器節(jié)點。

特征節(jié)點總結(jié)了一個相關(guān)模塊

許多模塊構(gòu)建方法導(dǎo)致相關(guān)網(wǎng)絡(luò)模塊由高度相關(guān)的變量組成。對于這樣的模塊，可以使用代表變量總結(jié)相應(yīng)的模塊向量，在網(wǎng)絡(luò)術(shù)語中也稱為代表節(jié)點配置文件。為了定義模塊的代表性配置文件，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用標(biāo)準(zhǔn)化模塊矩陣的奇異值分解 (SVD) 。模塊的矩陣由表示，其中索引對應(yīng)于樣本，索引對應(yīng)于模塊變量（網(wǎng)絡(luò)的節(jié)點）。為了便于表示，基于基因解碼的基因檢測科學(xué)性提升秘密小組將刪除模塊索引; 讀者應(yīng)該記住，下面的討論是針對特定模塊的。在定義模塊特征節(jié)點的第一步中，基于基因解碼的基因檢測科學(xué)性提升秘密小組將每個變量（列）標(biāo)準(zhǔn)化為均值和方差 1。這一重要步驟確保特征節(jié)點的定義獨立于可能受各種技術(shù)影響的每列的整體規(guī)模因素，例如微陣列表達(dá)譜的總體規(guī)模受微陣列探針對單個轉(zhuǎn)錄物的敏感性影響。標(biāo)準(zhǔn)化模矩陣的奇異值分解表示為

(16) 其中正交矩陣的列和分別是左奇異向量和右奇異向量。具體來說，是具有正交列的矩陣，是正交矩陣，是奇異值的對角矩陣，。矩陣和由下式給出

(17) 基于基因解碼的基因檢測科學(xué)性提升秘密小組假設(shè)奇異值以非遞增順序排列。改編自的術(shù)語，基于基因解碼的基因檢測科學(xué)性提升秘密小組將第一列稱為模塊特征節(jié)點（在基因共表達(dá)或共甲基化網(wǎng)絡(luò)中也稱為模塊特征基因）：

(18) 由于每個奇異向量的方向（即符號）是未定義的，基于基因解碼的基因檢測科學(xué)性提升秘密小組通過將每個特征節(jié)點約束為與模塊基因的平均基因表達(dá)正相關(guān)來固定每個特征節(jié)點的方向?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組對特征節(jié)點的定義假設(shè)賊高奇異值是非退化的，模矩陣是非退化的，也就是說，基于基因解碼的基因檢測科學(xué)性提升秘密小組假設(shè)奇異值是在實踐中，基于基因解碼的基因檢測科學(xué)性提升秘密小組發(fā)現(xiàn)模特征節(jié)點通常解釋了超過 50% 的方差的模塊表達(dá)式。

基于基因解碼的基因檢測科學(xué)性提升秘密小組注意到，也可以使用主成分分析 (PCA) 來定義特征節(jié)點。在 PCA 中，對樣本協(xié)方差矩陣執(zhí)行特征值和特征向量分析，樣本協(xié)方差矩陣的元素是節(jié)點輪廓的協(xié)方差，即。得到的特征值和特征向量滿足. 因為協(xié)方差矩陣是對稱非負(fù)定的，所以所有特征值都是實數(shù)且非負(fù)的，，并且可以按非遞增順序排序（即，是賊大的特征值）。然后將第一個主成分定義為。因為模塊矩陣被縮放為均值 0 和方差 1，所以可以證明和第一個左奇異向量（等式 17）僅相差一個常數(shù)，。由于相關(guān)網(wǎng)絡(luò)中模塊摘要配置文件的整體規(guī)模無關(guān)緊要，因此第一個主成分提供了與特征節(jié)點等效的摘要。

基于基因解碼的基因檢測科學(xué)性提升秘密小組現(xiàn)在簡要評論一下右奇異向量?；叵胍幌?，第一個左奇異向量可以解釋為模塊中所有變量的概況（例如，表達(dá)概況）的總結(jié)。相反，第一個右奇異向量可以解釋為樣本表達(dá)譜的總結(jié)。右奇異向量可用于執(zhí)行信號平衡；細(xì)節(jié)超出了本文的范圍，基于基因解碼的基因檢測科學(xué)性提升秘密小組將感興趣的讀者推薦給本書中的第 6.1.1 節(jié)和其中的參考資料。

基于特征節(jié)點的模糊模塊隸屬度測度

模塊特征節(jié)點可用于定義模塊中變量的模塊成員資格的定量測量，表示為：

(19) node 的配置文件在哪里。模塊成員資格在于并指定節(jié)點與模塊的接近程度。該數(shù)量有時被稱為基于簽名模塊特征基因的連通性。在基因共表達(dá)網(wǎng)絡(luò)中，由于模塊子網(wǎng)絡(luò)的近似可分解性，模塊成員資格和模塊內(nèi)連接往往高度相關(guān)。

基于特征節(jié)點的模塊-特征關(guān)聯(lián)度量

模塊特征節(jié)點也產(chǎn)生了模塊-特征關(guān)聯(lián)的方便度量。給定一個數(shù)量性狀和一個標(biāo)有特征節(jié)點的模塊，基于基因解碼的基因檢測科學(xué)性提升秘密小組將模塊特征節(jié)點顯著性（有時也稱為模塊顯著性）定義為特征和特征基因的相關(guān)性，

(20) 模塊特征節(jié)點的意義在于。接近 1 (-1) 的值表示模塊與特征非常強(qiáng)烈地正（負(fù)）相關(guān)，而接近 0 的值表示線性關(guān)聯(lián)很弱。由于模塊顯著性被定義為相關(guān)性，因此可以直接通過相應(yīng)的相關(guān)性檢驗 p 值來量化其統(tǒng)計顯著性。因此，模塊特征節(jié)點顯著性非常適合使用 Stouffer 方法以及基于基因解碼的基因檢測科學(xué)性提升秘密小組的 Scale 和 Rank 修改進(jìn)行元分析。

共識模塊

元分析和相關(guān)技術(shù)的優(yōu)勢早已在網(wǎng)絡(luò)分析中得到承認(rèn)。已經(jīng)開發(fā)了幾種用于查找常見子網(wǎng)（有時稱為模塊）的復(fù)雜算法。共識模塊被定義為可以在多個網(wǎng)絡(luò)中找到的高度連接的節(jié)點集。尋找共識模塊的不同方法的比較和評估超出了基于基因解碼的基因檢測科學(xué)性提升秘密小組的范圍，基于基因解碼的基因檢測科學(xué)性提升秘密小組建議讀者參考文獻(xiàn)。

由于基于基因解碼的基因檢測科學(xué)性提升秘密小組的重點是使用共識模塊來選擇基因的效用，基于基因解碼的基因檢測科學(xué)性提升秘密小組將注意力限制在 WGCNA 框架內(nèi)的單一共識模塊檢測方法。共識模塊是使用合適的共識相異性來識別的，該相異性用作聚類過程的輸入，類似于在單個集合中識別模塊的過程。為了簡化基于基因解碼的基因檢測科學(xué)性提升秘密小組的討論，基于基因解碼的基因檢測科學(xué)性提升秘密小組為一組矩陣引入以下按分量分位數(shù)函數(shù)：

(21) 因此，分位數(shù)矩陣的每個分量都是各個輸入矩陣中相應(yīng)分量的給定分位數(shù) ( )。使用這種表示法，基于基因解碼的基因檢測科學(xué)性提升秘密小組將與輸入網(wǎng)絡(luò)和分位數(shù)相對應(yīng)的共識網(wǎng)絡(luò)定義為

(22) 當(dāng)，即分位數(shù)賊小時，共識網(wǎng)絡(luò)有一個非常簡單的解釋：兩個變量與所有輸入網(wǎng)絡(luò)共有的強(qiáng)度相關(guān)（因此命名為“共識”）。

為了識別共識模塊，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用標(biāo)準(zhǔn)的模塊識別程序，具有不同的

(23) 基于基因解碼的基因檢測科學(xué)性提升秘密小組再次強(qiáng)調(diào)，這個過程只有在輸入網(wǎng)絡(luò)的變量相同時才有意義。

共識模塊中模塊成員的元分析

一旦識別出共識模塊，就可以在每個輸入數(shù)據(jù)集中計算它們的特征基因（方程式 18 ）。具體來說，用表示集合中模塊的特征基因。對于每個節(jié)點，基于基因解碼的基因檢測科學(xué)性提升秘密小組都有模塊成員的度量，即

(24) 總結(jié)這些措施的幾種替代方式是可能的。首先，由于定義為相關(guān)性，因此可以將其轉(zhuǎn)換為 Z 統(tǒng)計量并使用上述標(biāo)準(zhǔn)元分析技術(shù)（等式 3和4），以及基于基因解碼的基因檢測科學(xué)性提升秘密小組的 Scale 和 Rank 修改?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組在報告的結(jié)果中使用這些方法。

為了完整起見，基于基因解碼的基因檢測科學(xué)性提升秘密小組還描述了從單個值派生的 Z 統(tǒng)計量的薈萃分析的兩種替代方法，它們更簡單但通常表現(xiàn)不佳。首先，可以應(yīng)用共識方法并定義共識模塊成員資格

(25) 其次，還可以定義（加權(quán)）均值。給定每個數(shù)據(jù)集的權(quán)重，

(26) 權(quán)重可以與用于定義各種版本的薈萃分析 Z 統(tǒng)計的權(quán)重相同，盡管這不是必需的。

共識模塊成員的元分析是在 WGCNA 包中包含的函數(shù)consensusKME 中實現(xiàn)的。該函數(shù)提供了一個與 metaAnalysis 函數(shù)類似的接口，包括各種單獨的集合權(quán)重選擇、可選的 Scale 和 Rank 元分析的自動計算，以及可選使用穩(wěn)健的相關(guān)性度量。

腺癌數(shù)據(jù)集和網(wǎng)絡(luò)分析

基于基因解碼的基因檢測科學(xué)性提升秘密小組下載了 8 個獨立的癌癥數(shù)據(jù)集：4 個數(shù)據(jù)集在 Affymetrix U133A 微陣列上測量，分別包含 162、69、73 和 89 個樣本；51 個樣品在 Affymetrix U133plus2 微陣列上測量；在安捷倫全人類基因組寡核苷酸 DNA 微陣列 G4112F 上測量91 個樣品；81 個樣品在安捷倫智人 21.6K 定制陣列上測量；和 49 個樣品在 Agilent-012391 全人類基因組寡核苷酸微陣列 G4112A 上測量。每個數(shù)據(jù)集中的樣本數(shù)量反映了在適用的情況下對腺癌 (AD) 的限制以及基于基因解碼的基因檢測科學(xué)性提升秘密小組刪除了可能的異常樣本。

由于本研究中存在的 5 個平臺之間的微陣列探針不同，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用中描述的聚合方法（在 collapseRows 函數(shù)中實現(xiàn)）將探針?biāo)降谋磉_(dá)數(shù)據(jù)“折疊”為基因水平的表達(dá)數(shù)據(jù)。然后，基于基因解碼的基因檢測科學(xué)性提升秘密小組只保留了 5 個平臺中每個平臺上代表的 8655 個基因的表達(dá)譜。

共識 TOM 被定義為具有百分位數(shù)（即四分位數(shù)）的各個 TO 矩陣的共識（方程式 22 ）。共識模塊是使用中詳述的方法構(gòu)建的，并在上面進(jìn)行了審查。這個過程產(chǎn)生了 5 個模塊。

為了測量每個基因或模塊特征基因的生物學(xué)意義，基于基因解碼的基因檢測科學(xué)性提升秘密小組首先計算了生存時間偏差。然后，基因或模塊特征基因的重要性簡單地給出為相應(yīng)表達(dá)譜與生存偏差的相關(guān)性。

用于衰老研究的全基因組甲基化數(shù)據(jù)

基于基因解碼的基因檢測科學(xué)性提升秘密小組分析了 3 個全血 (WB) 甲基化數(shù)據(jù)集和 4 個區(qū)域特異性腦甲基化數(shù)據(jù)集。甲基化數(shù)據(jù)包括來自 I 型糖尿病研究的 190 個樣本來自大型癌癥研究的健康對照的 261 個樣本以及來自先前衰老研究的 87 個樣本。4 個大腦數(shù)據(jù)集新穎在正常人腦表達(dá)和甲基化遺傳學(xué)研究中報道. 在這里，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用甲基化數(shù)據(jù)集來調(diào)查 150 個人的額葉皮層、顳葉皮層、腦橋區(qū)域和小腦的全基因組甲基化。去除異常值后，基于基因解碼的基因檢測科學(xué)性提升秘密小組保留了 132 個（額葉皮層）、126 個（顳葉皮層）、123 個（腦橋區(qū)域）和 111 個（小腦）樣本。在 Illumina Infinium HumanMethylation27 BeadChip 上分析了所有 7 個甲基化數(shù)據(jù)集。

基于基因解碼的基因檢測科學(xué)性提升秘密小組再次使用百分位數(shù)來定義共識 TOM（等式 22）。共識模塊識別產(chǎn)生41個模塊。與腺癌應(yīng)用相比，此處確定的模塊數(shù)量相對較多可能是由于個體共甲基化網(wǎng)絡(luò)的相似性較高。每個甲基化探針的基因顯著性定義為相應(yīng)甲基化譜與年齡的相關(guān)性。

小鼠肝臟表達(dá)數(shù)據(jù)集

基于基因解碼的基因檢測科學(xué)性提升秘密小組使用 9 個獨立的肝臟表達(dá)數(shù)據(jù)集。其中 8 個數(shù)據(jù)集來自 3 個獨立的 F2 小鼠雜交：2 個數(shù)據(jù)集，分別來自 CAST×C57BL/6J 雜交的 141 個（雌性）和 100 個（雄性）樣本，表示為 C×B ；來自 C3H/HeJ×C57BL/6J 在 ApoE 空背景上交叉的 2 個數(shù)據(jù)集 134（女性）和 124（男性）樣本，表示為 BxH ApoE 4 個數(shù)據(jù)集 66（B×H 女性），69 （B×H 雄性）、63 個（H×B 雌性）和 66 個（H×B 雄性）樣本來自 C3H/HeJ×C57BL/6J 在野生型背景上的雜交，表示為 BxH wt 。第 9 個數(shù)據(jù)集包含 196 個男性樣本，稱為小鼠多樣性小組 (MDP)，是一個基因更多樣化的集合，包含來自各種實驗室品系和雜交的小鼠. 因為這 9 個數(shù)據(jù)集是在各種微陣列平臺上測量的，包括定制的安捷倫雙色陣列（所有 F2 交叉）以及 Affymetrix HT 小鼠基因組 430A 陣列（MDP），基于基因解碼的基因檢測科學(xué)性提升秘密小組再次使用函數(shù) collapseRows 來創(chuàng)建基因水平的表達(dá)數(shù)據(jù)，可以在平臺之間進(jìn)行比較。

與基于基因解碼的基因檢測科學(xué)性提升秘密小組的其他應(yīng)用程序一樣，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用百分位數(shù)來定義共識 TOM（等式 22）。共識模塊識別產(chǎn)生11個模塊。每個基因的基因顯著性定義為基因表達(dá)譜與血漿中總膽固醇測量值的相關(guān)性。

基因表達(dá)數(shù)據(jù)的模擬

基于基因解碼的基因檢測科學(xué)性提升秘密小組使用 WGCNA R 包中的數(shù)據(jù)模擬功能模擬表達(dá)數(shù)據(jù)，其中基因被組織成模塊，將相關(guān)基因組合在一起?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組首先描述了單個數(shù)據(jù)集中基因表達(dá)數(shù)據(jù)的模擬。為了模擬表達(dá)數(shù)據(jù)集，首先選擇模塊的數(shù)量和每個模塊中的基因數(shù)量，以及描述不同模塊的種子特征基因應(yīng)該如何相關(guān)的矩陣。接下來，使用隨機(jī)、正態(tài)分布的“樣本”生成種子模塊特征基因，以使它們的相關(guān)性接近給定的關(guān)聯(lián)矩陣（此步驟在函數(shù) simulationEigengeneNetwork 中實現(xiàn)）。種子特征基因被模擬為彼此之間表現(xiàn)出弱到中等的相關(guān)性，因為在經(jīng)驗數(shù)據(jù)中基于基因解碼的基因檢測科學(xué)性提升秘密小組經(jīng)常觀察到不同簇的特征基因是相關(guān)的。對于每個模塊, 模塊基因, 由索引 , 標(biāo)記,然后模擬為

(27) 其中“噪聲”分量是隨機(jī)選擇的且獨立于，并且系數(shù)在和之間均勻分布。為了模擬具有強(qiáng)相關(guān)基因的模塊，基于基因解碼的基因檢測科學(xué)性提升秘密小組使用介于 0.5 和 0.6 之間以及介于 0.8 和 0.95 之間的值。較低的值可用于模擬具有較弱共表達(dá)的模塊。簇外的大多數(shù)基因使用從中提取的獨立表達(dá)值進(jìn)行模擬，而根據(jù)公式 27將少數(shù)基因模擬為“近簇基因” ，但范圍從 0 到. 該模擬過程在函數(shù)simulateDatExpr 中實現(xiàn)，并導(dǎo)致模塊結(jié)構(gòu)通常類似于在實際數(shù)據(jù)中觀察到的模塊結(jié)構(gòu)。

由于基于基因解碼的基因檢測科學(xué)性提升秘密小組的模塊成員元分析方法側(cè)重于共識模塊，因此基于基因解碼的基因檢測科學(xué)性提升秘密小組在所有數(shù)據(jù)集中模擬了相同的模塊結(jié)構(gòu)，即所有模擬的模塊也是共識模塊。這可以使用函數(shù)simulateMultiExpr 方便地實現(xiàn)。

統(tǒng)計分析和代碼

所有統(tǒng)計分析均使用 R 語言和統(tǒng)計環(huán)境版本 2.15.0 進(jìn)行?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組使用了 WGCNA R 包 1.20 版中實現(xiàn)的網(wǎng)絡(luò)和共識模塊分析功能。WGCNA 包中的 GO 富集分析在函數(shù) GOenrichmentAnalysis 中實現(xiàn)，并依賴于 Bioconductor 項目提供的注釋包版本 2.10。（各個包的版本號可能不同；例如，GO 注釋包 GO.db 以及特定生物的注釋包 org.Xx.eg.db 的版本為 2.7.1。）盡管基于基因解碼的基因檢測科學(xué)性提升秘密小組分析中得出的定性結(jié)論是穩(wěn)健的，當(dāng)使用不同版本的 Bioconductor 注釋包（由于不斷發(fā)展的注釋數(shù)據(jù)庫）和 WGCNA 包（由于網(wǎng)絡(luò)構(gòu)建和模塊識別方面的改進(jìn)）時，諸如正確富集 p 值或模塊中基因數(shù)量等次要細(xì)節(jié)可能會有所不同?；诨蚪獯a的基因檢測科學(xué)性提升秘密小組的預(yù)處理包括使用中詳述的 ComBat 功能和方法進(jìn)行批量刪除。所有數(shù)據(jù)和分析代碼都可以在基于基因解碼的基因檢測科學(xué)性提升秘密小組的網(wǎng)站上找到http://genetics.ucla.edu/labs/horvath/CoexpressionNetwork/MetaAnalysis/http://genetics.ucla.edu/labs/horvath/CoexpressionNetwork/MetaAnalysis/。

When is hub gene selection better than standard meta-analysis?

Langfelder P, Mischel PS, Horvath S.

PLoS One. 2013 Apr 17;8(4):e61505. doi: 10.1371/journal.pone.0061505. Print 2013.

PMID: 23613865

(責(zé)任編輯：佳學(xué)基因)

頂一下

(0)

踩一下

(0)