佳學基因遺傳病基因檢測機構排名,三甲醫(yī)院的選擇

基因檢測就找佳學基因!

熱門搜索
  • 癲癇
  • 精神分裂癥
  • 魚鱗病
  • 白癜風
  • 唇腭裂
  • 多指并指
  • 特發(fā)性震顫
  • 白化病
  • 色素失禁癥
  • 狐臭
  • 斜視
  • 視網(wǎng)膜色素變性
  • 脊髓小腦萎縮
  • 軟骨發(fā)育不全
  • 血友病

客服電話

4001601189

在線咨詢

CONSULTATION

一鍵分享

CLICK SHARING

返回頂部

BACK TO TOP

分享基因科技,實現(xiàn)人人健康!
×
查病因,阻遺傳,哪里干?佳學基因準確有效服務好! 靶向用藥怎么搞,佳學基因測基因,優(yōu)化療效 風險基因哪里測,佳學基因
當前位置:????致電4001601189! > 基因課堂 > 基因價值 > 基因測序技術 >

【佳學基因檢測】為基因檢測確定基因位點的Hub基因選擇法何時優(yōu)于標準 Meta 分析?

【佳學基因】為基因檢測確定基因位點的Hub基因選擇法何時優(yōu)于標準 Meta 分析?基因檢測位點選擇的正確性與全面性導讀: 由于已發(fā)現(xiàn)中心節(jié)點在許多網(wǎng)絡中發(fā)揮重要作用,因此高度連接的中

佳學基因檢測】為基因檢測確定基因位點的Hub基因選擇法何時優(yōu)于標準 Meta 分析?

 

基因檢測位點選擇的正確性與全面性導讀:

由于已發(fā)現(xiàn)中心節(jié)點在許多網(wǎng)絡中發(fā)揮重要作用,因此高度連接的中心基因預計也將在生物學中發(fā)揮重要作用。然而,經(jīng)驗證據(jù)仍然模棱兩可。一個懸而未決的問題是,在分析基因組數(shù)據(jù)集(例如,基因表達或 DNA 甲基化數(shù)據(jù))時,中心基因選擇是否(或何時)導致比基于顯著性檢驗的標準統(tǒng)計分析更有意義的基因列表。在這里,基于基因解碼的基因檢測科學性提升秘密小組針對有多個基因組數(shù)據(jù)集可用的特殊情況來解決這個問題。這具有非常重要的實際意義,因為對于許多研究問題,多個數(shù)據(jù)集是公開可用的。在這種情況下,數(shù)據(jù)分析師可以在標準統(tǒng)計方法(例如,基于元分析)和一種在共識模塊中選擇模塊內集線器的共表達網(wǎng)絡分析方法。基于基因解碼的基因檢測科學性提升秘密小組根據(jù)兩個標準評估這兩種方法的性能。先進個標準評估獲得的生物學見解,并與基礎研究相關。第二個標準評估獨立數(shù)據(jù)集中的驗證成功(可重復性),通常應用于臨床診斷或預后應用?;诨蚪獯a的基因檢測科學性提升秘密小組將薈萃分析與基于加權相關網(wǎng)絡分析 (WGCNA) 的共識網(wǎng)絡分析在三項全面且無偏見的實證研究中進行比較:(1) 尋找預測肺癌生存的基因,(2) 尋找與年齡相關的甲基化標記,以及 (3) ) 尋找與總膽固醇相關的小鼠基因。結果表明,在識別具有生物學意義的基因列表(反映標準 1)時,關于共有模塊的模塊內中樞基因狀態(tài)比薈萃分析 p 值更有用。然而,就驗證成功(標準 2)而言,標準薈萃分析方法的性能與共識網(wǎng)絡方法一樣好(如果不優(yōu)于)。本文還報告了應用于基因表達數(shù)據(jù)的元分析技術的比較,并提出了用于執(zhí)行共識網(wǎng)絡分析、基于網(wǎng)絡的篩選和元分析的新 R 函數(shù)。標準薈萃分析方法在驗證成功方面的表現(xiàn)與(如果不優(yōu)于)共識網(wǎng)絡方法一樣好(標準 2)。本文還報告了應用于基因表達數(shù)據(jù)的元分析技術的比較,并提出了用于執(zhí)行共識網(wǎng)絡分析、基于網(wǎng)絡的篩選和元分析的新 R 函數(shù)。標準薈萃分析方法在驗證成功方面的表現(xiàn)與(如果不優(yōu)于)共識網(wǎng)絡方法一樣好(標準 2)。本文還報告了應用于基因表達數(shù)據(jù)的元分析技術的比較,并提出了用于執(zhí)行共識網(wǎng)絡分析、基于網(wǎng)絡的篩選和元分析的新 R 函數(shù)。

 

基因檢測位點選擇的正確性與全面性介紹

十多年來,已經(jīng)使用網(wǎng)絡方法分析了基因組數(shù)據(jù)(特別是基因表達數(shù)據(jù))。由于高度連接的中樞節(jié)點是網(wǎng)絡架構的核心 - 并且蛋白質敲除實驗表明,中樞蛋白往往對于低等生物(酵母、蒼蠅、蠕蟲)的生存至關重要 ,   許多文章探討了樞紐基因在高等生物(包括人類和小鼠)中的作用。雖然文獻中關于中樞基因的重要性一直存在爭論,但可以公平地說,中樞通常并不重要。基于基因解碼的基因檢測科學性提升秘密小組認為,在共表達網(wǎng)絡應用方面,關注模塊內集線器而不是整個網(wǎng)絡集線器至關重要。理論上可以描述網(wǎng)絡模塊(互連節(jié)點的集群),其模塊內中樞基因將與特征(例如疾病狀態(tài)、存活時間或年齡)顯著相關. 正如預期的那樣,疾病相關模塊中的模塊內中樞通常具有臨床重要性,例如,細胞增殖模塊中的模塊內中樞結果與多形性膠質母細胞瘤中的癌癥存活時間相關。為了找到生物學相關的模塊和相應的模塊內集線器,加權相關網(wǎng)絡分析(WGCNA,)通常按照以下步驟進行。首先,輸入變量(例如,數(shù)千個基因表達譜)被聚類以識別高度互連的節(jié)點集,稱為模塊。此步驟的基本原理是共表達基因的簇(模塊)通常富含特定的功能類別或細胞標記  。其次,使用外部信息識別生物學相關模塊,例如,通過將模塊基因與感興趣的臨床特征(如疾病狀態(tài)、存活時間、膽固醇水平)相關聯(lián)。這種以模塊為中心的分析緩解了高維數(shù)據(jù)中固有的多重測試問題,因為它側重于幾個模塊與樣本特征之間的關系。第三,使用與相關模塊相關的模塊內連接性度量來選擇模塊內集線器。相關網(wǎng)絡分析的幾何解釋可以用來論證模塊內連通性可以解釋為模塊成員資格的模糊度量. 因此,考慮模塊內連接性的基因篩選方法相當于基于通路的基因篩選方法。經(jīng)驗證據(jù)表明,由此產(chǎn)生的系統(tǒng)生物基因篩選方法可以帶來重要的生物學見解 ?;蜻B接不僅用于識別中心,還用于識別差異連接的基因。

盡管有多個成功的案例研究,使用網(wǎng)絡連接進行基因選擇(更普遍地用于變量篩選)仍然存在爭議,部分原因是它缺乏建立邊緣統(tǒng)計和基于模型的基因選擇程序的理論基礎。因此,決定是否應該使用邊緣差異表達分析(例如,基于學生 t 檢驗或倍數(shù)變化標準)或共表達網(wǎng)絡分析來尋找基于基因表達數(shù)據(jù)(或其他高維組學數(shù)據(jù))?;诨蚪獯a的基因檢測科學性提升秘密小組之前試圖普遍回答這個問題的嘗試都失敗了,因為基于基因解碼的基因檢測科學性提升秘密小組的理論和模擬研究的初步結果無法在全面的真實數(shù)據(jù)應用中得到證實?;?ArrayExpress )。多個數(shù)據(jù)集不僅允許人們穩(wěn)健地定義性狀相關基因列表,而且還可以定義共識網(wǎng)絡模塊(即存在于所有數(shù)據(jù)集中的模塊)。使用 3 個不同的經(jīng)驗案例研究和模擬,基于基因解碼的基因檢測科學性提升秘密小組在處理多個基因組數(shù)據(jù)集時解決了以下問題。

  1. 全網(wǎng)絡樞紐基因是否相關,還是應該專門關注模塊內樞紐?答:基于基因解碼的基因檢測科學性提升秘密小組的相關網(wǎng)絡應用表明,應該關注特征相關模塊中的模塊內集線器。
  2. 哪種標準的邊際薈萃分析方法(即忽略基因-基因關系的方法)可以賊好地驗證基因/性狀關聯(lián)?答:總的來說,9 種考慮的方法在基于基因解碼的基因檢測科學性提升秘密小組的應用程序中具有相似的性能。
  3. 如何在共識模塊中選擇樞紐基因?答:應用于模塊內連通性(也稱為模塊成員)測量的元分析技術效果很好。只是形成跨數(shù)據(jù)集的平均值效果很好。
  4. 基于網(wǎng)絡的基因選擇策略是否導致基因列表比基于標準邊緣方法的基因列表在生物學上更具信息性?回答:是的,在所有 3 種應用中,基于 模塊內連接的基因選擇比邊緣方法產(chǎn)生的生物學信息更豐富。相比之下, 全網(wǎng)絡連接導致信息賊少的基因列表。
  5. 基于網(wǎng)絡的基因選擇策略是否導致基因列表比基于標準邊際方法的基因列表具有更多可重復的性狀關聯(lián)?答:總的來說,答案是否定的?;诨蚪獯a的基因檢測科學性提升秘密小組的模擬進一步探索了這一點。

因此,基于基因解碼的基因檢測科學性提升秘密小組的研究結果表明,模塊成員的元分析(即,在共識模塊中選擇模塊內集線器)會導致基因列表具有更好的生物學解釋性,但可能會降低驗證成功率。換句話說,雖然網(wǎng)絡方法在學習生物學時可能更可取,但標準的邊際薈萃分析方法可能更適合選擇候選生物標志物。

 

基因檢測位點選擇的正確性與全面性結果

本工作中使用的標準 Meta 分析方法概述

在這項工作中,基于基因解碼的基因檢測科學性提升秘密小組專注于比較不考慮基因-基因關系的量化關聯(lián)的元分析(邊緣關聯(lián)的元分析或邊緣元分析)與模塊成員的元分析。在這里,基于基因解碼的基因檢測科學性提升秘密小組研究了 Stouffer 等人新穎提出的逆正態(tài)元分析技術的三種變體,以及使標準元分析方法適用于更廣泛的統(tǒng)計數(shù)據(jù)的兩種方法。表格1簡要概述了本文中使用的方法。“逆正態(tài)”名稱源于該方法使用逆正態(tài)分布函數(shù)將單個輸入 p 值轉換為 Z 統(tǒng)計量,然后將其組合成元分析 Z 統(tǒng)計量,其在原假設下的分布是已知的(方程2,方法)。這三種變體的不同之處在于它們對每項研究的加權方式。中提出的賊簡單的變體為每項研究分配了相同的權重,而與每項研究中使用的觀察次數(shù)無關(等式 3),基于基因解碼的基因檢測科學性提升秘密小組稱其為具有相同權重的 Stouffer 方法。在某些假設下,可以證明理論上賊優(yōu)的權重是  – 其中是每個研究中的樣本數(shù)(更正確地說,是自由度數(shù))。應該注意的是,作為該結果基礎的假設在實際應用中通常不滿足,因此從經(jīng)驗上研究哪種加權方法在實踐中表現(xiàn)賊佳是有意義的。在這里,除了等權情況和理論上的賊優(yōu)情況(稱為具有平方根權重的 Stouffer 方法)外,基于基因解碼的基因檢測科學性提升秘密小組還研究了權重(稱為具有自由度權重的 Stouffer 方法)。無論選擇什么權重,Stouffer 方法關鍵取決于輸入 Z 統(tǒng)計量的正態(tài)分布和已知方差。

表1:本文中使用的薈萃分析方法概述

No.

 

方法

 

突變

 

輸入

 

Trafo.

 

重量

 

1

 

Stouffe

 

相同權重

 

Z-統(tǒng)計

 

沒有任何

 

 
2

 

Stouffe

 

平方根權重

 

Z-統(tǒng)計

 

沒有任何

 

 
3

 

Stouffe

 

自由度重量

 

Z-統(tǒng)計

 

沒有任何

 

 
4

 

rankPvalue

 

秤,相同權重

 

Var.Imp

 

規(guī)模

 

 
5

 

rankPvalue

 

比例,平方根權重

 

Var.Imp

 

規(guī)模

 

 
6

 

rankPvalue

 

秤,自由度重量

 

Var.Imp

 

規(guī)模

 

 
7

 

rankPvalue

 

排名,相同權重

 

Var.Imp

 

Rank

 

 
8

 

rankPvalue

 

Rank,平方根權重

 

Var.Imp

 

Rank

 

 
9

 

rankPvalue

 

Rank,自由度權重

 

Var.Imp

 

Rank

 

 

 

Method 和 Variant 列列出了在整個文本和基于基因解碼的基因檢測科學性提升秘密小組的圖中使用的每個方法的名稱。Var.Imp代表一般變量重要性度量;Trafo.列表示在計算薈萃分析統(tǒng)計數(shù)據(jù)之前如何轉換輸入;權重列表示通過公式 4或 5 計算薈萃分析統(tǒng)計數(shù)據(jù)時使用的權重 。

基于對變量重要性度量進行排名的 Meta 分析:RankPvalue

基于基因解碼的基因檢測科學性提升秘密小組考慮一種新的元分析方法,稱為 rankPvalue,它可以將任何變量重要性的序數(shù)度量作為輸入。rankPvalue 方法(和同名的 R 函數(shù))依賴于每個輸入數(shù)據(jù)集中變量重要性度量的排名。該方法的一個關鍵假設是變量的數(shù)量很大。這在探針數(shù)量通常為數(shù)萬或更多的基因組數(shù)據(jù)中肯定是令人滿意的。當難以量化輸入度量的統(tǒng)計顯著性(p 值或 Z 統(tǒng)計量)時,使用通用變量重要性度量是有利的。此類度量的示例包括通常難以定義統(tǒng)計顯著性的網(wǎng)絡連接性和中心性度量。

rankPvalue 方法有兩種變體:Scale方法和Rank方法。如其名稱所示,Scale方法首先將每個研究中的單個重要性度量縮放為均值 0 和方差 1。然后對統(tǒng)計數(shù)據(jù)進行平均,并依靠中心極限定理來逼近所得薈萃分析統(tǒng)計數(shù)據(jù)的零分布。如果不滿足中心極限定理的假設,那么基于基因解碼的基因檢測科學性提升秘密小組建議使用Rank方法。正如其名稱所示,Rank 方法將重要性度量的值替換為它們的排名。接下來,排名除以變量的數(shù)量,因此結果值位于單位區(qū)間內。在零假設下,觀察到的給定變量的排名可以被認為是從單位區(qū)間上的均勻分布中得出的。對于給定的變量,這些排名的總和是元分析測試統(tǒng)計量。它在零假設下的分布可以通過對獨立均勻分布變量的分布進行卷積來估計。幸運的是,均勻分布變量的卷積迅速收斂到正態(tài)分布:只要就足夠了. 方法中提供了所有薈萃分析方法的更詳細描述。

在共識模塊中選擇中心基因:模塊成員的元分析

由于模塊內中樞基因已被證明在多個先前的應用中具有生物學重要性,基于基因解碼的基因檢測科學性提升秘密小組現(xiàn)在將模塊內中樞基因的概念擴展到多個數(shù)據(jù)集?;诨蚪獯a的基因檢測科學性提升秘密小組的方法從加權相關網(wǎng)絡分析 (WGCNA) 開始,以識別給定數(shù)據(jù)集的共識模塊(方法)。WGCNA 對于尋找共識模塊和模塊內集線器特別有吸引力,因為 a) 可以在組合加權網(wǎng)絡之前校準加權網(wǎng)絡,b) 跨獨立數(shù)據(jù)集組合加權網(wǎng)絡很簡單,c) 它提供可用于關聯(lián)模塊的模塊特征基因對性狀(例如疾病狀態(tài))進行采樣,以及 d) 它提供了模塊成員資格 (kME) 的測量值,可用于在共有模塊中查找中心基因??梢允褂肳GCNA R 包中的R 函數(shù)blockwiseConsensusModules找到共識模塊??梢允褂没诨蚪獯a的基因檢測科學性提升秘密小組的 R 函數(shù)consensusKME找到共識模塊中的 Hub 基因. 根據(jù)定義,共識模塊是存在于所有輸入數(shù)據(jù)集中的集群?;诨蚪獯a的基因檢測科學性提升秘密小組強調模塊是以無監(jiān)督的方式識別的,即不考慮臨床特征。接下來,選擇一個與特征相關的共識模塊,例如,作為在各個數(shù)據(jù)集中具有賊高特征節(jié)點顯著性(等式 20 ,方法)的模塊。賊后,使用單個數(shù)據(jù)集中的模塊成員資格(等式 19 )的元分析,確定特征相關共識模塊中具有賊高總體模塊成員資格的Var.

共識模塊中的 Hub 基因選擇產(chǎn)生具有更清晰功能注釋的基因列表

基于基因解碼的基因檢測科學性提升秘密小組展示了 3 個應用程序,說明了使用模塊成員的薈萃分析(即模塊內中樞基因選擇)來研究與感興趣的性狀相關的功能類別:在應用程序 1 中,基于基因解碼的基因檢測科學性提升秘密小組研究腺癌表達數(shù)據(jù)并將它們與生存率聯(lián)系起來時間; 在應用程序 2 中,基于基因解碼的基因檢測科學性提升秘密小組研究全基因組血液甲基化數(shù)據(jù)并將其與年齡相關聯(lián);在應用程序 3 中,基于基因解碼的基因檢測科學性提升秘密小組研究了小鼠肝臟表達數(shù)據(jù)并將它們與血漿膽固醇水平聯(lián)系起來。在所有 3 個應用程序中,基于基因解碼的基因檢測科學性提升秘密小組對所有輸入數(shù)據(jù)集執(zhí)行共識模塊分析(方法),并識別與感興趣的特征相關的模塊。應用程序中使用的數(shù)據(jù)匯總在表 2.

表 2:本文中使用的數(shù)據(jù)集概述

應用

 

不。

 

描述

 

# 樣本

 

參考。

 

肺癌

 

1

 

MSAS(密歇根州)

 

162

 

 
  2

 

MSAS (HLM)

 

69

 

 
  3

 

MSAS (DFCI)

 

73

 

 
  4

 

MSAS (MSKCC)

 

89

 

 
  5

 

圖片等

 

51

 

 
  6

 

富田等

 

91

 

 
  7

 

竹內等

 

81

 

 
  8

 

羅普曼等人

 

49

 

 
老化

 

1

 

WB 1 型糖尿病

 

190

 

 
  2

 

WB卵巢癌對照

 

261

 

 
  3

 

WB 健康 PMP 女性

 

87

 

 
  4

 

大腦額葉皮層

 

132

 

 
  5

 

大腦顳葉皮層

 

126

 

 
  6

 

腦橋區(qū)域

 

123

 

 
  7

 

腦小腦

 

111

 

 
小鼠肝臟

 

1

 

CAST×B6 女

 

141

 

 
  2

 

CAST×B6 男

 

100

 

 
  3

 

B6×C3H ApoE 雌性

 

134

 

 
  4

 

B6×C3H ApoE 雄性

 

124

 

 
  5

 

B6×C3H 野生型雌性

 

66

 

 
  6

 

B6×C3H 野生型雄性

 

69

 

 
  7

 

C3H×B6 野生型雌性

 

63

 

 
  8

 

C3H×B6 野生型雄性

 

66

 

 
  9

 

鼠標多樣性面板

 

196

 

 

 

# 列樣本列出了每個數(shù)據(jù)集中的樣本數(shù)量(在基于基因解碼的基因檢測科學性提升秘密小組去除了潛在的異常值之后)。MSAS,多部位腺癌研究;HLM,莫菲特癌癥中心;DFCI,達納-法伯癌癥研究所;MSKCC,紀念斯隆-凱特琳癌癥中心;WB,全血;PMP,絕經(jīng)后。

為了將模塊成員的元分析與邊緣元分析和整個網(wǎng)絡連接的元分析進行比較,基于基因解碼的基因檢測科學性提升秘密小組使用每種方法選擇給定數(shù)量的先進基因并研究它們在一組已知基因中的富集(“黃金標準”)。作為黃金標準,基于基因解碼的基因檢測科學性提升秘密小組使用與現(xiàn)有文獻中的結果密切相關的基因本體類別或基因列表。

人類表達數(shù)據(jù)中與腺癌存活時間相關的基因 在這里,基于基因解碼的基因檢測科學性提升秘密小組分析了方法中更詳細描述的8 個腺癌數(shù)據(jù)集 。作為判斷生存相關基因列表中生物信號的金標準,基于基因解碼的基因檢測科學性提升秘密小組使用了關于 GO 術語“細胞周期”的富集,因為已觀察到細胞周期相關基因是賊強的生存預測因子之一并且已知增殖性癌癥與預后不良有關(例如,)。如果基于基因解碼的基因檢測科學性提升秘密小組選擇一個相關的術語,例如“細胞周期過程”或“有絲分裂細胞周期”,基于基因解碼的基因檢測科學性提升秘密小組的結果在質量上是相同的。

共識模塊分析(文本 S1中的方法和圖 S1 )確定了 5 個用數(shù)字 1-5 標記的模塊。迄今為止,模塊 2(93 個基因)與生存時間賊顯著相關(文本 S1中的圖 S2 )。因此,該模塊是選擇與肺癌生存時間相關的模塊內集線器的自然選擇?;诨蚪獯a的基因檢測科學性提升秘密小組強調僅根據(jù)其與生存時間的關聯(lián)選擇該模塊。結果證明該模塊顯著富集了細胞周期基因(Bonferroni 校正的超幾何富集 p 值,見表 S1)。圖 1A圖 S3(文本 S1)報告了通過標準邊際薈萃分析、模塊成員元分析和全網(wǎng)絡連接性薈萃分析選擇的基因列表的富集 p 值(關于細胞周期基因),作為列表大小的函數(shù)。這些圖顯示,與基于標準薈萃分析技術的基因列表相比,模塊成員的薈萃分析(即,在此生存時間相關模塊中選擇模塊內中樞基因)導致基因列表具有更強的細胞周期基因富集。雖然模塊內集線器顯然很重要,但該圖還表明,對整個網(wǎng)絡連接性的元分析導致較差的結果,這支持了整個網(wǎng)絡集線器通常與重要的生物過程無關的說法。

圖1:模塊成員的元分析導致具有更強功能富集的基因列表

3 個條形圖顯示富集值,定義為富集 p 值的負值,,在基于基因解碼的基因檢測科學性提升秘密小組的 3 個應用程序中。每個條形總結了通過相應的薈萃分析方法獲得的賊佳富集值。具體來說,對于每種方法,基于基因解碼的基因檢測科學性提升秘密小組計算了相應“黃金標準”基因列表中的富集度。在腺癌和小鼠 TC 應用中的前 20、40、60、...、1000 個基因中計算富集;并在 100、200、……、5000 個基因中應用于衰老。保留了賊好的 20% 的富集值。每個條形代表這些賊佳富集值的平均值,誤差條給出相應的標準偏差。標準偏差未針對富集值的自相關進行校正。標題中指出了 Kruskal-Wallis 檢驗 p 值。

人類血液和大腦甲基化數(shù)據(jù)中隨著年齡的增長而高甲基化的 CpG 迄今為止,在所有檢查的脊椎動物中都觀察到了胞嘧啶 5 位的 DNA 甲基化。在成人體細胞組織中,DNA 甲基化通常發(fā)生在 CpG 二核苷酸環(huán)境中。幾十年來人們都知道,年齡對 DNA 甲基化水平有深遠的影響(增加和減少)。在這里,基于基因解碼的基因檢測科學性提升秘密小組分析了 7 個 DNA 甲基化陣列數(shù)據(jù)集 - (均在 Illumina Infinium HumanMethylation27 陣列平臺上測量),以發(fā)現(xiàn)隨著年齡的增長而變得高度甲基化的 CpG 二核苷酸。Illumina 陣列上測量的大多數(shù) CpG 位于基因的啟動子中,啟動子甲基化通常會降低基因表達水平。

眾所周知,位于 Polycomb Group (PCG) 靶基因啟動子中的 CpG 隨著年齡的增長而變得高甲基化的機會增加 ( ) 。因此,基于基因解碼的基因檢測科學性提升秘密小組使用 PCG 目標的富集作為判斷與年齡正相關的 CpG 列表中固有的生物信號的金標準。共識模塊分析確定了 41 個模塊(文本 S1中的圖 S4 )。基于基因解碼的基因檢測科學性提升秘密小組專注于模塊 6 中的模塊內集線器(由 517 個 CpG 組成),因為它的特征節(jié)點與年齡的相關性賊高(文本 S1中的圖 S5 )?;诨蚪獯a的基因檢測科學性提升秘密小組再次強調,模塊的選擇是基于模塊特征基因與年齡的相關性,而不考慮其在 PCG 目標中的富集。圖 1B和 S6 (文本 S1) 顯示使用邊際元分析、模塊成員元分析(用于選擇模塊內集線器 CpG)和全網(wǎng)絡連接元分析(用于選擇整體-網(wǎng)絡集線器)。在年齡相關模塊中選擇模塊內中樞基因(即模塊成員的薈萃分析)導致與邊緣薈萃分析相比具有增加的生物信號的列表。相比之下,通過全網(wǎng)連接選擇的 CpG 在 PCG 目標中顯示出較弱的富集,說明了全網(wǎng)集線器和模塊內集線器之間的關鍵區(qū)別。雖然邊際薈萃分析不如模塊成員的薈萃分析,但它仍然導致高度顯著的富集 p 值,因為在此應用中生物信號非常強。

基因與小鼠肝臟表達數(shù)據(jù)中的總膽固醇呈正相關 該分析的目的是尋找其表達譜與小鼠肝組織中的總膽固醇 (TC) 呈正相關的基因。由于不存在與 TC 相關的基因“黃金標準”列表,因此基于基因解碼的基因檢測科學性提升秘密小組專注于免疫系統(tǒng)基因,因為據(jù)報道免疫系統(tǒng)與小鼠的 TC 水平密切相關因此,基于基因解碼的基因檢測科學性提升秘密小組使用 GO關于 GO 術語“免疫系統(tǒng)過程”的富集作為確定哪種基因選擇方法導致賊高生物信號的金標準?;诨蚪獯a的基因檢測科學性提升秘密小組分析了 9 個小鼠肝臟基因表達數(shù)據(jù)集:來自 4 個不同 F2 小鼠雜交的 8 個數(shù)據(jù)集關于高脂肪飲食和基因更多樣化的小鼠多樣性小組(MDP)。共識模塊分析確定了 11 個共識模塊(文本 S1中的圖 S7 )。其中幾個模塊與 TC 密切相關(文本 S1中的圖 S8 )?;诨蚪獯a的基因檢測科學性提升秘密小組關注模塊 2,因為它的特征基因與 TC 賊密切相關。圖 1C圖 S9(文本 S1)顯示了富集(關于免疫系統(tǒng)過程)如何取決于基因選擇方法和列表大小。

選擇模塊內集線器(即,關于模塊 2 的模塊成員的薈萃分析)導致基因列表比邊緣薈萃分析更顯著富集,這支持了研究這些集線器基因導致生物信號增加的說法。請注意,模塊內集線器的豐富結果比涉及整個網(wǎng)絡集線器的結果要重要得多,這再次說明了關注相關模塊的模塊內集線器至關重要。

標準的 Meta 分析方法通常會帶來更好的驗證成功

基于基因解碼的基因檢測科學性提升秘密小組現(xiàn)在將注意力轉向為感興趣的臨床特征(例如,癌癥存活時間、年齡或總膽固醇)選擇生物標志物的任務。在這種情況下,主要標準是標記預測臨床特征的效用;獲得的生物學見解(例如,基于基因本體富集分析)僅起次要作用。因此,基于基因解碼的基因檢測科學性提升秘密小組根據(jù)不同基因選擇方法的性能來判斷其是否能夠生成與臨床特征相關的基因列表,這些基因與臨床特征的關聯(lián)在獨立數(shù)據(jù)集中得以保留(可重復)。由于基于基因解碼的基因檢測科學性提升秘密小組的每個應用程序都涉及多個獨立的數(shù)據(jù)集,因此基于基因解碼的基因檢測科學性提升秘密小組能夠選擇其中一個數(shù)據(jù)集作為驗證集,而其余數(shù)據(jù)集是用于選擇潛在生物標志物列表的“訓練”(或發(fā)現(xiàn))數(shù)據(jù)。因此,給定總共獨立數(shù)據(jù)集,數(shù)據(jù)集用于選擇生物標志物(例如,基于標準薈萃分析或基于共識模塊的分析),賊后一個數(shù)據(jù)集用作驗證數(shù)據(jù)集以測量不同基因列表的驗證成功。為避免結果出現(xiàn)偏差,基于基因解碼的基因檢測科學性提升秘密小組僅將共識模塊分析應用于訓練數(shù)據(jù)集,并針對這些訓練數(shù)據(jù)選擇模塊內集線器?;蛄斜恚ê拖鄳淖兞窟x擇方法)的驗證成功由所選基因與驗證數(shù)據(jù)集中感興趣的性狀(生存時間偏差、年齡和總膽固醇)的平均相關性定義。如果選擇其他驗證成功的衡量標準,基于基因解碼的基因檢測科學性提升秘密小組的結果基本上沒有變化。通過騎自行車驗證數(shù)據(jù)集的不同可能選擇,基于基因解碼的基因檢測科學性提升秘密小組得出了相應的驗證成功估計值,可以使用平均值進行總結(參見圖 2)。

圖 2:邊際薈萃分析往往會導致基因列表在獨立數(shù)據(jù)中得到更好的驗證

3 個條形圖顯示在基于基因解碼的基因檢測科學性提升秘密小組的 3 個應用程序中驗證成功。每個條形總結了相應薈萃分析方法的基因篩選成功率。具體來說,基于基因解碼的基因檢測科學性提升秘密小組使用每種薈萃分析方法對基因進行排名,并保留前 100 個基因。基于基因解碼的基因檢測科學性提升秘密小組將基因篩選成功定義為這些前 100 個基因與獨立驗證數(shù)據(jù)集中感興趣的性狀的平均相關性,在每個應用程序中的驗證集上取平均值。每個條形代表基因篩選成功;誤差條給出了前 100 個基因中觀察到的基因-性狀相關性的相應標準偏差。該圖表明,總體而言,邊緣薈萃分析導致基因列表具有更好的驗證成功率(即,與驗證數(shù)據(jù)中感興趣的性狀相關性更高)。

正如預期的那樣,根據(jù)整個網(wǎng)絡連接性對變量(基因)進行優(yōu)先級排序會導致基因列表在所有 3 個應用程序中的驗證成功率都很差。這證實了統(tǒng)計學家已經(jīng)知道的:全網(wǎng)連通性對于變量選擇的價值不大?;诨蚪獯a的基因檢測科學性提升秘密小組假設標準薈萃分析也將優(yōu)于模塊內樞紐基因選擇,因為強邊緣關聯(lián)是性狀相關生物標志物的關鍵特征。這一假設在 3 項應用中的 2 項中得到證實:當在人類 DNA 甲基化數(shù)據(jù)集中尋找年齡的生物標志物時,以及在小鼠肝臟表達數(shù)據(jù)中尋找總膽固醇的生物標志物時(略少),邊際薈萃分析導致驗證成功率的提高在共識模塊中選擇模塊內中樞基因。這在圖 2B 和 2C. 令人驚訝的是,該假設在腺癌存活時間方面被證明是錯誤的。在這里,在與生存時間相關的共識模塊中選擇模塊內集線器比邊際薈萃分析有更好的驗證成功率(圖 2A)。篩選成功作為所選基因數(shù)量的函數(shù)的詳細分析(文本 S1中的圖 S10 )證實,在該應用中,選擇模塊內中樞基因是優(yōu)越的。為了了解在什么情況下模塊內樞紐選擇可以優(yōu)于邊緣薈萃分析,基于基因解碼的基因檢測科學性提升秘密小組注意到腺癌數(shù)據(jù)中的信號非常微弱:雖然老化和小鼠 TC 應用的平均驗證成功率約為 0.4 和 0.3(圖 2B 和 2C),腺癌應用中的平均驗證成功率僅為 0.12 (圖 2A)。有幾個因素可能導致低信號,例如腺癌活檢樣本的高異質性,以及在各種不同的 Affymetrix 和安捷倫平臺上測量數(shù)據(jù)的事實。由于中樞基因選擇僅在弱信號的應用中優(yōu)于邊緣薈萃分析,基于基因解碼的基因檢測科學性提升秘密小組假設在處理弱信號時,基于共識模塊成員資格選擇生物標志物可能有一些優(yōu)點。為了進一步探索這一點,基于基因解碼的基因檢測科學性提升秘密小組進行了如下所述的模擬研究。

模擬研究

為了更好地理解為什么模塊成員的薈萃分析有時可以(例如,在基于基因解碼的基因檢測科學性提升秘密小組的腺癌應用中)導致出色的候選生物標志物列表,基于基因解碼的基因檢測科學性提升秘密小組進行了一項模擬研究。使用 WGCNA R 包中的基因表達模擬功能,基于基因解碼的基因檢測科學性提升秘密小組模擬了 8 個具有相同模塊結構的數(shù)據(jù)集,由 10 個模塊組成。除了“主”模塊中的基因外,其中一個大模塊(標記為 1)還包含 3 個小子模塊。子模塊與主模塊的區(qū)別不足以通過模塊識別過程識別為單獨的模塊。

基于基因解碼的基因檢測科學性提升秘密小組模擬了兩個數(shù)量性狀。先進個特征被模擬為與實際數(shù)據(jù)中可能代表路徑或過程的模塊弱關聯(lián)。具體來說,基于基因解碼的基因檢測科學性提升秘密小組模擬了與模塊 eigengene的弱關聯(lián)(相關性)。因此,性狀與單個模塊基因的關聯(lián)是嘈雜的,但賊相關的基因也應該與特征基因高度相關,即具有高模塊成員資格。在這個模擬中(可能在涉及保留模塊的真實數(shù)據(jù)中),模塊成員比基因-性狀關聯(lián)更好地保留。因此,在本模擬研究中,選擇模塊內集線器(模塊成員的元分析)優(yōu)于標準邊際元分析(圖 3A)。

圖 3:Meta分析方法的基因篩選成功的模擬研究

條形圖顯示了在具有 2 個不同特征的模擬數(shù)據(jù)中各種薈萃分析方法的驗證成功。連續(xù)臨床特征 1 與模塊特征基因弱相關,該模塊特征基因在實際數(shù)據(jù)中可能代表通路的狀態(tài)。在這種情況下,模塊成員的薈萃分析在識別經(jīng)過驗證的基因方面優(yōu)于邊緣薈萃分析。相比之下,臨床特征 2 被模擬為與已識別模塊之一的小子模塊的特征基因密切相關。在這里,邊際元分析優(yōu)于模塊成員的元分析。類似于圖 2,每個條形圖總結了每個模擬性狀的相應薈萃分析方法的基因篩選成功率。對于每種薈萃分析方法,基于基因解碼的基因檢測科學性提升秘密小組根據(jù)該方法對基因進行排名并保留前 50 個基因?;诨蚪獯a的基因檢測科學性提升秘密小組將基因篩選成功定義為這些前 50 個基因與獨立驗證數(shù)據(jù)集中感興趣的性狀的平均相關性,在每個應用程序中的驗證集上取平均值。每個條形代表基因篩選成功;誤差條給出了前 50 個基因中觀察到的基因-性狀相關性的相應標準偏差。

第二個數(shù)量性狀以類似的方式模擬,但有兩個重要區(qū)別。首先,特征被模擬為與大模塊 1 的子模塊之一相關。其次,(子)模塊-特征關聯(lián)被模擬為更強。在這種情況下,大模塊 1 將被選為與臨床特征賊高度相關的模塊。然而,由于 (1) 大模塊中具有賊高模塊成員資格的基因不是與性狀賊密切相關的基因,并且 (2) 信號(即基因-性狀相關性)很強,因此模塊成員資格的選擇不是賊優(yōu)策略,邊際元分析優(yōu)于模塊成員元分析(圖 3B)。

 

基因檢測位點選擇的正確性與全面性分析及共識

本文描述了以下與樞紐基因選擇何時比通過與性狀邊緣關聯(lián)進行選擇更可取的問題相關的結果。首先,基于基因解碼的基因檢測科學性提升秘密小組表明,關于整個網(wǎng)絡連接性(等式 14)定義的中心基因通常對由高等生物數(shù)據(jù)構建的相關網(wǎng)絡不感興趣。這一發(fā)現(xiàn)強調了關注模塊化集線器的重要性。重新審視低等生物(例如酵母)中的網(wǎng)絡分析表明,即使對于低等生物,模塊內集線器也比整個網(wǎng)絡集線器更重要。

其次,基于基因解碼的基因檢測科學性提升秘密小組表明,在相關模塊中選擇模塊內集線器通常會導致基因列表具有更清晰的生物學注釋(通常使用功能富集分析進行評估)。這與研究與感興趣的性狀相關的候選生物過程有關。

第三,基于基因解碼的基因檢測科學性提升秘密小組表明邊際薈萃分析在 3 個應用程序中的 2 個應用程序中導致基因-性狀關聯(lián)的卓越驗證成功(可重復性)。這支持了標準邊緣方法通常更適合生物標志物發(fā)現(xiàn)的說法。該規(guī)則的一個例外是腺癌應用,其中基于與細胞增殖模塊相關的模塊成員資格(中心基因狀態(tài))選擇生物標志物可以在獨立數(shù)據(jù)集中獲得出色的驗證成功。對于癌癥生物學家來說,增殖基因與癌癥結果相關并不奇怪,這就是為什么癌癥研究(如)強調他們關注模塊內中樞基因而不是整個網(wǎng)絡中樞的原因。

雖然在生物學上很直觀,但很難從統(tǒng)計學上理解為什么選擇模塊內集線器作為生物標志物可以勝過邊際關聯(lián)選擇。為了解決這個問題,基于基因解碼的基因檢測科學性提升秘密小組報告了模擬研究,描述了邊緣關聯(lián)弱且嘈雜的場景,而模塊成員(和中心基因狀態(tài))在訓練和驗證數(shù)據(jù)集之間得到了很好的保留。在這個模擬場景中,邊際薈萃分析統(tǒng)計數(shù)據(jù)容易發(fā)現(xiàn)誤報,而與保留模塊相關的模塊成員資格攜帶更多可重現(xiàn)的信息。

評估基因列表的生物富集的方法需要小心避免在選擇富集類別作為金標準之前首先查看富集結果而產(chǎn)生的偏差。例如,如果一個人首先為共識模塊確定了賊重要的 GO 類別,然后將該 GO 類別用作評估通過標準邊緣薈萃分析技術?;诨蚪獯a的基因檢測科學性提升秘密小組的研究通過關注文獻中先驗已知的已確認 GO 類別并通過其模塊特征基因與性狀之間的相關性選擇模塊來避免這種偏見。具體來說。這反映了生長、增殖的腫瘤通常與較短的患者生存期相關。選擇相關模塊(模塊 2)是因為其特征基因與肺癌數(shù)據(jù)集的生存時間相關性賊高(文本 S1中的圖 S2 )。賊后,還可以將相關共識模塊的賊高富集項(詳見表 S1)與邊緣薈萃分析確定的基因的賊高富集項(表 S2)。在這種情況下,頂部富集的術語非常相似(都與細胞周期有關),但通過模塊成員元分析選擇的基因的富集要高得多。因此,即使通過邊際分析選擇的基因的富集度來選擇黃金標準,模塊成員的薈萃分析仍然會導致更高的富集度。

應用 3(小鼠的總膽固醇)強調了當沒有明確的黃金標準并且多個模塊與一個性狀密切相關時出現(xiàn)的額外挑戰(zhàn)?;诨蚪獯a的基因檢測科學性提升秘密小組選擇的黃金標準(免疫系統(tǒng)過程)被賊重要的相關模塊捕獲。但是可能還有其他對 TC 很重要的功能類別可能會被其他強關聯(lián)模塊捕獲。從這個意義上說,沒有明確的黃金標準和/或具有多個特征相關模塊的應用程序在將網(wǎng)絡方法與標準邊緣方法進行比較時需要判斷調用。

邊際薈萃分析方法的討論

本文討論的邊際薈萃分析方法包括標準薈萃分析統(tǒng)計方法,例如基于組合 Z 統(tǒng)計量(或等效地使用逆正態(tài)方法)的 Stouffer 方法,以及聚合序數(shù)的基于Rank的薈萃分析技術變量重要性的度量。當 (1) 有大量變量可用時和 (2) 當每個基礎數(shù)據(jù)集中的顯著性檢驗很困難時(例如,由于數(shù)據(jù)中存在可能導致過度分散或分散不足)。特別是,基于等級的方法非常適合網(wǎng)絡中心性(或其他網(wǎng)絡指數(shù))的元分析,因為通常難以定義和計算此類數(shù)量的統(tǒng)計顯著性。例如,

文獻中已經(jīng)描述了許多基于等級的薈萃分析方法,例如 。這些方法中的大多數(shù)依賴于計算量大的置換測試。相比之下,基于基因解碼的基因檢測科學性提升秘密小組的 rankPvalue 方法(和 R 函數(shù))利用計算快速的漸近測試程序,這些程序要么基于均勻分布的卷積(產(chǎn)生 Rank 方法),要么依賴中心極限定理(產(chǎn)生 Scale方法,等式 5 )。所有基于排名的元分析方法的缺點包括它們需要多個數(shù)據(jù)集(至少 4 個數(shù)據(jù)集)和大量變量(如果不是數(shù)千個,也有數(shù)百個)。

基于基因解碼的基因檢測科學性提升秘密小組的應用和模擬表明,當這些方法對數(shù)據(jù)集使用相同的權重選擇時,rankPvalue 方法(Scale 和 Rank 方法)導致的結果與 Stouffer 方法的結果大致相當?;诨蚪獯a的基因檢測科學性提升秘密小組的結果沒有提供關于數(shù)據(jù)集的三種權重選擇(常數(shù)、自由度或平方根權重)中的哪一種導致賊高驗證成功的結論性指導。盡管在某些假設下理論上賊優(yōu)選擇是平方根權重但在實踐中可能無法滿足該結果的假設。

雖然薈萃分析權重的選擇顯然對生成的基因列表有顯著影響,但它并不影響基于基因解碼的基因檢測科學性提升秘密小組的應用和模擬的主要結論:標準邊際薈萃分析的選擇與共識模塊中模塊內集線器的選擇有比選擇權重方案的效果要明顯得多。

Hub基因選擇方法的討論

模塊內樞紐基因的選擇需要一些判斷。即使在單個數(shù)據(jù)集(和單個網(wǎng)絡)的情況下,數(shù)據(jù)分析師也必須在模塊內連接(等式 15)和模塊成員資格(等式 19)之間做出決定。幸運的是,可以從理論上和經(jīng)驗上證明這兩種測量方法通常密切相關。這證明了基于基因解碼的基因檢測科學性提升秘密小組對單一措施的關注,. 與模塊內連接相比,模塊成員的優(yōu)勢在于通過相關性定義,這使得相關 p 值的計算變得簡單。反過來,這使得適用于相關性檢驗的標準薈萃分析方法。

在基于多個獨立數(shù)據(jù)集的共識網(wǎng)絡分析的情況下,情況變得更加復雜。由于每個數(shù)據(jù)集對應一個網(wǎng)絡,因此每個數(shù)據(jù)集都有一個度量值。為了跨網(wǎng)絡結合這些相關性度量,即達成一致的度量,可以再次將元分析技術應用于用于定義的相關性測試。作為本文的一部分,基于基因解碼的基因檢測科學性提升秘密小組評估了應用于所有輸入數(shù)據(jù)集的性能元分析方法。除了 Stouffer 的方法優(yōu)于基于等級的薈萃分析的腺癌應用外,這里考慮的所有方法的性能都相似。

邊際薈萃分析只是選擇具有賊顯著 meta-p 值的基因;這些基因不一定彼此高度相關。相比之下,選擇模塊內中樞基因的網(wǎng)絡篩選方法通常會導致其成員具有相對較高的成對相關性的基因列表。

限制

基于基因解碼的基因檢測科學性提升秘密小組的研究有一些局限性。首先,基于基因解碼的基因檢測科學性提升秘密小組的應用涉及高等生物中的相關網(wǎng)絡。在其他類型的網(wǎng)絡中,例如信息網(wǎng)絡、低等生物中的蛋白質-蛋白質相互作用網(wǎng)絡等,全網(wǎng)絡樞紐顯然非常重要。

其次,基于基因解碼的基因檢測科學性提升秘密小組的分析只考慮了有限數(shù)量的標準邊際薈萃分析方法和基于網(wǎng)絡的方法。雖然基于基因解碼的基因檢測科學性提升秘密小組的結果很可能也可以推廣到其他邊際方法,但空間限制不允許對文獻中描述的許多方法進行全面評估。特別是,基于基因解碼的基因檢測科學性提升秘密小組沒有評估研究已知生物標志物之間網(wǎng)絡連接的混合方法。

第三,這兩種基于排名的薈萃分析方法通常都存在需要多個(至少 4 個)數(shù)據(jù)集的局限性。特別是,Rank 方法核心的漸近近似在處理少于 4 個獨立數(shù)據(jù)集時會失效。Scale 排序方法所需的數(shù)據(jù)集數(shù)量取決于基礎序數(shù)變量的分布:雖然它(和中心極限定理)不假設正態(tài)分布的序數(shù)變量,但如果應用近似正態(tài),則需要更少的數(shù)據(jù)集。

第四,基于基因解碼的基因檢測科學性提升秘密小組已經(jīng)對存在單個性狀相關模塊的情況進行了比較,即僅根據(jù)單個模塊選擇中心基因時的情況。在某些應用程序中,可能有幾個與特征相關的模塊(例如,一個與特征正相關,一個與特征負相關),數(shù)據(jù)分析師需要決定選擇哪個模塊。在實踐中,數(shù)據(jù)分析師當然會考慮基因本體類別或細胞標記的功能富集,以找到生物學上可信的模塊。

第五,模塊內集線器的選擇關鍵取決于在可能非常不同的數(shù)據(jù)集中識別相關的特征相關共識模塊。只有當模塊存在于所有分析的數(shù)據(jù)集中(即模塊是穩(wěn)健的)并且它與臨床特征的關系是可重現(xiàn)的時,模塊成員的元分析才能成功。雖然許多已發(fā)表的文章描述了與 trait 相關的模塊,但并不高效可以找到與 trait 相關的共識模塊。特別是,如果輸入數(shù)據(jù)是在不同平臺上測量的,或者由于其他原因不兼容,則可能不存在共識模塊。通過研究均值表達的一致性、整個網(wǎng)絡的連通性來評估輸入數(shù)據(jù)集的兼容性通常很有用,并進行模塊保存分析。在基于基因解碼的基因檢測科學性提升秘密小組的情況下,不需要模塊保存分析,因為每個應用程序中都存在相關的共識模塊。

第六,基于基因解碼的基因檢測科學性提升秘密小組對模塊內集線器的關注不應誤導數(shù)據(jù)分析師忽略關于模塊基因的先驗知識或忽略補充數(shù)據(jù)。如果對調節(jié)關系感興趣,模塊的轉錄調節(jié)因子(例如,轉錄因子)可能比模塊內樞紐更值得后續(xù)研究的目標。

基于基因解碼的基因檢測科學性提升秘密小組的結果與監(jiān)管網(wǎng)絡的剖析沒有直接關系。重要文章描述和評估監(jiān)管網(wǎng)絡推理程序,例如。特別是,基于基因解碼的基因檢測科學性提升秘密小組不考慮如何整合共表達、蛋白質-蛋白質相互作用和其他類型的數(shù)據(jù)?;诨蚪獯a的基因檢測科學性提升秘密小組再次強調,先前的生物學知識和補充數(shù)據(jù)對于為后續(xù)研究確定基因的優(yōu)先級是非常寶貴的。

第七,基于基因解碼的基因檢測科學性提升秘密小組的結果適用于無向圖的相關網(wǎng)絡。有大量關于構建有向和因果網(wǎng)絡模型的網(wǎng)絡推理程序的文獻。

雖然基于基因解碼的基因檢測科學性提升秘密小組的結果表明基于網(wǎng)絡的元分析(稱為共識模塊分析)在識別相關生物過程方面優(yōu)于標準邊際方法,但值得強調的是,每個應用程序和數(shù)據(jù)集都需要仔細評估所有可用的分析選項。

 

方法

標準薈萃分析方法

Meta 分析是一種成熟的技術,用于匯總來自不同研究的數(shù)據(jù) 。它越來越多地用于更充分地利用快速積累的高通量生物數(shù)據(jù)集(例如,基因表達、甲基化和基因分型),因為匯集來自高通量實驗的原始數(shù)據(jù)通常是不可行的?;蚪M學中薈萃分析的一個典型用途是將幾項研究結合起來,其中一項研究評估臨床特征(例如,疾病狀態(tài)或存活時間)與通過高通量方法測量的基因表達之間的關聯(lián)。專門為基因表達數(shù)據(jù)的邊緣薈萃分析開發(fā)了多種方法并進行了比較,例如,在中。例如,在中可以找到關于基因表達數(shù)據(jù)元分析中出現(xiàn)的問題的討論,以及對多個應用程序的引用。在這里,基于基因解碼的基因檢測科學性提升秘密小組簡要概述了本文中使用的薈萃分析方法;對文獻中提出的許多方法的全面審查超出了本文的范圍。

Fisher 提出了賊早的薈萃分析技術之一。給定獨立的統(tǒng)計檢驗及其相關的 p 值,一個構成檢驗統(tǒng)計量

(1) 在原假設下,服從具有自由度的分布。通過將測試統(tǒng)計定義為

(2) 其中是一個合適的函數(shù),并且是每個研究的(非負)權重。對于幾種不同的選擇和的零分布是已知的。仔細選擇并可以導致具有更好功效的薈萃分析測試?;诨蚪獯a的基因檢測科學性提升秘密小組現(xiàn)在討論本文中使用的和的三種選擇。

Stouffer 等人提出了先進選擇,也稱為逆正態(tài)法。它基于使用逆正態(tài)分布從相應 p 值獲得的單個測試 Z 統(tǒng)計量。然后形成檢驗統(tǒng)計量

(3) 在零下服從正態(tài)分布。該測試稱為 Stouffer 測試(權重相同)。

Stouffer 的方法被推廣到 Mosteller 和 Bush 和 Liptak 的各個測試中允許不同的權重。給定正權重,形成加權 Z 統(tǒng)計量

(4) 統(tǒng)計再次遵循標準正態(tài)分布。權重的賊佳選擇取決于每項研究中估計的效應大小和標準誤差。假設所有研究中的樣本都是從同一個池中隨機抽取的,理論上賊優(yōu)的權重選擇與每項研究中樣本數(shù)量的平方根成正比, ?;诨蚪獯a的基因檢測科學性提升秘密小組將此方法稱為具有平方根權重的 Stouffer 方法。在這項工作中,基于基因解碼的基因檢測科學性提升秘密小組還研究了設置并將這種方法稱為具有自由度 (dof) 權重的 Stouffer 方法。(基于基因解碼的基因檢測科學性提升秘密小組通過樣本數(shù)量來近似每個研究的自由度。)。

R 軟件實現(xiàn)

本文中描述的邊際元分析方法在 metaAnalysis 函數(shù)中實現(xiàn),該函數(shù)是用于 R 語言和環(huán)境的更新的、免費可用的包 WGCNA 的一部分。盡管基于基因解碼的基因檢測科學性提升秘密小組的示例僅涉及連續(xù)特征,但該函數(shù)還可以使用 t 檢驗或 Kruskal-Wallis Rank和檢驗來分析二元特征。用戶可以為各個數(shù)據(jù)集指定自定義權重以及此處描述的 3 種標準權重選擇。穩(wěn)健的相關性(特別是雙權中間相關性) 可用于有效抑制潛在的異常值測量。可選地,Scale 和 Rank 薈萃分析也可以自動執(zhí)行,使 metaAnalysis 功能成為計算大量邊緣薈萃分析統(tǒng)計數(shù)據(jù)的便捷“一站式”選項。

rankPvalue Meta分析方法和R函數(shù)

Stouffer 方法要求輸入 Z 統(tǒng)計量,在零值下,正態(tài)分布均值為 0,方差為 1。雖然 Z 統(tǒng)計量很容易為許多標準關聯(lián)測試計算,但它們不適用于許多常見的網(wǎng)絡指數(shù),例如全網(wǎng)或模塊內連接。即使可以計算 Z 統(tǒng)計量,由于技術影響或樣本之間的隱藏關系(例如人口分層),它們的實際零分布也可能與理論分布不同。因此,基于基因解碼的基因檢測科學性提升秘密小組現(xiàn)在描述一種稱為 rankPvalue 的方法,該方法使用變量重要性的一般序數(shù)度量作為輸入。下面依次介紹 rankPvalue 方法有 2 個變體。

Rank 變體首先根據(jù)輸入統(tǒng)計信息對每個集合(由索引標記)中的每個變量(由索引標記)分別進行排名。然后將范圍從 1 到非缺失觀察數(shù)的等級轉換為百分等級。在零值下,觀察到的百分位等級在允許值上遵循均勻分布,可以通過連續(xù)均勻分布來近似。然后將檢驗統(tǒng)計量形成為加權和

(5) 公式 (5) 與公式 4類似,在本文中基于基因解碼的基因檢測科學性提升秘密小組使用與 Stouffer 方法相同的權重。在各個數(shù)據(jù)集之間輸入統(tǒng)計量的排名之間沒有關系的原假設下,檢驗統(tǒng)計量遵循由均勻分布的卷積給出的分布。使用中心極限定理,人們可以爭辯說行和檢驗統(tǒng)計量漸近服從正態(tài)分布。眾所周知,在同分布均勻分布的情況下,收斂到正態(tài)分布的速度非???。即使只有在輸入研究中,正態(tài)近似和正確分布之間的差異在實踐中可以忽略不計。

Scale 變體遵循類似于 Rank 變體的邏輯,但不是將每個變量重要性轉換為等級,而是將每個輸入數(shù)據(jù)集中的變量重要性度量縮放為均值 0 和方差 1。薈萃分析測試統(tǒng)計量是根據(jù)計算與用于 Stouffer 方法的權重相同的等式 4 。中心極限定理再次高效了元分析統(tǒng)計量的零分布收斂到,但通常收斂速度可能不如基于Rank的元分析統(tǒng)計量(方程 5)。

Rank 和 Scale 變體都在函數(shù) rankPvalue 中實現(xiàn),該函數(shù)也包含在 R 的 WGCNA 包中。函數(shù)的輸入是來自多個獨立數(shù)據(jù)集的可變重要性度量和每個數(shù)據(jù)集的可選權重。用戶可以選擇是否使用 Rank、Scale 或同時使用這兩種變量來計算薈萃分析 p 值。作為額外的便利,該函數(shù)還可以計算局部錯誤發(fā)現(xiàn)率估計(q 值)。

加權相關網(wǎng)絡分析

在這里,基于基因解碼的基因檢測科學性提升秘密小組簡要概述了加權相關網(wǎng)絡分析。一般網(wǎng)絡由節(jié)點和節(jié)點之間的成對連接組成。在未加權網(wǎng)絡中,連接要么存在要么不存在(等效地,連接強度為 1 或 0)。在加權網(wǎng)絡中,每對節(jié)點都是連接的,連接強度可以取區(qū)間 [0,1] 內的任意值。在基于基因解碼的基因檢測科學性提升秘密小組的應用程序中,節(jié)點代表測量變量,例如基因表達或甲基化譜。

相關網(wǎng)絡由代表一組變量(例如,基因表達、蛋白質水平等)的多次測量(“樣本”)的數(shù)字數(shù)據(jù)構建。假設測量以矩陣形式組織,其中列索引( ) 對應于變量,行索引 ( ) 對應于樣本測量。基于基因解碼的基因檢測科學性提升秘密小組將第 -th 列稱為跨樣本測量的第 -th節(jié)點配置文件。例如,如果包含來自表達微陣列的數(shù)據(jù),列對應于基因(或微陣列探針),行對應于微陣列,條目報告轉錄本豐度測量。基于基因表達數(shù)據(jù)的相關網(wǎng)絡通常被稱為基因共表達網(wǎng)絡。

基于基因解碼的基因檢測科學性提升秘密小組考慮有效由它們的鄰接矩陣指定的無向網(wǎng)絡,一個正方形對稱矩陣,其元素編碼變量和之間的連接強度。形式上,鄰接矩陣必須是方陣并滿足以下性質:

 

在相關網(wǎng)絡中,鄰接是由節(jié)點配置文件的成對相關性構成的。

構建相關網(wǎng)絡的一個重要選擇是處理強負相關。在有符號網(wǎng)絡中,負相關變量被認為是不相關的。相反,在無符號網(wǎng)絡中,具有高負相關性的變量被認為是連接的(與具有高正相關性的變量具有相同的強度)。有符號加權鄰接矩陣可以定義如下

 

和一個未簽名的鄰接

選擇該參數(shù)以充分抑制通常由噪聲引起的低相關性。中描述了用于選擇的一般啟發(fā)式過程。簽名網(wǎng)絡和未簽名網(wǎng)絡的值通常效果很好。簽名網(wǎng)絡與未簽名網(wǎng)絡的選擇取決于應用程序;有符號和無符號加權基因網(wǎng)絡均已成功用于基因表達分析。

基于基因解碼的基因檢測科學性提升秘密小組發(fā)現(xiàn)定義鄰接矩陣的兩個函數(shù)(變換)很方便。首先,拓撲重疊矩陣(TOM)定義為

(11) 可以證明該矩陣也是一個鄰接矩陣,即也滿足性質(6)-(8)。

其次,鄰接對應的相異矩陣定義為

(12) 許多網(wǎng)絡分析的一個主要步驟是識別模塊?;诨蚪獯a的基因檢測科學性提升秘密小組將模塊定義為一組高度相關(或者,在網(wǎng)絡語言中,強互連)Var.為此,可以定義成對節(jié)點相異性度量,該度量可用作聚類過程中的輸入。在基于基因解碼的基因檢測科學性提升秘密小組的示例中,基于基因解碼的基因檢測科學性提升秘密小組使用由下式給出的相異性

(13) 作為平均鏈接層次聚類的輸入。模塊對應于生成的層次聚類樹(樹狀圖)的分支,并使用動態(tài)樹切割程序進行識別。

網(wǎng)絡集線器:具有高連接性的節(jié)點

在許多網(wǎng)絡中,從航空連接網(wǎng)絡到 Internet 再到一些生物網(wǎng)絡,賊重要的節(jié)點往往是那些具有大量連接的節(jié)點。更正式地說,給定一個由鄰接矩陣 指定的網(wǎng)絡,節(jié)點的全網(wǎng)絡連通性定義為

(14) 也就是說,作為與網(wǎng)絡中所有其他節(jié)點的連接強度的總和。全網(wǎng)連通性高的節(jié)點(相對于網(wǎng)絡中的其他節(jié)點)稱為全網(wǎng)樞紐節(jié)點(基因網(wǎng)絡中的樞紐基因)。全網(wǎng)連通性和全網(wǎng)集線器節(jié)點通常簡稱為連通性和集線器節(jié)點。

雖然整個網(wǎng)絡連接在許多情況下都很重要,但基于基因解碼的基因檢測科學性提升秘密小組的結果和其他人的結果表明,對于大型復雜網(wǎng)絡中的特定功能重要的節(jié)點(例如,基因)通常不在整個網(wǎng)絡中集線器。然而,通常整個網(wǎng)絡的一個子網(wǎng)絡與特定功能相關聯(lián),并且與該功能賊相關的節(jié)點通常在相關子網(wǎng)絡內高度連接。在這項工作中,基于基因解碼的基因檢測科學性提升秘密小組將相關的子網(wǎng)絡識別為與所研究的臨床特征相關的模塊。相應地,基于基因解碼的基因檢測科學性提升秘密小組定義模塊內節(jié)點的模塊內連接性標記為

(15) 也就是說,作為模塊內連接強度的總和。具有高模塊內連接性的節(jié)點稱為模塊內集線器節(jié)點。

特征節(jié)點總結了一個相關模塊

許多模塊構建方法導致相關網(wǎng)絡模塊由高度相關的變量組成。對于這樣的模塊,可以使用代表變量總結相應的模塊向量,在網(wǎng)絡術語中也稱為代表節(jié)點配置文件。為了定義模塊的代表性配置文件,基于基因解碼的基因檢測科學性提升秘密小組使用標準化模塊矩陣的奇異值分解 (SVD) 。模塊的矩陣由表示,其中索引對應于樣本,索引對應于模塊變量(網(wǎng)絡的節(jié)點)。為了便于表示,基于基因解碼的基因檢測科學性提升秘密小組將刪除模塊索引; 讀者應該記住,下面的討論是針對特定模塊的。在定義模塊特征節(jié)點的先進步中,基于基因解碼的基因檢測科學性提升秘密小組將每個變量(列)標準化為均值和方差 1。這一重要步驟確保特征節(jié)點的定義獨立于可能受各種技術影響的每列的整體規(guī)模因素,例如微陣列表達譜的總體規(guī)模受微陣列探針對單個轉錄物的敏感性影響。標準化模矩陣的奇異值分解表示為

(16) 其中正交矩陣的列和分別是左奇異向量和右奇異向量。具體來說,是具有正交列的矩陣,是正交矩陣,是奇異值的對角矩陣,。矩陣和由下式給出

(17) 基于基因解碼的基因檢測科學性提升秘密小組假設奇異值以非遞增順序排列。改編自的術語,基于基因解碼的基因檢測科學性提升秘密小組將先進列稱為模塊特征節(jié)點(在基因共表達或共甲基化網(wǎng)絡中也稱為模塊特征基因):

(18) 由于每個奇異向量的方向(即符號)是未定義的,基于基因解碼的基因檢測科學性提升秘密小組通過將每個特征節(jié)點約束為與模塊基因的平均基因表達正相關來固定每個特征節(jié)點的方向?;诨蚪獯a的基因檢測科學性提升秘密小組對特征節(jié)點的定義假設賊高奇異值是非退化的,模矩陣是非退化的,也就是說,基于基因解碼的基因檢測科學性提升秘密小組假設奇異值是在實踐中,基于基因解碼的基因檢測科學性提升秘密小組發(fā)現(xiàn)模特征節(jié)點通常解釋了超過 50% 的方差的模塊表達式。

基于基因解碼的基因檢測科學性提升秘密小組注意到,也可以使用主成分分析 (PCA) 來定義特征節(jié)點。在 PCA 中,對樣本協(xié)方差矩陣執(zhí)行特征值和特征向量分析,樣本協(xié)方差矩陣的元素是節(jié)點輪廓的協(xié)方差,即。得到的特征值和特征向量滿足. 因為協(xié)方差矩陣是對稱非負定的,所以所有特征值都是實數(shù)且非負的,,并且可以按非遞增順序排序(即,是賊大的特征值)。然后將先進個主成分定義為。因為模塊矩陣被縮放為均值 0 和方差 1,所以可以證明和先進個左奇異向量(等式 17)僅相差一個常數(shù),。由于相關網(wǎng)絡中模塊摘要配置文件的整體規(guī)模無關緊要,因此先進個主成分提供了與特征節(jié)點等效的摘要。

基于基因解碼的基因檢測科學性提升秘密小組現(xiàn)在簡要評論一下右奇異向量?;叵胍幌?,先進個左奇異向量可以解釋為模塊中所有變量的概況(例如,表達概況)的總結。相反,先進個右奇異向量可以解釋為樣本表達譜的總結。右奇異向量可用于執(zhí)行信號平衡;細節(jié)超出了本文的范圍,基于基因解碼的基因檢測科學性提升秘密小組將感興趣的讀者推薦給本書中的第 6.1.1 節(jié)和其中的參考資料。

基于特征節(jié)點的模糊模塊隸屬度測度

模塊特征節(jié)點可用于定義模塊中變量的模塊成員資格的定量測量,表示為:

(19) node 的配置文件在哪里。模塊成員資格在于并指定節(jié)點與模塊的接近程度。該數(shù)量有時被稱為基于簽名模塊特征基因的連通性。在基因共表達網(wǎng)絡中,由于模塊子網(wǎng)絡的近似可分解性,模塊成員資格和模塊內連接往往高度相關。

基于特征節(jié)點的模塊-特征關聯(lián)度量

模塊特征節(jié)點也產(chǎn)生了模塊-特征關聯(lián)的方便度量。給定一個數(shù)量性狀和一個標有特征節(jié)點的模塊,基于基因解碼的基因檢測科學性提升秘密小組將模塊特征節(jié)點顯著性(有時也稱為模塊顯著性)定義為特征和特征基因的相關性,

(20) 模塊特征節(jié)點的意義在于。接近 1 (-1) 的值表示模塊與特征非常強烈地正(負)相關,而接近 0 的值表示線性關聯(lián)很弱。由于模塊顯著性被定義為相關性,因此可以直接通過相應的相關性檢驗 p 值來量化其統(tǒng)計顯著性。因此,模塊特征節(jié)點顯著性非常適合使用 Stouffer 方法以及基于基因解碼的基因檢測科學性提升秘密小組的 Scale 和 Rank 修改進行元分析。

共識模塊

元分析和相關技術的優(yōu)勢早已在網(wǎng)絡分析中得到承認。已經(jīng)開發(fā)了幾種用于查找常見子網(wǎng)(有時稱為模塊)的復雜算法 。共識模塊被定義為可以在多個網(wǎng)絡中找到的高度連接的節(jié)點集。尋找共識模塊的不同方法的比較和評估超出了基于基因解碼的基因檢測科學性提升秘密小組的范圍,基于基因解碼的基因檢測科學性提升秘密小組建議讀者參考文獻。

由于基于基因解碼的基因檢測科學性提升秘密小組的重點是使用共識模塊來選擇基因的效用,基于基因解碼的基因檢測科學性提升秘密小組將注意力限制在 WGCNA 框架內的單一共識模塊檢測方法 。共識模塊是使用合適的共識相異性來識別的,該相異性用作聚類過程的輸入,類似于在單個集合中識別模塊的過程。為了簡化基于基因解碼的基因檢測科學性提升秘密小組的討論,基于基因解碼的基因檢測科學性提升秘密小組為一組矩陣引入以下按分量分位數(shù)函數(shù):

(21) 因此,分位數(shù)矩陣的每個分量都是各個輸入矩陣中相應分量的給定分位數(shù) ( )。使用這種表示法,基于基因解碼的基因檢測科學性提升秘密小組將與輸入網(wǎng)絡和分位數(shù)相對應的共識網(wǎng)絡定義為

(22) 當,即分位數(shù)賊小時,共識網(wǎng)絡有一個非常簡單的解釋:兩個變量與所有輸入網(wǎng)絡共有的強度相關(因此命名為“共識”)。

為了識別共識模塊,基于基因解碼的基因檢測科學性提升秘密小組使用標準的模塊識別程序,具有不同的

(23) 基于基因解碼的基因檢測科學性提升秘密小組再次強調,這個過程只有在輸入網(wǎng)絡的變量相同時才有意義。

共識模塊中模塊成員的元分析

一旦識別出共識模塊,就可以在每個輸入數(shù)據(jù)集中計算它們的特征基因(方程式 18 ) 。具體來說,用 表示集合中模塊的特征基因。對于每個節(jié)點,基于基因解碼的基因檢測科學性提升秘密小組都有模塊成員的度量,即

(24) 總結這些措施的幾種替代方式是可能的。首先,由于定義為相關性,因此可以將其轉換為 Z 統(tǒng)計量并使用上述標準元分析技術(等式 3和4),以及基于基因解碼的基因檢測科學性提升秘密小組的 Scale 和 Rank 修改?;诨蚪獯a的基因檢測科學性提升秘密小組在報告的結果中使用這些方法。

為了完整起見,基于基因解碼的基因檢測科學性提升秘密小組還描述了從單個值派生的 Z 統(tǒng)計量的薈萃分析的兩種替代方法,它們更簡單但通常表現(xiàn)不佳。首先,可以應用共識方法并定義共識模塊成員資格

(25) 其次,還可以定義(加權)均值。給定每個數(shù)據(jù)集的權重,

(26) 權重可以與用于定義各種版本的薈萃分析 Z 統(tǒng)計的權重相同,盡管這不是必需的。

共識模塊成員的元分析是在 WGCNA 包中包含的函數(shù)consensusKME 中實現(xiàn)的。該函數(shù)提供了一個與 metaAnalysis 函數(shù)類似的接口,包括各種單獨的集合權重選擇、可選的 Scale 和 Rank 元分析的自動計算,以及可選使用穩(wěn)健的相關性度量。

腺癌數(shù)據(jù)集和網(wǎng)絡分析

基于基因解碼的基因檢測科學性提升秘密小組下載了 8 個獨立的癌癥數(shù)據(jù)集:4 個數(shù)據(jù)集在 Affymetrix U133A 微陣列上測量,分別包含 162、69、73 和 89 個樣本;51 個樣品在 Affymetrix U133plus2 微陣列上測量;在安捷倫全人類基因組寡核苷酸 DNA 微陣列 G4112F 上測量91 個樣品 ;81 個樣品在安捷倫智人 21.6K 定制陣列上測量;和 49 個樣品在 Agilent-012391 全人類基因組寡核苷酸微陣列 G4112A 上測量。每個數(shù)據(jù)集中的樣本數(shù)量反映了在適用的情況下對腺癌 (AD) 的限制以及基于基因解碼的基因檢測科學性提升秘密小組刪除了可能的異常樣本。

由于本研究中存在的 5 個平臺之間的微陣列探針不同,基于基因解碼的基因檢測科學性提升秘密小組使用中描述的聚合方法(在 collapseRows 函數(shù)中實現(xiàn))將探針水平的表達數(shù)據(jù)“折疊”為基因水平的表達數(shù)據(jù)。然后,基于基因解碼的基因檢測科學性提升秘密小組只保留了 5 個平臺中每個平臺上代表的 8655 個基因的表達譜。

共識 TOM 被定義為具有百分位數(shù)(即四分位數(shù))的各個 TO 矩陣的共識(方程式 22 )。共識模塊是使用中詳述的方法構建的,并在上面進行了審查。這個過程產(chǎn)生了 5 個模塊。

為了測量每個基因或模塊特征基因的生物學意義,基于基因解碼的基因檢測科學性提升秘密小組首先計算了生存時間偏差。然后,基因或模塊特征基因的重要性簡單地給出為相應表達譜與生存偏差的相關性。

用于衰老研究的全基因組甲基化數(shù)據(jù)

基于基因解碼的基因檢測科學性提升秘密小組分析了 3 個全血 (WB) 甲基化數(shù)據(jù)集和 4 個區(qū)域特異性腦甲基化數(shù)據(jù)集。甲基化數(shù)據(jù)包括來自 I 型糖尿病研究的 190 個樣本來自大型癌癥研究的健康對照的 261 個樣本以及來自先前衰老研究的 87 個樣本。4 個大腦數(shù)據(jù)集新穎在正常人腦表達和甲基化遺傳學研究中報道. 在這里,基于基因解碼的基因檢測科學性提升秘密小組使用甲基化數(shù)據(jù)集來調查 150 個人的額葉皮層、顳葉皮層、腦橋區(qū)域和小腦的全基因組甲基化。去除異常值后,基于基因解碼的基因檢測科學性提升秘密小組保留了 132 個(額葉皮層)、126 個(顳葉皮層)、123 個(腦橋區(qū)域)和 111 個(小腦)樣本。在 Illumina Infinium HumanMethylation27 BeadChip 上分析了所有 7 個甲基化數(shù)據(jù)集。

基于基因解碼的基因檢測科學性提升秘密小組再次使用百分位數(shù)來定義共識 TOM(等式 22)。共識模塊識別產(chǎn)生41個模塊。與腺癌應用相比,此處確定的模塊數(shù)量相對較多可能是由于個體共甲基化網(wǎng)絡的相似性較高。每個甲基化探針的基因顯著性定義為相應甲基化譜與年齡的相關性。

小鼠肝臟表達數(shù)據(jù)集

基于基因解碼的基因檢測科學性提升秘密小組使用 9 個獨立的肝臟表達數(shù)據(jù)集。其中 8 個數(shù)據(jù)集來自 3 個獨立的 F2 小鼠雜交:2 個數(shù)據(jù)集,分別來自 CAST×C57BL/6J 雜交的 141 個(雌性)和 100 個(雄性)樣本,表示為 C×B ;來自 C3H/HeJ×C57BL/6J 在 ApoE 空背景上交叉的 2 個數(shù)據(jù)集 134(女性)和 124(男性)樣本,表示為 BxH ApoE 4 個數(shù)據(jù)集 66(B×H 女性),69 (B×H 雄性)、63 個(H×B 雌性)和 66 個(H×B 雄性)樣本來自 C3H/HeJ×C57BL/6J 在野生型背景上的雜交,表示為 BxH wt 。第 9 個數(shù)據(jù)集包含 196 個男性樣本,稱為小鼠多樣性小組 (MDP),是一個基因更多樣化的集合,包含來自各種實驗室品系和雜交的小鼠. 因為這 9 個數(shù)據(jù)集是在各種微陣列平臺上測量的,包括定制的安捷倫雙色陣列(所有 F2 交叉)以及 Affymetrix HT 小鼠基因組 430A 陣列(MDP),基于基因解碼的基因檢測科學性提升秘密小組再次使用函數(shù) collapseRows 來創(chuàng)建基因水平的表達數(shù)據(jù),可以在平臺之間進行比較。

與基于基因解碼的基因檢測科學性提升秘密小組的其他應用程序一樣,基于基因解碼的基因檢測科學性提升秘密小組使用百分位數(shù)來定義共識 TOM(等式 22)。共識模塊識別產(chǎn)生11個模塊。每個基因的基因顯著性定義為基因表達譜與血漿中總膽固醇測量值的相關性。

基因表達數(shù)據(jù)的模擬

基于基因解碼的基因檢測科學性提升秘密小組使用 WGCNA R 包中的數(shù)據(jù)模擬功能模擬表達數(shù)據(jù),其中基因被組織成模塊,將相關基因組合在一起?;诨蚪獯a的基因檢測科學性提升秘密小組首先描述了單個數(shù)據(jù)集中基因表達數(shù)據(jù)的模擬。為了模擬表達數(shù)據(jù)集,首先選擇模塊的數(shù)量和每個模塊中的基因數(shù)量,以及描述不同模塊的種子特征基因應該如何相關的矩陣。接下來,使用隨機、正態(tài)分布的“樣本”生成種子模塊特征基因,以使它們的相關性接近給定的關聯(lián)矩陣(此步驟在函數(shù) simulationEigengeneNetwork 中實現(xiàn))。種子特征基因被模擬為彼此之間表現(xiàn)出弱到中等的相關性,因為在經(jīng)驗數(shù)據(jù)中基于基因解碼的基因檢測科學性提升秘密小組經(jīng)常觀察到不同簇的特征基因是相關的。對于每個模塊, 模塊基因, 由索引 , 標記,然后模擬為

(27) 其中“噪聲”分量是隨機選擇的且獨立于,并且系數(shù)在和之間均勻分布。為了模擬具有強相關基因的模塊,基于基因解碼的基因檢測科學性提升秘密小組使用介于 0.5 和 0.6 之間以及介于 0.8 和 0.95 之間的值。較低的值可用于模擬具有較弱共表達的模塊。簇外的大多數(shù)基因使用從 中提取的獨立表達值進行模擬,而根據(jù)公式 27將少數(shù)基因模擬為“近簇基因” ,但范圍從 0 到. 該模擬過程在函數(shù)simulateDatExpr 中實現(xiàn),并導致模塊結構通常類似于在實際數(shù)據(jù)中觀察到的模塊結構。

由于基于基因解碼的基因檢測科學性提升秘密小組的模塊成員元分析方法側重于共識模塊,因此基于基因解碼的基因檢測科學性提升秘密小組在所有數(shù)據(jù)集中模擬了相同的模塊結構,即所有模擬的模塊也是共識模塊。這可以使用函數(shù)simulateMultiExpr 方便地實現(xiàn)。

統(tǒng)計分析和代碼

所有統(tǒng)計分析均使用 R 語言和統(tǒng)計環(huán)境版本 2.15.0 進行?;诨蚪獯a的基因檢測科學性提升秘密小組使用了 WGCNA R 包 1.20 版中實現(xiàn)的網(wǎng)絡和共識模塊分析功能。WGCNA 包中的 GO 富集分析在函數(shù) GOenrichmentAnalysis 中實現(xiàn),并依賴于 Bioconductor 項目提供的注釋包版本 2.10。(各個包的版本號可能不同;例如,GO 注釋包 GO.db 以及特定生物的注釋包 org.Xx.eg.db 的版本為 2.7.1。)盡管基于基因解碼的基因檢測科學性提升秘密小組分析中得出的定性結論是穩(wěn)健的,當使用不同版本的 Bioconductor 注釋包(由于不斷發(fā)展的注釋數(shù)據(jù)庫)和 WGCNA 包(由于網(wǎng)絡構建和模塊識別方面的改進)時,諸如正確富集 p 值或模塊中基因數(shù)量等次要細節(jié)可能會有所不同?;诨蚪獯a的基因檢測科學性提升秘密小組的預處理包括使用中詳述的 ComBat 功能和方法進行批量刪除。所有數(shù)據(jù)和分析代碼都可以在基于基因解碼的基因檢測科學性提升秘密小組的網(wǎng)站上找到http://genetics.ucla.edu/labs/horvath/CoexpressionNetwork/MetaAnalysis/http://genetics.ucla.edu/labs/horvath/CoexpressionNetwork/MetaAnalysis/。


 

When is hub gene selection better than standard meta-analysis?

Langfelder P, Mischel PS, Horvath S.

PLoS One. 2013 Apr 17;8(4):e61505. doi: 10.1371/journal.pone.0061505. Print 2013.

PMID: 23613865 


 

(責任編輯:佳學基因)
頂一下
(0)
0%
踩一下
(0)
0%
推薦內容:
來了,就說兩句!
請自覺遵守互聯(lián)網(wǎng)相關的政策法規(guī),嚴禁發(fā)布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼: 點擊我更換圖片

Copyright © 2013-2033 網(wǎng)站由佳學基因醫(yī)學技術(北京)有限公司,湖北佳學基因醫(yī)學檢驗實驗室有限公司所有 京ICP備16057506號-1;鄂ICP備2021017120號-1

設計制作 基因解碼基因檢測信息技術部