佳學(xué)基因遺傳病基因檢測(cè)機(jī)構(gòu)排名,三甲醫(yī)院的選擇

基因檢測(cè)就找佳學(xué)基因!

熱門(mén)搜索
  • 癲癇
  • 精神分裂癥
  • 魚(yú)鱗病
  • 白癜風(fēng)
  • 唇腭裂
  • 多指并指
  • 特發(fā)性震顫
  • 白化病
  • 色素失禁癥
  • 狐臭
  • 斜視
  • 視網(wǎng)膜色素變性
  • 脊髓小腦萎縮
  • 軟骨發(fā)育不全
  • 血友病

客服電話

4001601189

在線咨詢

CONSULTATION

一鍵分享

CLICK SHARING

返回頂部

BACK TO TOP

分享基因科技,實(shí)現(xiàn)人人健康!
×
查病因,阻遺傳,哪里干?佳學(xué)基因準(zhǔn)確有效服務(wù)好! 靶向用藥怎么搞,佳學(xué)基因測(cè)基因,優(yōu)化療效 風(fēng)險(xiǎn)基因哪里測(cè),佳學(xué)基因
當(dāng)前位置:????致電4001601189! > 關(guān)于佳學(xué) > 技術(shù)優(yōu)勢(shì) >

【佳學(xué)基因檢測(cè)】如何在基因檢測(cè)后提高基因集富集分析的能力?

【佳學(xué)基因檢測(cè)】如何在基因檢測(cè)后提高基因集富集分析的能力?集富集分析已成為生物信息學(xué)和生物統(tǒng)計(jì)學(xué)工具包的重要組成部分。此類(lèi)分析可以深入了解不同分子或臨床定義表型的基本生物學(xué)過(guò)程 。假設(shè)有一個(gè)可用的數(shù)據(jù)集,其中測(cè)量了 N 個(gè)實(shí)例(樣本)的 p 個(gè)屬性(例如蛋白質(zhì)豐度、基因表達(dá)),每個(gè)實(shí)例都具有相關(guān)的連續(xù)或分類(lèi)表型。集合富集不是進(jìn)行 p 單變量分析來(lái)評(píng)

佳學(xué)基因檢測(cè)】如何在基因檢測(cè)后提高基因集富集分析的能力?


腫瘤基因檢測(cè)與靶向藥物選擇導(dǎo)讀:

背景

集合富集方法通常用于分析高維分子數(shù)據(jù)并獲得對(duì)分子或臨床表型的生物學(xué)洞察力。一類(lèi)重要的分析方法采用富集分?jǐn)?shù),它是根據(jù)表型和每個(gè)分子屬性之間的排名單變量相關(guān)性創(chuàng)建的。通過(guò)從表型排列產(chǎn)生的零分布確定關(guān)聯(lián)的重要性的估計(jì)?;驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)研究了這種方法的一些統(tǒng)計(jì)特性,并展示了如何使用富集的替代評(píng)估來(lái)增加此類(lèi)分析的統(tǒng)計(jì)能力,以檢測(cè)表型與生物過(guò)程和途徑之間的關(guān)聯(lián)。

結(jié)果

對(duì)于這類(lèi)集合富集分析,零分布在很大程度上獨(dú)立于具有可用分子數(shù)據(jù)的樣本數(shù)量。因此,如果樣本隊(duì)列不太小,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明通過(guò)將隊(duì)列分成兩半并使用對(duì)每一半評(píng)估的富集分?jǐn)?shù)的平均值作為替代,可以增加識(shí)別生物過(guò)程和表型之間關(guān)聯(lián)的統(tǒng)計(jì)能力檢驗(yàn)統(tǒng)計(jì)量。此外,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)證明,可以通過(guò)將隊(duì)列的多個(gè)隨機(jī)分成兩半來(lái)平均來(lái)擴(kuò)展這一原則。這使得可以計(jì)算任意精度的富集統(tǒng)計(jì)和相關(guān)的p值,而與使用的確切隨機(jī)拆分無(wú)關(guān)。

結(jié)論

有可能增加基因集富集分析的統(tǒng)計(jì)能力,該分析采用從單變量表型屬性相關(guān)性和表型排列生成空分布的運(yùn)行總和創(chuàng)建的富集分?jǐn)?shù)。這種增加可以通過(guò)使用替代測(cè)試統(tǒng)計(jì)來(lái)實(shí)現(xiàn),該統(tǒng)計(jì)為數(shù)據(jù)集的拆分計(jì)算平均富集分?jǐn)?shù)。除了基因集中上調(diào)和下調(diào)基因之間的密切平衡的特殊情況外,通過(guò)這種方法可以提高或至少保持統(tǒng)計(jì)能力,直至小樣本量,其中正確評(píng)估單變量表型基因相關(guān)性變得不可行。

關(guān)鍵詞: 富集分析,基因集富集分析,統(tǒng)計(jì)功效

 

背景

集富集分析已成為生物信息學(xué)和生物統(tǒng)計(jì)學(xué)工具包的重要組成部分。此類(lèi)分析可以深入了解不同分子或臨床定義表型的基本生物學(xué)過(guò)程 。假設(shè)有一個(gè)可用的數(shù)據(jù)集,其中測(cè)量了 N 個(gè)實(shí)例(樣本)的 p 個(gè)屬性(例如蛋白質(zhì)豐度、基因表達(dá)),每個(gè)實(shí)例都具有相關(guān)的連續(xù)或分類(lèi)表型。集合富集不是進(jìn)行 p 單變量分析來(lái)評(píng)估 N 個(gè)實(shí)例中每個(gè)單獨(dú)屬性與表型之間的相關(guān)性,而是試圖確定 p 屬性子集中與余??梢赃x擇包含與感興趣的特定生物過(guò)程或途徑相關(guān)的屬性的屬性子集。

集合富集分析有許多化身,主要區(qū)別在于用于評(píng)估富集的方法及其意義。在 Ackermann 等人中可以找到多種方法的概述和比較。。一類(lèi)集合富集分析方法使用富集分?jǐn)?shù) (ES) 來(lái)捕獲屬性子集與其補(bǔ)集之間的個(gè)體屬性-表型相關(guān)性的差異。一種常用的富集評(píng)分方法,基因集富集分析 (GSEA) ,對(duì)屬性和表型之間的單變量相關(guān)性進(jìn)行排序,并根據(jù)從有序等級(jí)構(gòu)建的運(yùn)行總和的極值定義富集分?jǐn)?shù)。屬性子集(基因集)和由富集分?jǐn)?shù)捕獲的表型之間關(guān)聯(lián)的統(tǒng)計(jì)顯著性是基于通過(guò)排列表型標(biāo)簽生成的 ES 的空分布來(lái)確定的。

諸如 GSEA 之類(lèi)的分析檢測(cè)與特定屬性子集的關(guān)聯(lián)的能力取決于:i.測(cè)量的屬性數(shù)量;ii. 屬性子集中的屬性數(shù)量以及它們之間的相關(guān)性;iii. 可獲得數(shù)據(jù)的樣本數(shù)量;和四。用于評(píng)估單變量屬性-表型相關(guān)性的指標(biāo)。已經(jīng)進(jìn)行了大量研究以更好地了解GSEA的局限性以及上述因素如何影響其敏感性和統(tǒng)計(jì)能力(例如,)。在本文中,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)探討了 GSEA 方法的統(tǒng)計(jì)能力對(duì)具有可用分子數(shù)據(jù)的隊(duì)列中的樣本數(shù)量的依賴性?;驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明,雖然 ES 的分布隨著 N 的增加而變窄,但表型排列產(chǎn)生的零分布卻沒(méi)有。因此,增加隊(duì)列中的樣本數(shù)量并不會(huì)帶來(lái)與在其他設(shè)置中通常觀察到的 N 相同的統(tǒng)計(jì)功效增加。作為推論,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明,只要隊(duì)列足夠大,將隊(duì)列分成兩個(gè)不同的部分,并使用每個(gè)部分的 ES 平均值作為替代統(tǒng)計(jì)量,比使用定義的傳統(tǒng) ES 提供更大的檢測(cè)關(guān)聯(lián)的能力使用整個(gè)隊(duì)列。這種方法產(chǎn)生一個(gè)富集統(tǒng)計(jì),因此富集p值,這取決于隊(duì)列分成兩部分的具體情況。這種潛在的劣勢(shì)可以通過(guò)隨機(jī)選擇多個(gè)隊(duì)列拆分并對(duì)這些拆分以及特定拆分中的一半的 ES 進(jìn)行平均來(lái)緩解?;驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)表明,這種技術(shù)可以產(chǎn)生所需的精度水平(在富集分?jǐn)?shù)指標(biāo)和p值中),而與群組的拆分方式無(wú)關(guān)。

 

結(jié)果

乳腺癌患者的 mRNA 表達(dá)數(shù)據(jù)

本節(jié)使用一個(gè)公開(kāi)可用的數(shù)據(jù)集,測(cè)量從乳腺癌患者收集的組織樣本中獲得的 13,018 個(gè)基因的表達(dá)。該隊(duì)列已得到充分研究 ,并且是開(kāi)發(fā)一項(xiàng)測(cè)試的基礎(chǔ),該測(cè)試將患者在乳腺癌手術(shù)后分為良好或不良結(jié)果組 。測(cè)試分類(lèi)(“好”或“差”)可作為數(shù)據(jù)集的一部分使用,并用作二元表型。這些數(shù)據(jù)來(lái)自 Venet 等人提供的補(bǔ)充材料。。使用的屬性子集(這里是基因集)是 Hallmarks 基因集(一組 50 個(gè)基因集) 可從 Broad Institute GSEA 網(wǎng)站獲得(參見(jiàn)方法)。選擇了兩個(gè)特定基因集 HALLMARK_MYC_TARGETS_V1 和 HALLMARK_ALLOGRAFT_REJECTION 作為標(biāo)志基因集中過(guò)程的示例,這些基因集與以 GSEA p值約為 0.05 為特征的乳腺癌隊(duì)列中的表型相關(guān)(對(duì)于 MYC_TARGETS_V1 和p = 0.0684,p =  0.0172 和p  = 0.0684)對(duì)于 ALLOGRAFT_REJECTION)。兩個(gè)基因組的標(biāo)準(zhǔn) ES 的零分布顯示在富集分析中使用的不同數(shù)量的樣本 N 中,在圖 3 中以藍(lán)色顯示。 1ab。每個(gè)條帶的寬度反映了在創(chuàng)建的 1000 個(gè)子集實(shí)現(xiàn)中每個(gè)直方圖箱中的零分布的標(biāo)準(zhǔn)誤差(從整個(gè)隊(duì)列中隨機(jī)選擇 N 個(gè)樣本,按表型分層)。很明顯,隨著 N 的增加,零分布基本上保持不變。請(qǐng)注意,這與典型統(tǒng)計(jì)的原型、教科書(shū)案例形成對(duì)比,例如學(xué)生的 t 統(tǒng)計(jì),其中零分布隨著 N 的增加而變窄。樣本數(shù)量在確定 ES 的零分布寬度方面并不起典型作用。其他因素,例如測(cè)量的屬性數(shù)量和基因集中的屬性數(shù)量,對(duì)于確定空分布的形狀更為重要。

圖1:N = 20、40、60、80、100 和 200 的 ES 和 ES avg 的空分布。a HALLMARKS_MYC_TARGETS_V1,b HALLMARKS_ALLOGRAFT_REJECTION。ES 的分布以藍(lán)色顯示,ES avg的分布以紅色顯示

對(duì)于相同的基因組,ES 的采樣分布,對(duì)于從 294 個(gè)樣本的研究隊(duì)列中抽取的 N 個(gè)樣本的子集,隨著 N 的增加而變窄(圖 3 的下圖)。 2B)。對(duì)于賊低 N,分布保留了零分布的雙峰特征的痕跡。隨著 N 的增加,分布變得單峰,然后進(jìn)一步變窄。請(qǐng)注意,由于采樣是在僅 294 個(gè)樣本的總體中執(zhí)行的,因此采樣實(shí)現(xiàn)之間會(huì)有相關(guān)性,尤其是對(duì)于較大的 N。

圖 2:N  = 20、40、60、80、100 和 200的ES 和 ES平均抽樣分布。a HALLMARKS_MYC_TARGETS_V1,b HALLMARKS_ALLOGRAFT_REJECTION

結(jié)果如圖所示。 1和???2

2這意味著檢測(cè)特定屬性子集和表型之間關(guān)聯(lián)的能力將隨著 N 增加。然而,它不會(huì)像一些更簡(jiǎn)單的統(tǒng)計(jì)數(shù)據(jù)那樣迅速發(fā)生,因?yàn)楸M管與備擇假設(shè)相關(guān)的分布隨著 N 而變窄,但零假設(shè)沒(méi)有。

基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)現(xiàn)在考慮將測(cè)試統(tǒng)計(jì)量從使用 N 個(gè)樣本計(jì)算的標(biāo)準(zhǔn) ES 更改為兩個(gè) ES1 和 ES2 的平均值的影響,每個(gè) ES 計(jì)算將 N 個(gè)樣本拆分為 N/2 個(gè)樣本的兩個(gè)不同子集,即ES平均值 = 0.5 (ES1 + ES2)。數(shù)字 1ab 比較了 ES avg(紅色)和 ES(藍(lán)色)的零分布,對(duì)于兩個(gè)示例基因組的各種 N 值。(請(qǐng)注意,ES avg的零分布是三峰的,而不是雙峰的。對(duì)于表型分類(lèi)的排列,ES1 和 ES2 同樣可能是正數(shù)或負(fù)數(shù),因此 ES avg接近 0 的可能性不大。) 圖 2ab 對(duì) ES avg(上圖)和 ES(下圖)的采樣分布顯示相同。對(duì)于所有研究的 N,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)觀察到 ES avg的零分布比 ES 的更窄。這是相對(duì)獨(dú)立于 N 的零分布的結(jié)果:ES 的零分布對(duì)于 N 和 N/2 是相似的。因此,ES1 和 ES2 的零分布(針對(duì) N/2 個(gè)樣本計(jì)算)與 ES 的相似。由于 ES avg是 ES1 和 ES2 的平均值,對(duì)于 N/2 個(gè)樣本,它的零分布將比 ES(類(lèi)似 ES1 和 ES2)窄,因此比 N 個(gè)樣本的 ES 窄。對(duì)于小 N,ES avg的采樣分布可能比 ES 更寬。當(dāng) N 非常小以至于無(wú)法以足夠的正確度評(píng)估表型-個(gè)體基因相關(guān)性以產(chǎn)生單峰 ES平均抽樣分布時(shí),就會(huì)發(fā)生這種情況,即使基因集和表型之間存在真正的群體關(guān)聯(lián)。當(dāng)基因集和表型之間沒(méi)有種群關(guān)聯(lián)時(shí),較大的 N 可能會(huì)發(fā)生這種情況。然而,當(dāng)基因集和表型之間存在真正的群體關(guān)聯(lián)時(shí),對(duì)于較大的 N,ES avg的抽樣分布N 個(gè)樣本的位置和寬度與 ES 相似。在這些情況下,如 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 所示,盡管 ES1 和 ES2 的采樣分布比 ES 的更寬,但由于樣本量減半,這可以通過(guò)將 ES1 和 ES2 平均化為新統(tǒng)計(jì),ES avg。

因此,使用 ES avg作為檢驗(yàn)統(tǒng)計(jì)量增加了檢測(cè)表型與特定基因組關(guān)聯(lián)的能力,而不是使用 ES 獲得的關(guān)聯(lián),只要 N 不太小并且存在有意義的群體關(guān)聯(lián)。數(shù)字 3顯示 ES 和 ES avg之間的統(tǒng)計(jì)功效差異作為檢驗(yàn)統(tǒng)計(jì)量,以檢測(cè)兩個(gè)示例基因集和表型之間的關(guān)聯(lián)。結(jié)果顯示為 294 名患者隊(duì)列的子集大小 N 的函數(shù)。即使對(duì)于 40 個(gè)樣本(24 個(gè)“差”和 16 個(gè)“好”表型),使用 ES avg作為統(tǒng)計(jì)數(shù)據(jù)也可以提高檢測(cè)關(guān)聯(lián)的能力。對(duì)于 20 個(gè)樣本,ES avg的功率在數(shù)值上小于ES,盡管這兩種方法都提供了賊小的功率(小于 30%)。受益于 ES avg的確切樣本量超過(guò) ES 停止將取決于關(guān)聯(lián)的大小。對(duì)于非常小的樣本量,除了表型和個(gè)體基因表達(dá)之間非常強(qiáng)的單變量相關(guān)性之外,不可能以任何正確度評(píng)估任何東西。在這種情況下,使用標(biāo)準(zhǔn) ES 測(cè)試統(tǒng)計(jì)量檢測(cè)基因組與表型關(guān)聯(lián)的能力已經(jīng)受到嚴(yán)重影響。如果將數(shù)據(jù)集分成兩半,這種情況會(huì)更加嚴(yán)重。然后,ES avg的功效不會(huì)比 ES 有所提高,但使用任一檢驗(yàn)統(tǒng)計(jì)量的統(tǒng)計(jì)功效都會(huì)很低。

圖 3

檢測(cè)表型與 HALLMARKS_MYC_TARGETS_V1(藍(lán)色)和 HALLMARKS_ALLOGRAFT_REJECTION(紅色)與 α = 0.05 的關(guān)聯(lián)的能力。對(duì)于 ES(虛線)和 ES avg(實(shí)線) ,功率顯示為 N 的函數(shù)

使用統(tǒng)計(jì) ES avg的一個(gè)缺點(diǎn)是它不是為一個(gè)群組少有定義的,并且取決于將群組分成兩部分的方式??梢酝ㄟ^(guò)多次(M)次將隊(duì)列隨機(jī)分成兩個(gè)不同的部分并將測(cè)試統(tǒng)計(jì)定義為 M 多次拆分的 ES avg的平均值來(lái)減少這種可變性,即 

<

ES

平均

> =

分裂

ES

平均

M

. 可以通過(guò)對(duì) <ES avg >平均的所有拆分應(yīng)用相同的表型標(biāo)簽排列來(lái)生成適當(dāng)?shù)牧惴植?。?shù)字 4顯示了為 MYC_TARGETS_V1 基因組的 294 名患者隊(duì)列中抽取的N = 200的一個(gè)子集生成的零分布 ,該基因集用于沒(méi)有分裂 (ES)、一個(gè)分裂 (ES avg )、兩個(gè)分裂和 25 個(gè)分裂的子集的測(cè)試統(tǒng)計(jì). 隨著平均分裂數(shù)增加到 1 以上,分布失去其多峰結(jié)構(gòu)但保持相同的總寬度。

圖 4

ES 和 <ES avg > 的空分布。<ES avg > 的空分布 顯示為一個(gè)拆分(ES avg  = <ES avg >)、兩個(gè)拆分和 25 個(gè)拆分。所有分布均針對(duì)從 294 名患者隊(duì)列中抽取的 200 個(gè)樣本中的一個(gè)子集生成

數(shù)字 5顯示了 ES avg和 < ES avg  > 對(duì)于 200 個(gè)樣本的相同單個(gè)子集和 MYC_TARGETS_V1 基因集的 1000 個(gè)隨機(jī)分裂平均值的兩次分裂和 25 次分裂獲得的測(cè)試統(tǒng)計(jì)量的分布。正如考慮到大數(shù)定律所預(yù)期的那樣,分布的位置保持不變,并且分布的寬度隨著測(cè)試統(tǒng)計(jì)量在更多隨機(jī)分割上的平均值而變窄。此過(guò)程允許通過(guò)平均足夠的隨機(jī)拆分來(lái)定義測(cè)試統(tǒng)計(jì)量,從而定義相關(guān)的富集p值,以達(dá)到隊(duì)列的任意精度。

圖 5

1000 個(gè)隨機(jī)分裂平均值的 ES avg和 < ES avg  >(兩次分裂和 25 次分裂)分布。所有分布均針對(duì)使用 MYC_TARGETS_V1 基因集的 200 個(gè)樣本的單個(gè)子集

為了說(shuō)明使用 ES avg和 < ES avg  > 對(duì) ES 進(jìn)行 25 次分裂作為更廣泛基因集的測(cè)試統(tǒng)計(jì)量的好處,表 1比較了所有 50 個(gè) Hallmarks 基因組的富集p值,這些值是使用 294 名患者使用三個(gè)統(tǒng)計(jì)數(shù)據(jù)計(jì)算得出的。ES avg和 < ES avg >的關(guān)聯(lián)p值幾乎總是小于 ES,在少數(shù)情況并非如此的情況下,這兩種方法都不會(huì)產(chǎn)生表示顯著關(guān)聯(lián)的p值。

表格1

50 個(gè) Hallmarks 基因組的p值。p值是使用 ES、ES avg或 < ES avg >使用 294 個(gè)樣本隊(duì)列計(jì)算的, 其中 25 個(gè)拆分作為檢驗(yàn)統(tǒng)計(jì)量。通過(guò)增加使用 ES avg作為統(tǒng)計(jì)量獲得的p值對(duì)基因集進(jìn)行排序

基因組

 

ES 的p值

 

ES avg的p值

 

<ES avg >的p值

 

MTORC1_SIGNALING

 

< 0.0001

 

< 0.0001

 

< 0.0001

 

E2F_TARGETS

 

< 0.0001

 

< 0.0001

 

< 0.0001

 

UV_RESPONSE_UP

 

0.0132

 

< 0.0001

 

< 0.0001

 

G2M_CHECKPOINT

 

< 0.0001

 

< 0.0001

 

< 0.0001

 

PI3K_AKT_MTOR_SIGNALING

 

0.0040

 

0.0002

 

< 0.0001

 

有絲分裂紡錘體

 

0.0028

 

0.0004

 

< 0.0001

 

UNFOLDED_PROTEIN_RESPONSE

 

0.0006

 

0.0004

 

< 0.0001

 

REACTIVE_OXIGEN_SPECIES_PATHWAY

 

0.0063

 

0.0004

 

0.0002

 

ESTROGEN_RESPONSE_EARLY

 

0.0068

 

0.0006

 

0.0002

 

精子發(fā)生

 

0.0185

 

0.0006

 

0.0002

 

糖酵解

 

0.0216

 

0.0012

 

0.0008

 

MYC_TARGETS_V1

 

0.0172

 

0.0020

 

0.0002

 

UV_RESPONSE_DN

 

0.0156

 

0.0020

 

0.0012

 

MYC_TARGETS_V2

 

0.0320

 

0.0032

 

0.0026

 

DNA_REPAIR

 

0.0263

 

0.0035

 

0.0008

 

INTERFERON_GAMMA_RESPONSE

 

0.0373

 

0.0046

 

0.0038

 

IL6_JAK_STAT3_SIGNALING

 

0.0790

 

0.0074

 

0.0081

 

INTERFERON_ALPHA_RESPONSE

 

0.0638

 

0.0080

 

0.0105

 

補(bǔ)充

 

0.1059

 

0.0157

 

0.0149

 

ESTROGEN_RESPONSE_LATE

 

0.0622

 

0.0188

 

0.0080

 

ALLOGRAFT_REJECTION

 

0.0684

 

0.0194

 

0.0144

 

INFLAMMATORY_RESPONSE

 

0.0963

 

0.0303

 

0.0172

 

CHOLESTEROL_HOMEOSTASIS

 

0.1035

 

0.0449

 

0.0252

 

膽汁酸代謝

 

0.0966

 

0.0472

 

0.0247

 

血管生成

 

0.2591

 

0.0796

 

0.0753

 

WNT_BETA_CATENIN_SIGNALING

 

0.4422

 

0.1160

 

0.1235

 

EPITHELIAL_MESENCHYMAL_TRANSITION

 

0.2984

 

0.1219

 

0.0984

 

凝血

 

0.2516

 

0.1223

 

0.1093

 

IL2_STAT5_SIGNALING

 

0.1685

 

0.1437

 

0.0596

 

生肌

 

0.2767

 

0.1589

 

0.1043

 

TGF_BETA_SIGNALING

 

0.3229

 

0.1593

 

0.1344

 

OXIDATIVE_PHOSPHORYLATION

 

0.3773

 

0.1877

 

0.1604

 

PROTEIN_SECRETION

 

0.3107

 

0.2032

 

0.2028

 

脂肪生成

 

0.4204

 

0.2247

 

0.2581

 

APICAL_SURFACE

 

0.4078

 

0.2477

 

0.0824

 

P53_PATHWAY

 

0.5724

 

0.2489

 

0.2423

 

TNFA_SIGNALING_VIA_NFKB

 

0.3401

 

0.2509

 

0.1545

 

缺氧

 

0.4398

 

0.2712

 

0.2450

 

細(xì)胞凋亡

 

0.5796

 

0.2905

 

0.3886

 

APICAL_JUNCTION

 

0.5175

 

0.2907

 

0.2579

 

NOTCH_SIGNALING

 

0.7451

 

0.3104

 

0.3226

 

FATTY_ACID_METABOLISM

 

0.5358

 

0.3134

 

0.3853

 

PANCREAS_BETA_CELLS

 

0.6834

 

0.3201

 

0.1500

 

XENOBIOTIC_METABOLISM

 

0.4921

 

0.3541

 

0.4946

 

HEME_METABOLISM

 

0.7713

 

0.4576

 

0.4731

 

KRAS_SIGNALING_UP

 

0.6241

 

0.7068

 

0.4892

 

ANDROGEN_RESPONSE

 

0.8082

 

0.7539

 

0.5841

 

HEDGEHOG_SIGNALING

 

0.7870

 

0.7810

 

0.5163

 

過(guò)氧化物酶體

 

0.3931

 

0.8977

 

0.3682

 

KRAS_SIGNALING_DN

 

0.9700

 

0.9193

 

0.7337

 

 

合成數(shù)據(jù)集

為了進(jìn)一步研究該方法對(duì)具有不同表型關(guān)聯(lián)程度和不同屬性相關(guān)程度的屬性子集的性能,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用合成數(shù)據(jù)進(jìn)行了一組實(shí)驗(yàn)?;驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法類(lèi)似于 Ackermann 和 Strimmer  的基準(zhǔn)測(cè)試方法?;驒z測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)為 50 個(gè)樣本(每個(gè)表型 25 個(gè))模擬了 600 個(gè)基因的數(shù)據(jù)集,并定義了 21 個(gè)基因組,它們具有不同程度的基因間相關(guān)性和表型之間的差異表達(dá)。方法中提供了完整的詳細(xì)信息。為了評(píng)估不同測(cè)試統(tǒng)計(jì)數(shù)據(jù)識(shí)別表型與基因組關(guān)聯(lián)的能力,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)評(píng)估了 100 個(gè)數(shù)據(jù)集實(shí)現(xiàn)中檢測(cè)到與p關(guān)聯(lián)的比例 < 0.05 使用 ES、ES avg和 < ES avg  > 進(jìn)行 25 次拆分。結(jié)果如表所示 2.

表 2

ES、ES avg和 < ES avg  > 的 25 次拆分p < 0.05 的實(shí)現(xiàn)比例。使用 3 個(gè)測(cè)試統(tǒng)計(jì)量 ES、ES avg和 < ES avg >計(jì)算 21 個(gè)基因組中每個(gè)基因組的 100 次數(shù)據(jù)集實(shí)現(xiàn)的比例 ,M = 25。a表示與表型無(wú)關(guān)的對(duì)照基因組

基因組

p  < 0.05的比例

ES

 

ES平均

 

<ES平均>

 

一個(gè)_

 

0.06

 

0.08

 

0.05

 

b

 

1.00

 

1.00

 

1.00

 

C

 

0.82

 

0.81

 

0.92

 

d

 

0.09

 

0.09

 

0.14

 

e

 

0.38

 

0.39

 

0.46

 

F

 

0.06

 

0.13

 

0.10

 

G

 

0.01

 

0.00

 

0.01

 

H

 

0.29

 

0.19

 

0.19

 

一世

 

0.10

 

0.16

 

0.07

 

一個(gè)_

 

0.07

 

0.07

 

0.07

 

?

 

0.92

 

0.93

 

0.98

 

l

 

0.81

 

0.88

 

0.91

 

M

 

0.92

 

0.94

 

0.98

 

n

 

0.34

 

0.35

 

0.43

 

 

0.73

 

0.76

 

0.84

 

p

 

0.42

 

0.56

 

0.64

 

q

 

0.77

 

0.84

 

0.90

 

r

 

0.22

 

0.26

 

0.22

 

s

 

0.75

 

0.77

 

0.90

 

 

0.36

 

0.38

 

0.44

 

 

0.25

 

0.28

 

0.37

 

 

除了兩個(gè)控制組(a 和 j)之外,所有基因組的構(gòu)建都具有基因組中至少一些屬性與表型之間的關(guān)聯(lián)。該關(guān)聯(lián)被選擇為從中等到弱。這允許檢測(cè)統(tǒng)計(jì)能力的差異,以識(shí)別基因集和表型之間的關(guān)聯(lián);如果關(guān)聯(lián)很強(qiáng)(例如,大于基因組 b),它們將在所有方法的幾乎所有實(shí)現(xiàn)中統(tǒng)一檢測(cè)到。對(duì)于兩個(gè)對(duì)照基因組,表型和基因組之間沒(méi)有關(guān)聯(lián),p值在實(shí)現(xiàn)上的分布是均勻的(參見(jiàn)附錄中的直方圖),實(shí)現(xiàn)的比例產(chǎn)生p對(duì)于基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法,低于 0.05 的關(guān)聯(lián)值保持在 5% 左右。對(duì)于大多數(shù)其他基因組,識(shí)別與p  < 0.05 關(guān)聯(lián)的實(shí)現(xiàn)比例對(duì)于 <ES avg  > (M = 25) 更高,并且通常對(duì)于 ES avg,而不是 ES。這表明在各種屬性子集場(chǎng)景中識(shí)別構(gòu)建關(guān)聯(lián)的能力增加,包括表型和基因之間不同程度的單變量關(guān)聯(lián)、表型之間上調(diào)和下調(diào)基因的混合以及基因組內(nèi)相關(guān)結(jié)構(gòu)的差異。除了控制之外,還有其他兩種情況沒(méi)有觀察到增加的功率。先進(jìn)個(gè)包括關(guān)聯(lián)非常弱的那些基因集(基因集 d、f 和 g)。所有三個(gè)測(cè)試統(tǒng)計(jì)數(shù)據(jù)在識(shí)別表型和基因組之間構(gòu)建的非常弱的關(guān)聯(lián)方面都具有同樣差的能力。第二種情況包括基因組(基因組 h 和 i)內(nèi)上調(diào)和下調(diào)屬性之間平衡的特殊情況。基因組 h 和 i 由相同數(shù)量的表型上調(diào)和下調(diào)屬性構(gòu)成,它們與表型的單變量相關(guān)強(qiáng)度有效相同。在這個(gè)非常特殊的設(shè)置中,對(duì)于數(shù)據(jù)集的任何特定實(shí)現(xiàn),計(jì)算正 ES 或負(fù) ES 的可能性相同。對(duì)于基因組 h,在大約 30% 的病例中發(fā)現(xiàn)p  < 0.05,但其中大約一半對(duì)應(yīng)于陽(yáng)性 ES,另一半對(duì)應(yīng)于陰性 ES。當(dāng)數(shù)據(jù)集分成兩部分來(lái)計(jì)算 ES avg和 < ES avg > 時(shí),由于與表型的上下關(guān)聯(lián)之間的正確平衡,每一半都可能產(chǎn)生正或負(fù) ES。對(duì)這種雙峰分布進(jìn)行平均產(chǎn)生以 ES avg  = 0 或 < ES avg  > =0 為中心的分布,因此降低了識(shí)別表型和基因集之間顯著關(guān)聯(lián)的能力。因此,在這種與表型上下關(guān)聯(lián)的特征范圍和數(shù)量之間取得平衡的特殊設(shè)置中,ES avg的表現(xiàn)和 <ES avg  > 測(cè)試統(tǒng)計(jì)不如 ES。然而,只要不接近正確匹配的上調(diào)和下調(diào)場(chǎng)景,ES avg和 < ES avg  > 至少顯示出與 ES 相似的功率(參見(jiàn)基因集 r,有 13 個(gè)基因,Δμ = 0.5和 7 個(gè)具有 Δμ = - 0.5) 或更大功率(基因組 l、p 和 q,每個(gè)具有 15 個(gè) Δμ = 0.5 的基因和 5 個(gè)具有 Δμ = - 0.5 的基因)。在現(xiàn)實(shí)世界的環(huán)境中,表型之間差異基因表達(dá)的相反方向的數(shù)量和幅度非常接近平衡不太可能在基因集中發(fā)生。因此,合成數(shù)據(jù)的分析表明使用 ES avg或 < ES avg > 只要樣本集的大小和關(guān)聯(lián)強(qiáng)度足夠大,可以通過(guò)標(biāo)準(zhǔn) ES 方法為識(shí)別提供一些賊小的能力,就可能增加檢測(cè)與基因集所代表的生物過(guò)程關(guān)聯(lián)的能力。

 

討論和結(jié)論

富集分?jǐn)?shù)的零分布,如 GSEA 設(shè)置富集分析方法中所定義的,在很大程度上獨(dú)立于分析中使用的樣本數(shù)量。因此,增加樣本隊(duì)列大小 N 只能通過(guò)縮小 ES 的抽樣分布來(lái)提高檢測(cè)基因集和表型之間關(guān)聯(lián)的能力。將隊(duì)列分成兩個(gè)不同的相等部分,計(jì)算每個(gè)部分的 ES,并對(duì)它們進(jìn)行平均以創(chuàng)建新的測(cè)試統(tǒng)計(jì)量 ES avg,可以產(chǎn)生明顯更窄的空分布和類(lèi)似的 ES 抽樣分布。這種方法導(dǎo)致增加的統(tǒng)計(jì)能力來(lái)檢測(cè)表型和屬性子集之間的顯著關(guān)聯(lián)。在大多數(shù)情況并非如此的情況下,ES 和 ES avg由于測(cè)試統(tǒng)計(jì)導(dǎo)致表型和基因集的顯著關(guān)聯(lián)的識(shí)別,因?yàn)椴淮嬖陉P(guān)聯(lián),屬性子集與表型的關(guān)聯(lián)不夠強(qiáng),無(wú)法檢測(cè),或者 N 太小而無(wú)法對(duì)單個(gè)基因和表型之間的相關(guān)性進(jìn)行有意義的評(píng)估。在表型之間上調(diào)和下調(diào)屬性的數(shù)量和幅度之間密切匹配的特殊情況下,即使對(duì)于賊大的樣本量,ES 統(tǒng)計(jì)量的抽樣分布也具有雙峰的不尋常特性。使用 ES平均因?yàn)闄z驗(yàn)統(tǒng)計(jì)量會(huì)降低識(shí)別關(guān)聯(lián)的能力。然而,這種情況不太可能發(fā)生在綜合生成的數(shù)據(jù)集之外,并且可以通過(guò)檢查計(jì)算 ES 的運(yùn)行總和來(lái)識(shí)別這種情況。(即使與這些 ES 值相關(guān)的p值很小,也會(huì)觀察到運(yùn)行總和與零的賊大和賊小偏差的相似幅度。)測(cè)試統(tǒng)計(jì)量和富集p值對(duì)隊(duì)列方式的不可接受的依賴性通過(guò)使用平均過(guò)程的擴(kuò)展以在測(cè)試統(tǒng)計(jì) <ES avg  >中包含隊(duì)列的多個(gè)隨機(jī)拆分,可以避免拆分以產(chǎn)生 ES avg 。

這種方法的應(yīng)用可以在統(tǒng)計(jì)能力方面帶來(lái)明顯的優(yōu)勢(shì),可用于識(shí)別生物過(guò)程或途徑與樣本/患者表型之間的關(guān)聯(lián),但賊小樣本群組除外,其中標(biāo)準(zhǔn)方法的能力也非常有限。這可能有助于緩解文獻(xiàn) 中指出的這類(lèi) ES 的功率相對(duì)降低的問(wèn)題。增加的權(quán)力將能夠高效地識(shí)別較弱的關(guān)聯(lián),并增加識(shí)別可能在p方面具有臨界意義的確定性-值和錯(cuò)誤發(fā)現(xiàn)率與標(biāo)準(zhǔn)統(tǒng)計(jì)。該方法已使用二元表型分類(lèi)和表型-個(gè)體基因相關(guān)度量的一種選擇進(jìn)行了說(shuō)明,但它應(yīng)該適用于使用其他相關(guān)度量或連續(xù)表型評(píng)分的富集分析。使用 ES avg或 < ES avg的好處 > 超過(guò) ES 取決于 ES 的零分布對(duì)樣本數(shù) N 的相對(duì)獨(dú)立性。這種現(xiàn)象是通過(guò)運(yùn)行總和的極值評(píng)估富集方式的結(jié)果(由排名和組合屬性-表型相關(guān)性)和通過(guò)表型排列生成零分布。用于生成空分布的每個(gè)表型排列導(dǎo)致屬性-表型相關(guān)性的值和等級(jí)的隨機(jī)化。因此,評(píng)估屬性和表型之間相關(guān)性的方式并不重要,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)的方法應(yīng)該直接適用于采用其他相關(guān)性度量的 GSEA(例如,用于連續(xù)屬性的 Spearman/Pearson r)。

在這里,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)只探索了將樣本集分成兩個(gè)不同的相等部分。該方法可以擴(kuò)展為將數(shù)據(jù)集拆分為兩個(gè)以上的部分進(jìn)行平均,這將通過(guò)進(jìn)一步縮小相關(guān)的空分布來(lái)提高性能。然而,拆分成更多不同子集的好處需要更大的隊(duì)列規(guī)模。跨不同子集平均 ES 的概念也可能有助于組合來(lái)自具有相同可用屬性的多個(gè)樣本群組的數(shù)據(jù)。如果批次效應(yīng)阻止將多個(gè)樣本集合并到一個(gè)隊(duì)列中,這可能特別有用。使用歸一化的 ES  還將允許使用相同的方法來(lái)組合來(lái)自不同隊(duì)列的患者的數(shù)據(jù),每個(gè)隊(duì)列具有不同的可用屬性,例如,甚至可以組合基因組和蛋白質(zhì)組學(xué)面板數(shù)據(jù),前提是可以將一致的表型分配給多個(gè)隊(duì)列。如果使用患者定義的表型類(lèi)別標(biāo)簽的排列生成空分布,則還可以使用對(duì)每個(gè)數(shù)據(jù)源計(jì)算的 ES 進(jìn)行平均來(lái)擴(kuò)展到單個(gè)患者隊(duì)列的多個(gè)數(shù)據(jù)源的情況。

 

方法

數(shù)據(jù)集和基因集:mRNA 表達(dá)

本部分研究中使用的數(shù)據(jù)集可從  訪問(wèn),包括從接受乳腺癌手術(shù)的患者收集的組織樣本中采集的 13,018 個(gè)基因的 mRNA 表達(dá)測(cè)量值。這個(gè)由 295 名患者組成的隊(duì)列是開(kāi)發(fā)將患者分為“好”和“差”結(jié)果組的測(cè)試的基礎(chǔ) 。每個(gè)患者的測(cè)試分類(lèi)都包含在數(shù)據(jù)集中,并且這個(gè)二元結(jié)果被用作尋求與生物過(guò)程關(guān)聯(lián)的表型?;虮磉_(dá)值用于 無(wú)需進(jìn)一步處理或標(biāo)準(zhǔn)化。在整個(gè)研究過(guò)程中,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用了 295 名患者中的 294 名的數(shù)據(jù)(未使用來(lái)自樣本 NKI373 的數(shù)據(jù)),以便將隊(duì)列分成兩個(gè)不同的、大小相等的亞組。

此處使用的屬性集(在本例中為基因集)是可從 Broad Institute GSEA 網(wǎng)站 ( http://software.broadinstitute.org/gsea/msigdb/collections/jsp#H ) 獲得的 Hallmarks 基因集  。它們是精心策劃的基因集集合,代表了明確定義的生物狀態(tài)和過(guò)程。集合中包括五十個(gè)基因組。對(duì)于大多數(shù)分析,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)從 Hallmarks 集中選擇了兩個(gè)特定的基因集,MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 作為示例。測(cè)試分類(lèi)表型顯示出與這些基因組的明確但不是極端的關(guān)聯(lián),因此,它們被認(rèn)為是特別說(shuō)明性的例子。磷還使用 ES、ES avg和 < ES avg  >(25 次分割)作為測(cè)試統(tǒng)計(jì)數(shù)據(jù),使用來(lái)自所有 294 個(gè)樣本的數(shù)據(jù)計(jì)算了 Hallmarks 集合中所有 50 個(gè)基因組的富集值。

數(shù)據(jù)集和基因集:合成數(shù)據(jù)

為了以更可控的方式研究方法的性能對(duì)屬性子集中屬性之間的關(guān)聯(lián)程度和相關(guān)程度的依賴性,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)使用合成數(shù)據(jù)集和屬性子集進(jìn)行了一組分析,遵循 Ackermann 的基準(zhǔn)測(cè)試方法和斯特里默 。

600 個(gè)屬性(基因)的表達(dá)值的合成數(shù)據(jù)集是通過(guò)從具有單位方差的多元正態(tài)分布中繪制的,其中包含 25 個(gè)具有表型 A 的樣本和 25 個(gè)具有表型 B 的樣本。對(duì)于屬性i,基因檢測(cè)與基因信息學(xué)研究攻關(guān)團(tuán)隊(duì)定義了平均屬性值之間的差異A 和 B 為 Δμ i。屬性i和屬性j之間的相關(guān)性定義為 ρ ij。為 50 個(gè)樣本選擇了 600 個(gè)屬性,如下所示:

  • 一世。420,Δμ = 0 和 ρ = 0,
  • ii. 20,Δμ = 0.5 和 ρ = 0,
  • iii. 20,Δμ = 0.25 和 ρ = 0,
  • iv. 20,Δμ = 0.1 和 ρ = 0,
  • v. 20,Δμ = 0.5 和 ρ = 0.6,
  • 六。20,Δμ = 0.25 和 ρ = 0.6,
  • 七。20,Δμ = 0.1 和 ρ = 0.6,
  • 八。10 與 Δμ = + 0.5 和 10 與 Δμ = - 0.5,在 10 的每個(gè)子組內(nèi) ρ = 0.6,在子組之間 ρ = - 0.6,
  • 九。10,Δμ = + 0.5 和 10,Δμ = - 0.5,ρ = 0,
  • X。20,Δμ = 0 和 ρ = 0.6。

通過(guò)采用以下屬性組創(chuàng)建了 21 個(gè)具有不同程度的表型關(guān)聯(lián)和不同相互關(guān)聯(lián)的基因組:

  1. 20 來(lái)自 (i)
  2. (ii) 中的 20
  3. 20 來(lái)自 (iii)
  4. 20 來(lái)自 (iv)
  5. 20 來(lái)自 (v)
  6. 20(六)
  7. 20(七)
  8. (八) 20
  9. 20 來(lái)自 (ix)
  10. 20 來(lái)自 (x)
  11. (ii) 中的 10 和 (v) 中的 10
  12. (ii) 中的 10,(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
  13. (ii)、(iii) 和 (iv) 中的 20
  14. (v)、(vi) 和 (vii) 中的 20
  15. 20 從 (ii)-(vii)
  16. (ix) 中的 10 個(gè),Δμ = + 0.5,(viii) 中的 5 個(gè),Δμ = - 0.5,和 (viii) 中的 5 個(gè),Δμ = + 0.5 和 ρ = 0.6
  17. (ii) 中的 10,(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
  18. 來(lái)自 (ii) 的 3,來(lái)自 (ix) 的 10 Δμ = 0.5 和來(lái)自 (ix) 的 7,Δμ = - 0.5
  19. (i) 中的 10 和 (ii) 中的 10
  20. (i) 中的 10 和 (v) 中的 10
  21. (i) 中的 8 個(gè)和 (ii)-(x) 中的 12 個(gè)

基因集富集分析實(shí)現(xiàn)

使用的富集集分析方法密切遵循 Subramanian 等人的方法。?;诘燃?jí)的相關(guān)性,以 Mann-Whitney 檢驗(yàn)統(tǒng)計(jì)量的形式,范圍從 1 到 - 1,用于表征單個(gè)屬性的表達(dá)與二元表型之間的關(guān)聯(lián)。對(duì)于標(biāo)準(zhǔn)基因集富集分析,使用的富集分?jǐn)?shù) ES 與 Subramanian 等人的定義有效相同。p  = 1。用于評(píng)估富集統(tǒng)計(jì)顯著性的空分布是通過(guò)表型分類(lèi)的重復(fù)隨機(jī)改組(排列)獲得的。

使用 ES avg的替代富集評(píng)估方法實(shí)施如下。大小為 N 的隊(duì)列被分成兩個(gè)相等且不同的子組,S 1和 S 2,每個(gè)子組的大小為 N/2。對(duì)于每個(gè)亞組,如上文所述計(jì)算富集分?jǐn)?shù),以分別產(chǎn)生 S 1、S 2的 ES1、ES2 。替代統(tǒng)計(jì) ES avg被定義為兩個(gè)亞組富集分?jǐn)?shù)的平均值,即 ES avg  = 0.5(ES1 + ES2)。通過(guò)表型分類(lèi)的排列再次計(jì)算空分布。表型分類(lèi)被打亂,然后數(shù)據(jù)集被分成兩半,S 1和 S 2. ES1 和 ES2 分別在 S 1和 S 2內(nèi)計(jì)算并取平均值,得到 ES avg用于置換實(shí)現(xiàn)。

使用測(cè)試統(tǒng)計(jì)量<ES avg  > = 0.5 Σ i (ES1 i  + ES2 i )/M使用多個(gè)拆分的平均值評(píng)估富集,其中總和超過(guò)拆分?jǐn)?shù) M,將 N 個(gè)樣本分成兩個(gè)隨機(jī)子集 S 1i和 S 2i,分別具有富集分?jǐn)?shù) ES1 i和 ES2 i。為了生成空分布,表型分類(lèi)被打亂,然后數(shù)據(jù)集被隨機(jī)分成兩半 M 次。<ES avg  > 然后為置換實(shí)現(xiàn)計(jì)算。對(duì)于生成零分布所需的置換實(shí)現(xiàn)的數(shù)量重復(fù)此操作。

ES 和 ES avg的空分布

對(duì)于基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 的大小為 20、40、60、80、100 和 200 的群組的子集,生成標(biāo)準(zhǔn)富集分?jǐn)?shù) ES 和替代統(tǒng)計(jì)量 ES avg的空分布。在每種情況下,隨機(jī)選擇一個(gè)子集,按表型分類(lèi)分層。在每種情況下,表型分類(lèi)隨機(jī)排列 10,000 次。

ES 和 ES avg的抽樣分布

對(duì)于N = 20、40、60、80、100 和 200 的基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION,為 ES 和 ES avg生成了從 294 個(gè)樣本的群體隊(duì)列中抽取的大小為 N 的子集的抽樣分布 。選擇了一千個(gè)子集每個(gè)子集大小隨機(jī),按表型分類(lèi)分層。

檢測(cè) ES 和 ES avg之間關(guān)聯(lián)的能力比較

檢測(cè)表型與基因組 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 關(guān)聯(lián)的能力計(jì)算如下。首先如上所述計(jì)算不同子集大小的 ES 和 ES avg的零分布。ES 和 ES avg如上所述計(jì)算,每個(gè)子集大小的 1000 次實(shí)現(xiàn),用于估計(jì)采樣分布。對(duì)于每個(gè)子集大小的每個(gè)實(shí)現(xiàn),將 ES 和 ES avg與其各自的零分布進(jìn)行比較,以確定是否觀察到與p  < 0.05 的關(guān)聯(lián)。檢測(cè)這種與 α = 0.05 的關(guān)聯(lián)的能力被定義為p  < 0.05 的實(shí)現(xiàn)比例。

不同分割數(shù)的富集分?jǐn)?shù)統(tǒng)計(jì)的空分布,M

估計(jì)了 ES(無(wú)拆分)、ES平均(1 次拆分)和 <ES平均 > 的零分布,其中 2 次和 25 次拆分來(lái)自 294 名患者隊(duì)列中的 200 個(gè)樣本的一個(gè)子集。如上所述,從表型分類(lèi)的 10,000 個(gè)排列中生成每個(gè)空分布。

<ES avg  > 在隊(duì)列的不同拆分上的分布,對(duì)于不同數(shù)量的拆分,M

使用 1000 個(gè)實(shí)現(xiàn)估計(jì)從研究隊(duì)列中抽取的 200 個(gè)樣本的單個(gè)子集的不同隨機(jī)拆分的 ES(無(wú)拆分)、ES avg(1 拆分)和 <ES avg  > 的分布,其中 2 和 25 拆分每個(gè)統(tǒng)計(jì)數(shù)據(jù)所需的拆分集。

所有 50 個(gè) Hallmark 基因組與隊(duì)列表型分類(lèi)的關(guān)聯(lián)

對(duì)于 50 個(gè) Hallmark 基因組中的每一個(gè),GSEA 分別使用 ES、ES avg和 < ES avg  > 在 294 個(gè)樣本的整個(gè)隊(duì)列中進(jìn)行 M = 25 次分割。通過(guò) 10,000 個(gè)表型分類(lèi)排列估計(jì)每個(gè)基因集的無(wú)效分布。

綜合數(shù)據(jù)分析

對(duì)于 21 個(gè)基因組中的每一個(gè),使用 ES、ES avg和 < ES avg >分別執(zhí)行 GSEA, 其中 M = 25 次拆分,用于 100 次合成數(shù)據(jù)集的實(shí)現(xiàn)。通過(guò) 10,000 個(gè)表型分類(lèi)排列估計(jì)空分布。通過(guò)計(jì)算富集p值低于 0.05的實(shí)現(xiàn)比例來(lái)估計(jì)分析檢測(cè) α = 0.05(顯著性水平為 95%)的基因集和表型之間關(guān)聯(lián)的能力。為了檢查兩個(gè)對(duì)照基因組(a 和 j)的p值分布,對(duì)統(tǒng)計(jì)數(shù)據(jù) ES、ES avg和 < ES avg >執(zhí)行 GSEA, 其中 M = 25 用于數(shù)據(jù)集的 1000 次實(shí)現(xiàn)。

軟件

實(shí)施本研究中介紹的方法的軟件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存儲(chǔ)庫(kù)中獲得。

 

致謝

不適用。

資金

不適用。

數(shù)據(jù)和材料的可用性

支持本文結(jié)論的數(shù)據(jù)集可在與 Venet 等人相關(guān)的補(bǔ)充材料中找到。 在 10.1371/journal.pcbi.1002240.s001。

實(shí)施本研究中介紹的方法的軟件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存儲(chǔ)庫(kù)中獲得。軟件要求包括:

  • 操作系統(tǒng) - Windows(使用 Windows 7 Professional 開(kāi)發(fā)/測(cè)試)
  • 編程語(yǔ)言 - C#。Net(需要.Net Framework 4.5.2 版)
  • 其他要求 – IMSL 6.5.0 的 Roguewave IMSL C# 許可證
  • 許可證 – 新(3 條款)BSD 許可證

 

縮寫(xiě)

ES

 

濃縮分?jǐn)?shù)

 

GSEA

 

基因集富集分析

 

附錄

對(duì)于通過(guò)構(gòu)建與表型沒(méi)有關(guān)聯(lián)的對(duì)照合成基因組,使用數(shù)據(jù)集的 1000 個(gè)實(shí)現(xiàn)的所有三個(gè)富集統(tǒng)計(jì)數(shù)據(jù)進(jìn)行 GSEA,以檢查實(shí)現(xiàn)中p值的分布(圖 2)。 6)。

圖 6

 用于控制基因集的 ES、ES avg和 < ES avg > 的數(shù)據(jù)集實(shí)現(xiàn)上的p值分布。a基因組 a, b基因組 j

 

 

Improving the power of gene set enrichment analyses.

Roder J, Linstid B, Oliveira C.

BMC Bioinformatics. 2019 May 17;20(1):257. doi: 10.1186/s12859-019-2850-1.

 

(責(zé)任編輯:佳學(xué)基因)
頂一下
(0)
0%
踩一下
(0)
0%
推薦內(nèi)容:
來(lái)了,就說(shuō)兩句!
請(qǐng)自覺(jué)遵守互聯(lián)網(wǎng)相關(guān)的政策法規(guī),嚴(yán)禁發(fā)布色情、暴力、反動(dòng)的言論。
評(píng)價(jià):
表情:
用戶名: 驗(yàn)證碼: 點(diǎn)擊我更換圖片

Copyright © 2013-2033 網(wǎng)站由佳學(xué)基因醫(yī)學(xué)技術(shù)(北京)有限公司,湖北佳學(xué)基因醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室有限公司所有 京ICP備16057506號(hào)-1;鄂ICP備2021017120號(hào)-1

設(shè)計(jì)制作 基因解碼基因檢測(cè)信息技術(shù)部