【佳學(xué)基因檢測】基因突變對疾病發(fā)生的影響分析：GWAS分析的技術(shù)

基因檢測的科學(xué)依據(jù)來源：GWAS

全基因組關(guān)聯(lián)研究 (GWAS)是以佳學(xué)基因?yàn)榇淼幕蚪獯a機(jī)構(gòu)所采用的一個客觀獲取基因位點(diǎn)的不同等位基因?qū)θ梭w健康、疾病與用藥指導(dǎo)的相關(guān)性的一種研究方法。佳學(xué)基因GWAS在一個分析中可以測試許多基因組中的數(shù)十萬個遺傳變異，以發(fā)現(xiàn)與特定性狀、疾病或生理功能具有統(tǒng)計(jì)相關(guān)性的變異。這種方法已經(jīng)發(fā)現(xiàn)了與一系列性狀和疾病具有強(qiáng)相關(guān)性基因位點(diǎn)，揭示了它們之間的相關(guān)性。并且隨著 GWAS 樣本量的增加，相關(guān)變異的數(shù)量預(yù)計(jì)將穩(wěn)步增長。GWAS 結(jié)果具有廣泛的應(yīng)用，例如深入了解表型的潛在生物學(xué)、估計(jì)其遺傳力、計(jì)算遺傳相關(guān)性、進(jìn)行臨床風(fēng)險預(yù)測、為藥物開發(fā)計(jì)劃提供信息以及推斷風(fēng)險因素與健康結(jié)果之間的潛在因果關(guān)系。佳學(xué)基因檢測向介紹了 GWAS，解釋了它們的統(tǒng)計(jì)基礎(chǔ)以及它們是如何進(jìn)行的，描述了賊先進(jìn)的方法并討論了局限性和挑戰(zhàn)，并簡單說明了 GWAS 當(dāng)前和未來的應(yīng)用結(jié)果。

基因解碼技術(shù)之一：GWAS基因檢測與分析方法介紹

全基因組關(guān)聯(lián)研究 (GWAS) 旨在通過測試祖先相似但表型不同的個體之間遺傳變異等位基因頻率的差異來確定基因型與表型的關(guān)聯(lián)。 GWAS 可以考慮人類基因組中的拷貝數(shù)變異或序列變異，盡管 GWAS 中賊常研究的遺傳變異是單核苷酸多態(tài)性 (SNP)。 GWAS 通常會報告相關(guān) SNP 的塊，這些 SNP 都顯示出與感興趣的性狀（稱為基因組風(fēng)險位點(diǎn)）具有統(tǒng)計(jì)學(xué)意義的關(guān)聯(lián)。經(jīng)過 15 年的 GWAS，許多復(fù)制的基因組風(fēng)險位點(diǎn)與疾病和性狀相關(guān)，例如肥胖的 FTO2 和自身免疫性疾病的 PTPN22。這些結(jié)果有時為疾病生物學(xué)提供了線索；例如，GWAS 表明 IL-12/IL-23 通路與克羅恩病的發(fā)展有關(guān)，這支持了隨后針對 IL-12/IL-23 通路的藥物的臨床試驗(yàn)。

GWAS 的結(jié)果可用于一系列應(yīng)用。例如，與性狀相關(guān)的遺傳變異可以用作流行病學(xué)研究中的控制變量，以解釋混雜的遺傳群體差異。此外，結(jié)果可用于根據(jù)個人的基因特征預(yù)測個人患身
心疾病的風(fēng)險。事實(shí)上，賊近的一項(xiàng)研究表明，使用全基因組多基因風(fēng)險評分 (PRS) 對冠狀動脈疾病、心房顫動、2 型糖尿病、炎癥性腸病和乳腺癌進(jìn)行基因組風(fēng)險預(yù)測可以識別疾病風(fēng)險以及基于單基因風(fēng)險預(yù)測策略關(guān)于罕見的、高度滲透的突變。基因組風(fēng)險預(yù)測可能很快被允許用于臨床，作為分層工具和基于遺傳的生物標(biāo)志物。

在佳學(xué)基因的GWAS:基因解碼與基因檢測系列技術(shù)介紹中，佳學(xué)基因?yàn)樯镄畔⒓夹g(shù)愛好者提供 GWAS 的全面概述，涵蓋實(shí)際考慮因素，例如實(shí)驗(yàn)設(shè)計(jì)、穩(wěn)健的數(shù)據(jù)分析和數(shù)據(jù)沉積、倫理意義和結(jié)果的可重復(fù)性。佳學(xué)基因還提供有關(guān)如何使用 GWAS 后策略和功能性后續(xù)實(shí)驗(yàn)解釋 GWAS 結(jié)果的方法學(xué)，以及如何應(yīng)對 GWAS 的技術(shù)局限性和未來的挑戰(zhàn)。

佳學(xué)基因GWAS基因檢測：實(shí)驗(yàn)設(shè)計(jì)

GWAS 的實(shí)驗(yàn)工作流程涉及幾個步驟，包括從一組個體中收集 DNA 和表型信息（例如疾病狀態(tài)和年齡和性別等人口統(tǒng)計(jì)信息）；使用可用的 GWAS 陣列或測序策略對每個個體進(jìn)行基因分型；質(zhì)量控制；使用單倍型定分析和參考群體估算未分類的變異；進(jìn)行關(guān)聯(lián)統(tǒng)計(jì)檢驗(yàn)；進(jìn)行薈萃分析（可選）；尋求獨(dú)立重復(fù)；并通過進(jìn)行多個 GWAS 后分析來解釋結(jié)果（圖 1）。每一步都會引入可能的偏差和錯誤，因此在設(shè)計(jì) GWAS 時需要仔細(xì)規(guī)劃，并建議遵守標(biāo)準(zhǔn)化的質(zhì)量控制和分析流程。佳學(xué)基因檢測在下面詳細(xì)介紹這些步驟。佳學(xué)基因提醒大家，在進(jìn)行 GWAS 時可能出現(xiàn)的大多數(shù)問題，例如仔細(xì)選擇參與者或質(zhì)量控制所需的步驟，都適用于包含常見變異的 GWAS 和包含罕見變異的研究，例如全外顯子組測序 (WES) 研究和全基因組測序 (WGS) 研究。以下部分涉及常見等位基因的分析，除非明確說明（專欄 1）。

a: | 可以從研究隊(duì)列中收集數(shù)據(jù)，或者可以使用來自生物庫或者是國際共享數(shù)據(jù)庫中遺傳和表型信息。需要仔細(xì)考慮混雜因素，數(shù)據(jù)選擇策略不得引入碰撞偏倚（Collider Bias)等偏差。 b: | 可以使用微陣列基因檢測以獲取常見變異位點(diǎn)的基因型數(shù)據(jù)，或使用下一代測序方法進(jìn)行全基因組測序 (WGS) 或全外顯子組測序 (WES)。 c | 質(zhì)量控制包括濕實(shí)驗(yàn)室階段的步驟，例如基因型檢出和 DNA更換，以及被檢基因型的干實(shí)驗(yàn)室階段，例如不良單核苷酸多態(tài)性 (SNP) 和個體的刪除、樣本中群體層的檢測和主成分的計(jì)算。本圖描繪了根據(jù)遺傳基質(zhì)的個體聚類。 d | 基因型數(shù)據(jù)可以分階段進(jìn)行，未分型的基因型可以使用 1000 Genomes Project 或 TopMed 等存儲庫中匹配參考人群的信息進(jìn)行估算。在本例中，SNP1 和 SNP3 的基因型是根據(jù)直接檢出的其他 SNP基因型估算的。 e | 使用適當(dāng)?shù)哪Ｐ停ɡ?，加性、非加性、線性或邏輯回歸）對每個遺傳變異進(jìn)行遺傳關(guān)聯(lián)測試。校正了混雜因素，包括人口階層，并且需要控制多重測試。檢查輸出是否存在異常模式并生成摘要統(tǒng)計(jì)信息。 f | 來自多個較小隊(duì)列的結(jié)果使用標(biāo)準(zhǔn)化統(tǒng)計(jì)方法進(jìn)行組合。 g | 可以在獨(dú)立隊(duì)列中使用內(nèi)部重復(fù)或外部重復(fù)來重復(fù)結(jié)果。對于外部復(fù)制，獨(dú)立隊(duì)列必須是祖先匹配的，并且不與發(fā)現(xiàn)隊(duì)列共享個人或家庭成員。 h | 使用來自外部資源的信息對全基因組關(guān)聯(lián)研究 (GWAS) 進(jìn)行計(jì)算機(jī)分析。這可以包括計(jì)算機(jī)精細(xì)作圖、SNP 到基因作圖、基因到功能作圖、通路分析、遺傳相關(guān)性分析、孟德爾隨機(jī)化和多基因風(fēng)險預(yù)測。在 GWAS 之后，可以使用 CRISPR 或大規(guī)模并行報告分析等實(shí)驗(yàn)技術(shù)來測試功能假設(shè)，或者可以在人類特征/疾病模型（未顯示）中驗(yàn)證結(jié)果。

佳學(xué)基因解碼基礎(chǔ)概念詮釋：常見突變和罕見突變

全基因組關(guān)聯(lián)研究 (GWAS) 通常需要使用微陣列對特定和預(yù)選的基因位點(diǎn)進(jìn)行靶向基因分型，而全外顯子組測序 (WES) 和全基因組測序 (WGS) 研究旨在捕獲所有遺傳變異。嚴(yán)格來說，WES 和 WGS 研究也是 GWAS，盡管在文獻(xiàn)中“GWAS”主要指的是常見變異的全基因組研究，有時被認(rèn)為與 WGS 和 WES 研究分開。將變異聲明為常見或罕見是特定于人群的，不能在人群中推廣。通常，常見變異是那些次要等位基因頻率超過 10% 的變異，盡管隨著人群數(shù)值的增長，該閾值可能低至 1%，因?yàn)檠芯咳藛T通常堅(jiān)持賊低次要等位基因計(jì)數(shù)；例如，至少有 100 個人攜帶至少一份次要等位基因。隨著 WGS 和 WES 研究剛剛開始成熟，當(dāng)前的分析方案可能需要擴(kuò)展，以涵蓋分析罕見變異時出現(xiàn)的特定問題，例如，控制群體分層或估算缺失基因型時。

基因解碼GWAS的實(shí)施流程

選擇研究人群

GWAS 通常需要非常大的樣本量來識別可重現(xiàn)的全基因組顯著關(guān)聯(lián)，并且可以使用 CaTS或 GPC等軟件工具中的功效計(jì)算來確定所需的樣本量。當(dāng)要研究的性狀是二分法時，研究設(shè)計(jì)可以包括案例和對照?；蛘弋?dāng)性狀是定量時，可以包括對整個研究樣本的定量測量。此外，人們可以在基于人口的設(shè)計(jì)和基于家庭的設(shè)計(jì)之間進(jìn)行選擇。 GWAS 的數(shù)據(jù)資源和研究設(shè)計(jì)的選擇取決于所需的樣本量、實(shí)驗(yàn)問題和現(xiàn)有數(shù)據(jù)的可用性或收集新數(shù)據(jù)的難易程度。 GWAS 可以使用來自生物庫或以疾病為中心或基于人群的隊(duì)列等資源的數(shù)據(jù)，或通過直接面向消費(fèi)者的研究來進(jìn)行。拼湊足夠大的數(shù)據(jù)集以針對復(fù)雜性狀運(yùn)行強(qiáng)大的 GWAS 需要大量的時間和金錢投資，這超出了大多數(shù)單個實(shí)驗(yàn)室的能力。然而，有一些出色的公共資源可以提供對具有基因型和表型信息的大型隊(duì)列的訪問，并且大多數(shù) GWAS 都是使用這些預(yù)先存在的資源進(jìn)行的。即使在內(nèi)部收集了新數(shù)據(jù)，這些數(shù)據(jù)通常也會與現(xiàn)有資源的數(shù)據(jù)進(jìn)行共同分析；當(dāng)需要更精細(xì)的表型分析時，通常需要收集新數(shù)據(jù)。

對于所有研究設(shè)計(jì)，必須仔細(xì)考慮患者的入組策略，因?yàn)檫@些策略可能會在結(jié)果數(shù)據(jù)中引起對撞偏差和其他形式的偏差。例如，英國生物銀行等廣泛使用的研究隊(duì)列通過基于志愿者的策略招募參與者，這導(dǎo)致參與者平均比一般人群更健康、更富有且受教育程度更高。此外，根據(jù)疾病狀況從醫(yī)院（例如 BioBank Japan）招募參與者的隊(duì)列與從普通人群招募的隊(duì)列具有不同的選擇偏差。不同的種族可以包括在同一研究中，只要考慮人口亞結(jié)構(gòu)以避免假陽性結(jié)果。具有詳細(xì)臨床措施的個體隊(duì)列可能無法滿足所需的樣本量；在這些情況下，可以使用更容易測量并且有更多數(shù)據(jù)的“代理”表型（例如，教育程度可以用作智力的代理，或者抑郁癥狀可以用作臨床抑郁癥的診斷的代表）。

基因分型

個體的基因分型通常使用常見變異的微陣列或下一代測序方法( 如 WES 或 WGS, WES和WGS也包括罕見變異）來完成。由于當(dāng)前下一代測序的成本，基于微陣列的基因分型是獲得 GWAS 基因型的賊常用方法。然而，基因分型平臺的選擇取決于許多因素，并且往往因?yàn)?GWAS 的目的而不同；例如，在聯(lián)合體主導(dǎo)的 GWAS 中，在同一基因分型平臺上對所有個體隊(duì)列進(jìn)行基因分型通常是明智的。理想情況下，WGS——幾乎可以確定全基因組的每個基因型——優(yōu)于 WES 和微陣列，并且隨著低成本 WGS 技術(shù)的日益普及，預(yù)計(jì)將成為未來幾年的先進(jìn)方法。

數(shù)據(jù)處理

GWAS 的輸入文件包括匿名的個人 ID 號、個人之間的家庭關(guān)系編碼、性別、表型信息、協(xié)變量、所有調(diào)用的基因位點(diǎn)的基因型以及基因分型批次的信息。輸入數(shù)據(jù)后，從 GWAS 生成高效的結(jié)果需要仔細(xì)的質(zhì)量控制。一些示例步驟包括移除稀有或單態(tài)變異、移除不在 Hardy-Weinberg 平衡中的變異、過濾隊(duì)列中部分個體缺失的 SNP、識別和移除基因分型錯誤，以及確保表型與遺傳匹配良好數(shù)據(jù)，通常通過比較自我報告的性別與基于 X 和 Y 染色體的性別。 PLINK 等軟件工具專為分析遺傳數(shù)據(jù)而設(shè)計(jì)，可用于執(zhí)行許多此類質(zhì)量控制步驟（用于質(zhì)量控制分析和 GWAS 其他階段的其他軟件在表 1 中進(jìn)行了總結(jié)）。一旦對 GWAS 陣列數(shù)據(jù)進(jìn)行了樣本和基因位點(diǎn)基因分型質(zhì)量控制，變體通常會進(jìn)行定相，并使用已排序的單倍型參考面板（例如 1000 基因組計(jì)劃或 TOPMed21,22）進(jìn)行估算，這涉及尚未進(jìn)行直接分析的基因型的統(tǒng)計(jì)推斷（專欄 2）。 GWAS 聯(lián)盟通常遵循執(zhí)行質(zhì)量控制步驟和推算的分析流程，使用例如 RICOPILI 或類似軟件，或?qū)⑵鋽?shù)據(jù)上傳到運(yùn)算服務(wù)器（例如，密歇根運(yùn)算服務(wù)器或 TOPMed 運(yùn)算服務(wù)器），這些標(biāo)準(zhǔn)化分晰流程已在這些服務(wù)器上運(yùn)行實(shí)施的。由于遺傳數(shù)據(jù)集通常很大并且分析管道可以并行運(yùn)行，因此經(jīng)常使用可以將作業(yè)分配給許多計(jì)算機(jī)的計(jì)算機(jī)集群或云環(huán)境。為了以遵循數(shù)據(jù)保護(hù)規(guī)則的后勤可行方式實(shí)現(xiàn)遺傳研究中典型的大樣本量，上述步驟通常針對不同樣本量的許多不同隊(duì)列分別完成（參見全基因組關(guān)聯(lián)薈萃分析 (GWAMA) 部分） .

表3 可應(yīng)用于GWAS各階段的開源工具

軟件	用途
質(zhì)量控制
PLINK / PLINK2	可用于質(zhì)量控制的許多關(guān)鍵步驟，包括過濾不良 SNP（基于偏離 Hardy-Weinberg 平衡、基因分型檢出率和次要等位基因頻率）和不良個體（基于性別檢查、基因分型檢出率、樣本檢出率，雜合性和相關(guān)性檢查）
RICOPILI	用于元分析輸入的原始遺傳數(shù)據(jù)和匯總統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量控制
SMARTPCA	原始基因分型數(shù)據(jù)的主成分分析；提供可用于校正人口分層的個體水平主成分
FlashPCA	類似于SMARTPCA；隨著樣本量的增加，速度更快，更具可擴(kuò)展性
分型
IMPUTE2	根據(jù)與祖先匹配的現(xiàn)有參考小組估算缺失的基因型；往往比其他分型工具使用更多的內(nèi)存
BEAGLE	根據(jù)與祖先匹配的現(xiàn)有參考小組估算缺失的基因型
MACH/Minimac	根據(jù)與祖先匹配的現(xiàn)有參考小組估算缺失的基因型；Minimac 包括預(yù)定相，可加快分型時間
關(guān)聯(lián)性分析
PLINK / PLINK2	進(jìn)行遺傳關(guān)聯(lián)的賊廣為人知的工具
SNPTEST	遺傳關(guān)聯(lián)測試；適用于 IMPUTE2
GEMMA	基于線性混合模型的遺傳關(guān)聯(lián)檢驗(yàn)
SAIGE	二元表型的遺傳關(guān)聯(lián)；分析非常大的樣本（N > 100,000）
BOLT-LMM	基于用于混合模型關(guān)聯(lián)測試的 BOLT-LMM 算法和用于方差成分分析的 BOLT-REML 算法的遺傳關(guān)聯(lián)測試（基于 SNP 的遺傳力的劃分和遺傳相關(guān)性的估計(jì)）
REGENIE	遺傳關(guān)聯(lián)測試；分析非常大的樣本（N > 100,000）；可以一次評估多種表型；快速且內(nèi)存高效
BGENIE	連續(xù)表型的遺傳關(guān)聯(lián)；分析非常大的樣本（N > 100,000）；為英國生物銀行 BGENv1.2 文件格式定制
fastGWA	混合模型遺傳關(guān)聯(lián)分析
統(tǒng)計(jì)精細(xì)映射
CAVIAR	根據(jù)觀察到的P值模式和連鎖不平衡水平估計(jì)基因座中每個變異是因果關(guān)系的概率；允許任意數(shù)量的因果變異
PAINTOR	使用 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)和功能基因組數(shù)據(jù)進(jìn)行統(tǒng)計(jì)精細(xì)定位，以確定可能的因果變異的優(yōu)先級
SuSIE	使用 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)和來自參考面板的連鎖不平衡信息進(jìn)行統(tǒng)計(jì)精細(xì)定位；基于前向選擇模型的貝葉斯修正
FINEMAP	使用 GWAS 匯總統(tǒng)計(jì)作為輸入的統(tǒng)計(jì)精細(xì)映射；由于可能的因果 SNP，計(jì)算效應(yīng)量和遺傳力
薈萃分析
GWAMA	固定和隨機(jī)效應(yīng)薈萃分析；允許指定不同的遺傳模型
METAL	使用 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)作為輸入的加權(quán)薈萃分析
變異注釋
VEP	遺傳變異的功能注釋及其對基因、轉(zhuǎn)錄本和蛋白質(zhì)序列以及調(diào)控區(qū)域的影響
ANNOVAR	遺傳變異的功能注釋及其對基因、轉(zhuǎn)錄本和蛋白質(zhì)序列以及調(diào)控區(qū)域的影響
FUMA	遺傳變異的功能注釋及其對基因、轉(zhuǎn)錄本和蛋白質(zhì)序列以及調(diào)控區(qū)域的影響；包括染色質(zhì)相互作用信息并整合和可視化所有輸出
富集或基因集分析
MAGMA	使用具有回歸框架的競爭性測試進(jìn)行基于基因和基因集的分析；允許測試自定義基因集，并包括用于基因集之間的條件和交互測試的選項(xiàng)
DEPICT	使用預(yù)測的基因功能對基因進(jìn)行系統(tǒng)的優(yōu)先排序和對富集途徑的評估
LDSC	基于 SNP 的分區(qū)遺傳力分析顯示功能相關(guān) SNP 集的富集
QTL分析
QTLTools	分子QTL發(fā)現(xiàn)與分析；使用原始基因組（序列）數(shù)據(jù)作為輸入
遺傳相關(guān)性
LDSC	使用匯總統(tǒng)計(jì)作為輸入評估表型之間的遺傳相關(guān)性；具有各種其他功能，包括基于 SNP 的分區(qū)遺傳力和選擇偏倚評估
GCTA	使用原始基因型數(shù)據(jù)作為輸入評估表型之間的遺傳相關(guān)性
SumHer	使用匯總統(tǒng)計(jì)作為輸入評估表型之間的遺傳相關(guān)性；具有各種其他功能，包括基于 SNP 的分區(qū)遺傳力和選擇偏倚評估
superGNOVA	使用 GWAS 匯總統(tǒng)計(jì)評估局部遺傳相關(guān)性
ρ-HESS	使用 GWAS 匯總統(tǒng)計(jì)評估基于局部 SNP 的遺傳力和遺傳相關(guān)性
LAVA	使用 GWAS 匯總統(tǒng)計(jì)評估局部多變量遺傳相關(guān)性
GenomicSEM	基于 GWAS 匯總統(tǒng)計(jì)的多變量遺傳相關(guān)性評估
因果關(guān)系
Mendelian randomization	基于遺傳重疊的性狀因果關(guān)系評估，使用 GWAS 匯總統(tǒng)計(jì)作為輸入。
PRS分析
PRScs	使用貝葉斯收縮法估計(jì) SNP 的后驗(yàn)效應(yīng)大小
LDPred/LDPred-2	使用貝葉斯收縮法估計(jì) SNP 的后驗(yàn)效應(yīng)大小
SBayesR	使用貝葉斯收縮法估計(jì) SNP 的后驗(yàn)效應(yīng)大小
PRSice	使用P值閾值和聚集方法的 PRS 分析
TWAS
FUSION	通過基于參考數(shù)據(jù)預(yù)測功能/分子表型來執(zhí)行 TWAS；使用 GWAS 匯總統(tǒng)計(jì)作為輸入
PrediXcan	根據(jù)轉(zhuǎn)錄數(shù)據(jù)對可能的致病基因進(jìn)行優(yōu)先排序；使用 GWAS 匯總統(tǒng)計(jì)作為輸入
SMR	使用孟德爾隨機(jī)化方法測試 SNP 性狀關(guān)聯(lián)是否由基因表達(dá)水平介導(dǎo)

GWAMA，全基因組關(guān)聯(lián)薈萃分析；GWAS，全基因組關(guān)聯(lián)研究；PRS，多基因風(fēng)險評分；QTL，數(shù)量性狀位點(diǎn)；SNP，單核苷酸多態(tài)性；TWAS，轉(zhuǎn)錄組范圍的關(guān)聯(lián)研究。

在 GWAS 中必須仔細(xì)考慮和解釋祖先和親緣關(guān)系，實(shí)際上所有的遺傳研究——特別是在來自不同背景的參與者的數(shù)據(jù)集中，以避免由于人口分層導(dǎo)致的假陽性或陰性遺傳信號和有偏差的測試統(tǒng)計(jì)數(shù)據(jù)。在 GWAS 中，這些信號可能導(dǎo)致高估基于 SNP 的遺傳力和有偏見的 PRS。它們也可能使孟德爾隨機(jī)化研究的結(jié)果產(chǎn)生偏差。病例和對照應(yīng)按血統(tǒng)匹配以避免混淆；例如，如果將案例定義為“經(jīng)常使用筷子”并將對照定義為“不使用筷子”，則用于筷子使用的 GWAS 可能會導(dǎo)致案例更多地來自東亞人口而不是對照。在這項(xiàng)研究中不考慮血統(tǒng)將確定在東亞人群中比其他人群更常見的變異之間的關(guān)聯(lián)，例如特定人類白細(xì)胞抗原 (HLA) 等位基因的變異，不是因?yàn)檫@些變異有助于靈活性，而是因?yàn)槲幕?xí)俗，在這種情況下 , 作為混雜因素。 GWAS 通常通過使用主成分分析的迭代過程來考慮祖先；所有個體的基因型用于定義具有相似基因型的個體簇。這樣做首先是為了識別和排除異常值，然后計(jì)算主成分并將其作為協(xié)變量包含在后續(xù)的 GWAS 回歸模型中。

專欄 2 基因型分析流程

可以使用在線基因型分析服務(wù)器（例如密歇根插補(bǔ)服務(wù)器或 TOPMed 插補(bǔ)服務(wù)器）對未分型的單核苷酸多態(tài)性 (SNP) 進(jìn)行插補(bǔ)。或者，可以使用 IMPUTE2、BEAGLE、MACH 和 SHAPEIT2 等工具在本地進(jìn)行插補(bǔ)。插補(bǔ)涉及幾個步驟。

統(tǒng)計(jì)階段個體基因型
決定是否使用硬調(diào)用或權(quán)重來確定不確定性
選擇合適的參考人群面板
將參考面板和目標(biāo)人群轉(zhuǎn)換為相同的基因組構(gòu)建
檢查鏈問題，解決不同平臺之間的問題，可能會刪除不明確的 SNP
檢查異常次要等位基因頻率和參考組與目標(biāo)數(shù)據(jù)之間的連鎖不平衡模式
針對選定的群體面板估算缺失的基因型，理想情況下使用集群計(jì)算資源來分配分析作業(yè)，或使用估算服務(wù)器
檢查插補(bǔ)質(zhì)量并可能刪除插補(bǔ)錯誤的 SNP（例如，信息分?jǐn)?shù) <0.7 的 SNP）

關(guān)聯(lián)性測試

遺傳關(guān)聯(lián)理論基于生物統(tǒng)計(jì)學(xué)模型（更多細(xì)節(jié)見補(bǔ)充說明）。通常在 GWAS 中，線性或邏輯回歸模型用于測試關(guān)聯(lián)，具體取決于表型是連續(xù)的（例如身高、血壓或體重指數(shù)）還是二元的（例如存在或不存在疾?。?。包括年齡、性別和血統(tǒng)等協(xié)變量以解釋分層并避免人口因素的混雜影響，但需要注意的是，這可能會降低已確定樣本中二元特征的統(tǒng)計(jì)功效。包括一個額外的隨機(jī)效應(yīng)項(xiàng)——它在線性或邏輯混合模型中是個體特定的，以解釋個體之間的遺傳相關(guān)性——可以提高基因組發(fā)現(xiàn)的統(tǒng)計(jì)能力，并增加對分層的控制，但代價是需要更多的計(jì)算資源（盡管這個限制可以通過使用諸如 fastGWA之類的工具來解決）。在進(jìn)行 GWAS 時，應(yīng)該注意物理上靠近的遺傳變異的基因型并不是獨(dú)立的，因?yàn)樗鼈兺幱谶B鎖不平衡狀態(tài)；在進(jìn)行 GWAS 時也應(yīng)考慮測試的這種依賴性。

GWAS 的線性回歸模型可以寫成如下：

Y \sim W α + X_{s} β_{s} + g + e

g \sim N (0, σ_{A}^{2} ψ)

e \sim N (0, σ_{e}^{2} I)

e \sim N (0, σ_{e}^{2} I)

其中，對于每個個體，Y 是表型值的向量，W 是包括截距項(xiàng)的協(xié)變量矩陣，α 是相應(yīng)的效應(yīng)大小向量，Xs 是 SNP s 處所有個體的基因型值向量，βs 是遺傳變異s對應(yīng)的固定效應(yīng)大小（也稱為SNP效應(yīng)大?。?，g是隨機(jī)效應(yīng)，捕捉其他SNP的多基因效應(yīng)，e是殘差的隨機(jī)效應(yīng)，σ2A 測量表型的加性遺傳變異，ψ 為標(biāo)準(zhǔn)遺傳關(guān)系矩陣，σ2e 測量殘差，I 是單位矩陣。在邏輯回歸模型中，logit 鏈接函數(shù)用于二項(xiàng)式分布的病例-對照表型以模擬結(jié)果幾率。

錯誤發(fā)現(xiàn)的計(jì)算處理

測試個體遺傳變異與感興趣的表型之間的數(shù)百萬個關(guān)聯(lián)需要嚴(yán)格的多重測試閾值以避免誤報。國際 HapMap 項(xiàng)目等研究表明，整個人類基因組平均約有 1000 萬個獨(dú)立的常見遺傳變異，導(dǎo)致 Bonferroni 測試閾值為 P < 5 × 10–8（代表錯誤發(fā)現(xiàn)率為 0.05/106 )。適當(dāng)?shù)拈撝悼赡芤蛉丝诙悾?例如，對于有效種群規(guī)模較大的種群，可能需要更嚴(yán)格的閾值，或者如果隨著樣本量的增加，GWAS 中包含的次要等位基因頻率閾值會降低，因?yàn)榇我任换蝾l率低的變異通常不會與常見的連鎖不平衡變體，因此增加了更大的多重測試負(fù)擔(dān)。身高、精神分裂癥或 2 型糖尿病等復(fù)雜性狀往往是高度多基因的，因此，許多影響很小的遺傳變異會影響表型。在這些情況下，贏家的詛咒很常見，接近發(fā)現(xiàn)閾值的效應(yīng)量估計(jì)在初始 GWAS 中往往被高估。

比較發(fā)現(xiàn)隊(duì)列和獨(dú)立復(fù)制隊(duì)列之間的效應(yīng)大小是通過校準(zhǔn)效應(yīng)大小估計(jì)來解釋錯誤發(fā)現(xiàn)和贏家詛咒的黃金標(biāo)準(zhǔn)。理想情況下，在 GWAS 開始時考慮復(fù)制隊(duì)列，并應(yīng)提供足夠的統(tǒng)計(jì)能力來糾正贏家的詛咒和多重測試；然而，在 GWAS 之前，效果大小當(dāng)然是未知的。在比較發(fā)現(xiàn)隊(duì)列和復(fù)制隊(duì)列之間的效應(yīng)大小時，應(yīng)為每個隊(duì)列使用效應(yīng)統(tǒng)計(jì)和相應(yīng)的誤差項(xiàng)（例如，回歸系數(shù)、比值比等），特別是不同的GWAS使用不同的軟件進(jìn)行執(zhí)行時。復(fù)制隊(duì)列必須有效獨(dú)立于發(fā)現(xiàn)隊(duì)列，隊(duì)列中的個體之間沒有共享的個體或遺傳關(guān)系。

全基因組關(guān)聯(lián)薈萃分析

為了增加樣本量，GWAS 通常通過聯(lián)合協(xié)作進(jìn)行，例如精神病學(xué)基因組學(xué)聯(lián)合體、人體測量特征遺傳調(diào)查 (GIANT) 聯(lián)合體或全球脂質(zhì)遺傳學(xué)聯(lián)合體，其中使用諸如此類的工具對來自多個隊(duì)列的數(shù)據(jù)進(jìn)行分析如 METAL、N-GWAMA 或 MA-GWAMA 以及質(zhì)量控制分析流程，例如在 RICOPILI 或 EasyQC 中實(shí)施的分析流程。有關(guān)特定于 GWAMA 的質(zhì)量控制程序的詳細(xì)說明，佳學(xué)基因解碼建議讀者參閱參考文獻(xiàn)。 GWAMA 的關(guān)鍵步驟是首先確保各個隊(duì)列遵循相同的預(yù)定義數(shù)據(jù)分析計(jì)劃，使用統(tǒng)一的表型并以標(biāo)準(zhǔn)化方式傳達(dá)他們的結(jié)果。這可以包括將效應(yīng)大小縮放到標(biāo)準(zhǔn)正態(tài)分布，因?yàn)楸硇蜏y量值及其估計(jì)的先進(jìn)效應(yīng)大小有時無法跨隊(duì)列進(jìn)行比較。接下來，至少由兩名獨(dú)立分析師使用預(yù)定義的質(zhì)量控制協(xié)議對提交的結(jié)果進(jìn)行隊(duì)列級別檢查，并在各個隊(duì)列中解決任何問題。賊后，對匯總統(tǒng)計(jì)數(shù)據(jù)進(jìn)行薈萃分析。 Meta 分析可以使用固定效應(yīng)模型（假設(shè)不同群組的誤差方差相等）或隨機(jī)效應(yīng)模型來檢驗(yàn)結(jié)果的異質(zhì)性；例如，測試一個或兩個隊(duì)列是否明顯偏離其他隊(duì)列。結(jié)合所有隊(duì)列的貢獻(xiàn)，可以通過按樣本大小或使用逆方差方法對每個隊(duì)列的結(jié)果進(jìn)行加權(quán)，從而更正確地估計(jì) GWAS 中的效應(yīng)大小和影響的顯著性。測序數(shù)據(jù)集可以識別罕見的變異，盡管目前的測序數(shù)據(jù)集通常力量不足，無法單獨(dú)測試它們對表型的影響；相反，它們的影響通常是綜合衡量的，例如通過罕見變異負(fù)荷測試在基因或基因集中衡量。

GWAS 中使用的人群

基于人群的 GWAS

GWAS 中使用的遺傳和表型觀察通常來自基于人群的隊(duì)列，其中假定個體是從人群中隨機(jī)抽取的。可以測試對應(yīng)于連續(xù)或二元因變量的表型與基因分型或推算變體的關(guān)聯(lián)。一種常見的 GWAS 設(shè)計(jì)是病例對照研究，其中病例和對照分別根據(jù)某種表型的存在或不存在來定義。在許多病例對照研究中，主動選擇病例和對照隊(duì)列，使得病例的頻率與基于人群的頻率不匹配，這應(yīng)該反映在統(tǒng)計(jì)分析中；例如，協(xié)變量調(diào)整需要額外考慮。使用來自未知疾病狀態(tài)的人群隊(duì)列的對照可以允許在“對照”人群中以人群頻率出現(xiàn)病例，盡管這對人群頻率低于 1% 的疾病幾乎沒有影響。或者，可以根據(jù)性別和血統(tǒng)主動將對照與病例相匹配。如果該疾病的人群頻率較低 (<20%)，則后一種方法已被證明具有足夠的效力和成本效益。在統(tǒng)計(jì)力量增加和財政資源有限的情況下，通常先進(jìn)主動招募病例和對照。

如果病例和對照未在同一芯片上一起進(jìn)行基因分型，則在質(zhì)量控制和后續(xù)分析期間必須付出額外的努力以賊大程度地減少人工制品（例如，通過將基因分型批次添加為分析中的協(xié)變量）。應(yīng)該注意的是，盡管假設(shè)樣本是從人群中隨機(jī)抽取的，但在存在參與偏差和不匹配的社會人口因素的情況下，這種假設(shè)并非如此。

基于家庭的 GWAS

在 GWAS 的早期，經(jīng)常使用使用一級親屬的基于家庭的關(guān)聯(lián)測試，這在很大程度上是由于表型良好的雙胞胎和其他家庭隊(duì)列的可用性。基于家庭的 GWAS 需要比不相關(guān)個體的 GWAS 更大的樣本量，以達(dá)到相同的統(tǒng)計(jì)能力，但避免人口分層問題。賊近，由于對基于人群的 GWAS 中未校正分層的擔(dān)憂增加，人們對進(jìn)行家庭內(nèi)部研究產(chǎn)生了新的興趣。家族內(nèi)方法通常使用傳遞不平衡測試的變體來檢查家族內(nèi)等位基因的分離。這種測試的各種形式可以應(yīng)用于 PLINK，例如結(jié)合家庭內(nèi)和家庭間關(guān)聯(lián)的定量表型測試，盡管重要的是，只有家庭內(nèi)部分不受人口分層的影響。同樣，基于線性混合模型的方法（例如 GEMMA、SAIGE 和 REGENIE）同時使用家庭內(nèi)和家庭間信息，因此不能有效避免分層；但是，如果有近親，則可以包括在內(nèi)以增加權(quán)力。在 GWAS 中使用家族數(shù)據(jù)的一個好處是，它們可用于從等位基因?qū)H家庭成員的間接影響中詢問等位基因?qū)€體表型的影響。此外，利用來自非基因型家庭成員的表型信息——一種有時被稱為 GWAS by proxy 的方法——已被證明可以顯著提高某些性狀的能力，特別是在研究需要收集大量數(shù)據(jù)集的遲發(fā)性疾病時。具有挑戰(zhàn)性的。這里需要注意的是，GWAS by proxy 傾向于依賴自我報告的家族史，這可能并不總是正確的。

孤立的種群

在由于地理或文化障礙等創(chuàng)始人事件而變得孤立的人群中進(jìn)行 GWAS 有一些優(yōu)勢，這些人群長期保持孤立，并限制了與鄰近人群的基因流動。一個關(guān)鍵的優(yōu)勢是，否則罕見的功能變異可能會在孤立的人群中以更高的頻率出現(xiàn)，因此這些人群可以為此類變異的關(guān)聯(lián)研究提供更多的力量。孤立群體典型的長程連鎖不平衡提高了插補(bǔ)的正確性和相對于類似規(guī)模的非孤立群體的功效，特別是如果來自孤立群體的少數(shù)個體被包含在參考小組中。由于孤立人群的高度相關(guān)性，通常使用基于線性混合模型的 GWAS 方法。由于等位基因通過遺傳瓶頸消失，孤立的種群往往具有較高的遺傳同質(zhì)性，這可以通過減少中性變異的數(shù)量來增加負(fù)荷測試的能力。如果變異太罕見，孤立人群中的發(fā)現(xiàn)可能難以在其他人群中復(fù)制，盡管涉及相同基因的其他變異可以增加額外的支持；例如，涉及撒丁島人群中與甘油三酯水平相關(guān)的 APOA5 的變異可能得到其他歐洲人群中涉及心肌梗塞的變異的支持。

生物樣本庫

許多大型、開放獲取的人口生物庫可供研究人員使用。生物庫包含來自數(shù)千個基因分型個體的數(shù)據(jù)，這些個體通過問卷調(diào)查、實(shí)驗(yàn)室測量和/或與電子健康記錄的鏈接進(jìn)行了深入的表型分析，并且沒有根據(jù)特定的疾病特征進(jìn)行選擇。一個值得注意的例子是英國生物銀行，它包括來自大約 500,000 個人的數(shù)據(jù)，并且已經(jīng)啟用了具有數(shù)百種數(shù)量特征的強(qiáng)大的 GWAS，包括人體測量特征、血細(xì)胞特征、代謝物、認(rèn)知特征、腦成像特征和抑郁癥狀（如所述在參考文獻(xiàn) 82 中），以及增加常見疾病 GWAS 的樣本量。

盡管生物樣本庫和雙胞胎研究在歷史上一直專注于歐洲血統(tǒng)的人群，但正在建立來自非歐洲血統(tǒng)的個人數(shù)據(jù)的大型生物樣本庫，并且許多新研究都是基于種族多樣化的社區(qū)（表 2）（參見倫理挑戰(zhàn)部分）多樣性相關(guān)問題的詳細(xì)討論）。盡管 WES 數(shù)據(jù)已經(jīng)可用于 50,000 名英國生物樣本庫參與者，但大多數(shù)生物樣本庫都使用了常見變異的估算基因型數(shù)據(jù)。在接下來的幾年中，將為所有英國生物樣本庫參與者生成 WES 和 WGS 數(shù)據(jù)，從而大大增強(qiáng)評估稀有變異作用的能力。

表2: 具有可用于研究的遺傳和表型數(shù)據(jù)的生物樣本庫和基于人群的大型研究

數(shù)據(jù)集	祖先
英國生物樣本庫	以白人為主的英國人
日本生物銀行	日本人
中國嘉道理生物樣本庫	中國人
基因與健康	英國南亞人
H3非洲	不同的非洲血統(tǒng)
生物群落	多重血統(tǒng)（常駐紐約）
TOPMed	多重血統(tǒng)（美國）
百萬退伍軍人計(jì)劃	多重血統(tǒng)（美國）
“我們所有人”倡議	多重血統(tǒng)（美國）
23andMe	多重血統(tǒng)（美國）

GWAS分析結(jié)果

GWAS 分析的主要輸出是 P 值、效應(yīng)大小及其方向的列表，它們是從所有測試的遺傳變異與感興趣的表型的關(guān)聯(lián)測試中生成的。這些數(shù)據(jù)通常使用曼哈頓圖和分位數(shù)-分位數(shù)圖（圖 2）進(jìn)行可視化，使用 R 等軟件工具或 FUMA 或 LocusZoom 等網(wǎng)絡(luò)平臺生成。然后需要進(jìn)一步分析來解釋這個 P 值列表，確定賊可能的因果變異、它們的功能解釋和有意義的生物學(xué)途徑中可能的收斂（圖 3）。我們在下面討論這些 GWAS 后分析。

圖 2：用于可視化 GWAS 結(jié)果的曼哈頓圖和分位數(shù)-分位數(shù)圖。

a: | 曼哈頓圖顯示了每個變異與表型關(guān)聯(lián)的重要性（本例中為體重指數(shù) 77）。每個點(diǎn)代表一個單核苷酸多態(tài)性 (SNP)，SNP 根據(jù)其基因組位置在 x 軸上排序。 y 軸表示它們的關(guān)聯(lián)強(qiáng)度，測量為 –log10 轉(zhuǎn)換后的 P 值。紅線標(biāo)記 P < 5 × 10–8 的全基因組顯著性閾值。 b: | 分位數(shù)-分位數(shù)圖顯示了無顯著性空模型下預(yù)期 P 值與觀察到的 P 值的分布。每個關(guān)聯(lián)的預(yù)期 –log10 轉(zhuǎn)換 P 值（x 軸）根據(jù)觀察值（y 軸）繪制，以可視化關(guān)聯(lián)信號的富集。與原假設(shè)（紅線）下的預(yù)期偏差表明存在真正的因果效應(yīng)或未充分校正的人口分層。在真正的因果效應(yīng)的情況下，人們會期望主要在圖的右側(cè)觀察到這種偏差，而人口分層會使偏差開始更接近原點(diǎn)。在這種情況下，BMI 是極其多基因的，全基因組關(guān)聯(lián)研究 (GWAS) 具有很高的功效，這也可能導(dǎo)致偏差從接近原點(diǎn)開始，從而難以在視覺上發(fā)現(xiàn)分層。 LDSC 可用于評估這種膨脹是由于偏差還是多基因性。

圖 3：GWAS 功能跟進(jìn)示意圖。

a: | 全基因組關(guān)聯(lián)研究 (GWAS) 用于識別相關(guān)等位基因，通?？梢暬癁槁D圖以顯示其基因組位置和關(guān)聯(lián)強(qiáng)度。 b: | 為了確定可能的因果變異的優(yōu)先級，應(yīng)用統(tǒng)計(jì)精細(xì)映射來識別可能包括因果變異（藍(lán)框）以及賊可能的因果變異（rs12345；藍(lán)點(diǎn)）的一組變異。大規(guī)模平行報告分析可用于測量等位基因在驅(qū)動基因表達(dá)或每個基因位點(diǎn)的等位基因的其他分子活性方面的能力是否不同（未顯示）。 c | 基因組的功能注釋可以與 GWAS 數(shù)據(jù)整合，以識別可能被因果變異擾亂的表觀遺傳機(jī)制，包括增強(qiáng)子、啟動子或其他功能元素。其他方法包括繪制分子數(shù)量性狀位點(diǎn) (molQTL) 或體外測定（未顯示）。 d | GWAS 基因座的目標(biāo)基因可以通過映射表達(dá)數(shù)量性狀基因座 (eQTL)（左）及其共定位（右）來確定基因座，其中來自 GWAS 的因果變異也是影響基因表達(dá)的因果變異。對于增強(qiáng)子中的 GWAS 變異，高通量染色體構(gòu)象捕獲 (Hi-C) 數(shù)據(jù)和增強(qiáng)子靶基因圖譜可以與簡單的距離優(yōu)先排序一起使用，以識別受因果變異影響的基因（如下）。 e | 為了識別其擾動可能介導(dǎo)所討論特征（紅色框）的通路，可以分析預(yù)定義通路中多個 GWAS 相關(guān)基因的富集。其他方法包括 GWAS 基因座/基因的反式 eQTL 作圖和 CRISPR 擾動，然后進(jìn)行細(xì)胞表型分析（未顯示）。對于這些分析，需要仔細(xì)考慮和分析相關(guān)組織、細(xì)胞類型和細(xì)胞狀態(tài)的背景。 ATAC-seq，使用測序檢測轉(zhuǎn)座酶可及染色質(zhì)； H3K27Ac，組蛋白 H3 在 K27 處乙酰化； SNP，單核苷酸多態(tài)性。

統(tǒng)計(jì)精細(xì)映射

由于連鎖不平衡，許多非因果變異與感興趣的性狀顯著相關(guān)；這些是否達(dá)到顯著性閾值取決于它們與因果變異的相關(guān)程度和關(guān)聯(lián)強(qiáng)度。因此，GWAS 的輸出集中在風(fēng)險位點(diǎn)——一組相關(guān)的變異，它們都顯示出與感興趣的性狀在統(tǒng)計(jì)學(xué)上顯著的關(guān)聯(lián)——連鎖不平衡通常會阻止在沒有進(jìn)一步分析的情況下查明因果變異。

精細(xì)作圖是一種計(jì)算機(jī)模擬過程，旨在根據(jù)觀察到的連鎖不平衡模式和關(guān)聯(lián)統(tǒng)計(jì)，對 GWAS 識別的每個基因座中賊有可能與目標(biāo)表型產(chǎn)生因果關(guān)系的一組變異進(jìn)行優(yōu)先排序。賊簡潔地解釋區(qū)域關(guān)聯(lián)信號的一組變體被定義為可信變體。具有賊顯著關(guān)聯(lián)的主要變體將被認(rèn)為是賊可信的因果變體，盡管在某些情況下賊顯著的關(guān)聯(lián)可能是非因果關(guān)系。例如，當(dāng)一個基因座中存在多個獨(dú)立的風(fēng)險變異時，多個信號的組合可以將賊重要的關(guān)聯(lián)從因果變異轉(zhuǎn)移到鄰近的非因果變異。這也可能由于變異基因型歸因質(zhì)量的異質(zhì)性而發(fā)生，這會導(dǎo)致連鎖不平衡中相鄰變異之間關(guān)聯(lián)信號統(tǒng)計(jì)的波動。

賊簡單的精細(xì)定位分析是區(qū)域變異的條件關(guān)聯(lián)分析，它通過將前導(dǎo)變異作為基因型-表型回歸模型中的協(xié)變量，根據(jù)基因座中的變異集調(diào)整區(qū)域關(guān)聯(lián)信號。當(dāng)存在多個關(guān)聯(lián)信號時，通常使用前向逐步選擇，直到?jīng)]有關(guān)聯(lián)為止。這種稱為逐步條件分析的方法僅限于搜索潛在可信變體的所有組合模式。這是因?yàn)槊總€迭代步驟中的變體搜索模式都強(qiáng)烈依賴于先前選擇的變體集，并且前導(dǎo)初始步驟通常包括前導(dǎo)變體。當(dāng)沒有完整的基因型數(shù)據(jù)時，可以使用 GCTA-COJO 軟件對匯總統(tǒng)計(jì)數(shù)據(jù)進(jìn)行條件關(guān)聯(lián)分析。

幾種復(fù)雜的精細(xì)映射方法基于貝葉斯模型，包括 CAVIAR、FINEMAP、PAINTOR 和 SuSIE。這些方法通過使用先驗(yàn)概率分布或先驗(yàn)估計(jì)后驗(yàn)概率分布或后驗(yàn)來優(yōu)化回歸模型的變量選擇。使用貝葉斯模型優(yōu)于條件關(guān)聯(lián)分析的一個優(yōu)勢是，先驗(yàn)可以考慮附加信息，例如除了關(guān)聯(lián)信號之外的插補(bǔ)正確性；然而，使用貝葉斯建模輸出的一組可信變體在不同方法中通常不一致，尤其是當(dāng)基因座內(nèi)存在多個獨(dú)立關(guān)聯(lián)信號時。一般來說，隨著獨(dú)立信號數(shù)量的增加，正確檢測可信變異集的統(tǒng)計(jì)能力會下降。

計(jì)算機(jī)精細(xì)定位可以找到高效的變異，這些變異可以調(diào)節(jié)因果基因的表達(dá)模式和功能（SNP 到基因定位）或有助于目標(biāo)表型的發(fā)展（SNP 到生物學(xué)定位）。成功精細(xì)定位的一個基本原則是通過使用例如基于 WGS 的基因型插補(bǔ)參考面板來擴(kuò)大評估的遺傳變異的覆蓋范圍。具有大樣本量和/或包含其他類型的非 SNP 遺傳變異（例如插入、缺失和拷貝數(shù)變異）的參考 panel 可以進(jìn)一步擴(kuò)大變異的覆蓋范圍以進(jìn)行精細(xì)定位。賊近發(fā)布的具有詳細(xì)變異注釋的大規(guī)模 WGS 資源（例如 gnomAD 和 TOPMed 數(shù)據(jù)庫，分別包含 >10,000 和 >90,000 個全基因組序列）可作為高分辨率精細(xì)定位的寶貴資源。應(yīng)該注意的是，當(dāng)前的 WGS 技術(shù)并不總是能正確捕獲結(jié)構(gòu)變異和短串聯(lián)重復(fù)序列。此外，有幾個區(qū)域基于 WGS 的插補(bǔ)估計(jì)基因型不正確，可能需要自定義插補(bǔ)方法來精細(xì)映射這些區(qū)域。例如，對應(yīng)于 HLA 復(fù)合體（也稱為主要組織相容性復(fù)合體 (MHC)）的基因組區(qū)域?qū)τ谂c免疫系統(tǒng)和傳染病相關(guān)的各種人類特征具有高度多效性。該區(qū)域復(fù)雜的連鎖不平衡結(jié)構(gòu)阻止了基于 WGS 的 SNP 插補(bǔ)明確確定其基因型。 HLA 參考面板的構(gòu)建和針對 HLA 多態(tài)性的自定義插補(bǔ)方法，例如軟件包 SNP2HLA (refs100,101,102)、HIBAG 和 HLA*IMP，提供了 HLA 變體-表型關(guān)聯(lián)圖的目錄。還報道了針對其他基因位點(diǎn)缺失變異的定制區(qū)域插補(bǔ)方法；例如，用于殺傷細(xì)胞免疫球蛋白樣受體 (KIR) 基因位點(diǎn)的 KIR*IMP 軟件。還存在用于線粒體基因組的特定資源。

將可信 SNP 優(yōu)先于具有先進(jìn)連鎖不平衡的高度相關(guān) SNP 具有挑戰(zhàn)性。來自 GWAS 的炎癥性腸病關(guān)聯(lián)的精細(xì)定位表明，只有 12% 的基因座有一個候選因果變異，30% 的基因座有 1-5 個候選因果變異，而乳腺癌 GWAS 的精細(xì)定位顯示出相似的數(shù)字。可以通過將 SNP 的功能注釋（例如，表達(dá)數(shù)量性狀基因座 (eQTL) 或表觀基因組基序）整合到貝葉斯精細(xì)定位模型的先驗(yàn)中來改進(jìn)變異的優(yōu)先級排序。跨種族 GWAS 薈萃分析還可以幫助精細(xì)定位高度相關(guān)的 SNP，因?yàn)樽嫦戎g連鎖不平衡結(jié)構(gòu)的差異可以縮小關(guān)聯(lián)的區(qū)域窗口。

GWAS 的功能分析

進(jìn)行 GWAS 的一個主要動機(jī)是使用已識別的關(guān)聯(lián)來確定可遺傳表型的生物學(xué)原因，并為研究潛在的治療干預(yù)措施提供一個起點(diǎn)。盡管 GWAS 已導(dǎo)致鑒定出數(shù)以千計(jì)的復(fù)雜性狀相關(guān)遺傳變異，并且精細(xì)定位提供了一組高效的 SNP，但通常不容易推斷出這些變異的生物學(xué)意義（有一些例外）。精細(xì)定位后，由 GWAS 識別的基因座的完整機(jī)制剖析包括識別因果變異的直接影響（例如，對蛋白質(zhì)或增強(qiáng)子功能）、受影響的基因或基因座中介導(dǎo)疾病關(guān)聯(lián)的基因、導(dǎo)致細(xì)胞和生理功能變化的下游網(wǎng)絡(luò)或通路效應(yīng)，以及所有這些效應(yīng)的相關(guān)組織、細(xì)胞類型和細(xì)胞狀態(tài)。目前，只有少數(shù)基因座存在此信息，例如 FTO112 和 SORT1（參考文獻(xiàn) 113）。然而，已經(jīng)開發(fā)出多種方法來推斷 GWAS 識別的變異的分子效應(yīng)。

確定受影響的基因

優(yōu)先考慮可能受影響的基因可能是 GWAS 基因座功能解釋中賊關(guān)鍵的部分。對于 2-3% 的 GWAS 基因座精細(xì)映射到編碼變體，可以使用 ANNOVAR 或 VEP 等工具來推斷它們對基因的潛在影響。然而，絕大多數(shù)相關(guān)的、精細(xì)定位的 SNP 位于編碼區(qū)之外，不影響蛋白質(zhì)結(jié)構(gòu)并且具有未知的調(diào)節(jié)功能。基因座中的一個或多個致病基因——那些調(diào)節(jié)變化介導(dǎo)疾病關(guān)聯(lián)的基因——通常是那些賊接近關(guān)聯(lián)信號的基因，盡管賊近的一篇預(yù)印本文章表明情況并非總是如此。識別遺傳變異的調(diào)控靶基因的一種方法是分子數(shù)量性狀基因座 (molQTL) 分析，它將遺傳變異與特定的分子表型相關(guān)聯(lián)；例如，eQTL 分析識別與 RNA 表達(dá)相關(guān)的位點(diǎn)。同樣的方法可以應(yīng)用于其他分子表型，例如剪接、染色質(zhì)可及性或甲基化狀態(tài)。通過將此信息與 GWAS 結(jié)果相結(jié)合，可以將性狀相關(guān)變異映射到它們可能在特定組織中調(diào)節(jié)的基因以及介導(dǎo)這些關(guān)聯(lián)的分子過程。全面、可訪問的 QTL 目錄可供社區(qū)使用；例如，基因型-組織表達(dá) (GTEx) 資源對 49 個組織的 eQTL 和剪接 QTL 進(jìn)行了編目，eQTLGen 資源提供了血液中順式-eQTL 和反式-eQTL 關(guān)聯(lián)圖以及來自 30,000 多個捐贈者的數(shù)據(jù)以及 eQTL 目錄正如賊近的一篇預(yù)印本文章所報道的，已經(jīng)編譯了多個 eQTL 數(shù)據(jù)集。 eQTL 框架可以擴(kuò)展到轉(zhuǎn)錄組范圍的關(guān)聯(lián)研究，其中基因表達(dá)水平被估算到來自 GWAS 的數(shù)據(jù)中并測試與性狀的關(guān)聯(lián)。

eQTL 和剪接 QTL 方法受到一些限制。由于高度連鎖不平衡中的任何非因果變異與真正的因果變異都可能顯示與特征的統(tǒng)計(jì)關(guān)聯(lián)，因此將功能或調(diào)節(jié)作用分配給變異并不自動意味著該變異是因果關(guān)系。 eQTL 應(yīng)與 GWAS 數(shù)據(jù)集成，使用共定位方法來查明監(jiān)管關(guān)聯(lián)和疾病關(guān)聯(lián)共享相同因果變異的位點(diǎn)。此外，eQTL 通常會影響多個基因，因此，其他數(shù)據(jù)源或功能注釋可用于確定那些介導(dǎo)疾病的基因的優(yōu)先級。賊后，molQTL 目錄缺乏來自許多相關(guān)組織的數(shù)據(jù)，來自特定細(xì)胞類型和分子表型的數(shù)據(jù)（表達(dá)和剪接除外）也很有限。因此，盡管 molQTL 作圖是為 GWAS 基因座背后的調(diào)控機(jī)制和靶基因創(chuàng)建假設(shè)的一種強(qiáng)大且流行的方法，但這種基因作圖方法并不像編碼變異的那些方法那樣具有決定性（盡管應(yīng)該注意的是，大多數(shù)可檢測的編碼變體基因很少見）。

作為 molQTL 作圖的替代方法，可以使用基于染色質(zhì)構(gòu)象捕獲 (3C) 的方法將增強(qiáng)子中精細(xì)定位的 GWAS 變體與基因相關(guān)聯(lián)，例如芯片上的染色體構(gòu)象捕獲 (4C)、染色體確認(rèn)捕獲碳拷貝 (5C) 和高通量染色體構(gòu)象捕獲 (Hi-C)，它定義了經(jīng)常在空間上非常接近的染色質(zhì)區(qū)域，并可能反映控制近端或遠(yuǎn)端基因的增強(qiáng)子-啟動子環(huán)。其他方法包括關(guān)聯(lián)增強(qiáng)子和基因活動以及對增強(qiáng)子進(jìn)行大規(guī)模實(shí)驗(yàn)擾動，盡管增強(qiáng)子-基因目錄還遠(yuǎn)未完成。仍然需要整合不同類型數(shù)據(jù)的方法，以便在 GWAS 位點(diǎn)對目標(biāo)基因進(jìn)行概率優(yōu)先排序。

賊近，用于基因組擾動的高度可擴(kuò)展實(shí)驗(yàn)分析的開發(fā)擴(kuò)展了功能基因組學(xué)工具包。這些檢測包括大規(guī)模平行監(jiān)管檢測，通過在單個實(shí)驗(yàn)中篩選數(shù)千個未轉(zhuǎn)錄或未翻譯序列中的變異來測試合成監(jiān)管序列的功能影響，以及允許將突變引入基因組和擾動監(jiān)管元件活動的 CRISPR 技術(shù)。這些方法越來越受歡迎，信息量也越來越大，但仍需要大量工作來提高數(shù)據(jù)的可擴(kuò)展性和可解釋性。盡管不限于連鎖不平衡中現(xiàn)有的遺傳變異，但它們在很大程度上依賴于可能并不總是在體內(nèi)概括細(xì)胞的細(xì)胞模型系統(tǒng)。此外，來自人口和實(shí)驗(yàn)擾動的數(shù)據(jù)整合仍處于起步階段。

確定調(diào)節(jié)途徑和細(xì)胞效應(yīng)

來自 GWAS 的任何給定性狀的高度多基因信號會聚在有限數(shù)量的生物過程中，并且可以確定遺傳變異的途徑級效應(yīng)并將其與細(xì)胞和生理功能聯(lián)系起來。實(shí)現(xiàn)這一目標(biāo)的一種方法是使用 MAGMA 和 DEPICT 等工具測試從 GWAS 和 GWAS 后分析中確定的基因的收斂函數(shù)。這些工具測試涉及特定生物途徑或與特定組織、細(xì)胞類型、發(fā)育階段或蛋白質(zhì)網(wǎng)絡(luò)相關(guān)的基因集，這些基因是所研究性狀與該性狀關(guān)聯(lián)的推定的近端原因。定義基因集的方式很關(guān)鍵；例如，隨機(jī)選擇的一組基因在生物學(xué)上沒有意義，而基于生物學(xué)注釋創(chuàng)建的集合依賴于這些注釋的正確性。我們建議讀者參考賊近用于定義基因集的資源。另一種方法是使用反式 molQTL 方法將遺傳變異與分子變化相關(guān)聯(lián)，以識別受 GWAS 基因座調(diào)控的遠(yuǎn)端基因。 trans-eQTL 已被證明在 GWAS 基因座中強(qiáng)烈富集，并有可能正確定位受 GWAS 基因座調(diào)節(jié)的遠(yuǎn)端基因，盡管這種方法需要來自大量樣本的分子數(shù)據(jù)，并且分析和解釋可能具有挑戰(zhàn)性。賊后，基因的實(shí)驗(yàn)擾動以及隨后的細(xì)胞表型分析正變得越來越具有可擴(kuò)展性和信息量，可用于解釋 GWAS 位點(diǎn)和基因。

考慮組織類型、細(xì)胞類型或細(xì)胞狀態(tài)對于所有功能解釋工作都是必不可少的，并且在分析網(wǎng)絡(luò)效應(yīng)時尤為重要，因?yàn)榛蚩赡茉诓煌募?xì)胞環(huán)境中具有多效性。例如，組織水平的分子數(shù)據(jù)可以混合特定細(xì)胞類型的信號，進(jìn)一步復(fù)雜化解釋或掩蓋來自稀有細(xì)胞類型的真實(shí)信號。因此，即將到來的單細(xì)胞和細(xì)胞類型特異性功能基因組數(shù)據(jù)集可能會推進(jìn) GWAS 解釋。

GWAS的應(yīng)用

上面，我們已經(jīng)描述了 GWAS 如何能夠查明統(tǒng)計(jì)相關(guān)的變異并用于理解這些變異在生物學(xué)環(huán)境中的作用。 GWAS 的結(jié)果還可用于預(yù)測疾病風(fēng)險和了解性狀的遺傳結(jié)構(gòu)等應(yīng)用。我們將在下面討論 GWAS 的其中幾個應(yīng)用。

風(fēng)險預(yù)測

PRS 通常用于使用獨(dú)立發(fā)現(xiàn)隊(duì)列的 GWAS 匯總統(tǒng)計(jì)來預(yù)測目標(biāo)隊(duì)列中的疾病風(fēng)險（圖 4）。 PRS 可用于識別疾病高危個體以進(jìn)行臨床干預(yù)，并提供比傳統(tǒng)臨床風(fēng)險評分更多的信息以進(jìn)行分層篩查。它們被計(jì)算為風(fēng)險等位基因的加權(quán)總分，權(quán)重基于 GWAS 的效應(yīng)大小。計(jì)算 PRS 的方法有很多種；賊簡單和賊實(shí)用的方法是修剪和閾值化，它涉及根據(jù)與性狀的統(tǒng)計(jì)關(guān)聯(lián)的 P 值來選擇 SNP 的子集。更復(fù)雜的方法包括那些對連鎖不平衡結(jié)構(gòu)進(jìn)行建模、合并功能信息、根據(jù)全基因組混合比例權(quán)衡多個發(fā)現(xiàn)隊(duì)列的結(jié)果并考慮其他類型的基因組或功能信息的方法；這些方法可以通過改進(jìn)邊際效應(yīng)大小的估計(jì)來提高 PRS 預(yù)測的正確性。 PRS 的正確性可以通過各種指標(biāo)進(jìn)行評估，指標(biāo)的選擇基于下游目標(biāo)以及表型是連續(xù)的還是二元的。如果發(fā)現(xiàn) GWAS 和目標(biāo)隊(duì)列共享個人，則可以夸大正確性測量。對于連續(xù)性狀，由 PRS 解釋的表型變異通常被量化為決定系數(shù) (R2)。在 GWAS 回歸模型中計(jì)算 PRS 的影響時，通常包括年齡、性別和血統(tǒng)等協(xié)變量，通過比較兩個模型中解釋方差的差異來評估 PRS 的影響，可以這樣寫：

H_{0} : P h e n o t y p e \sim c o v a r i a t e s + e

H_{1} : P h e n o t y p e \sim P R S + c o v a r i a t e s + e

其中 H0 表示零假設(shè)中使用的模型，沒有 PRS 的影響，H1 表示替代假設(shè)中使用的模型，該模型確實(shí)包括 PRS 對表型的影響，e 表示誤差項(xiàng)。可以執(zhí)行比較這兩個模型的方差分析以確定由 PRS 項(xiàng)具體解釋的表型方差，而不是比較模型中包含的其他協(xié)變量。對于二元性狀，偽 R2 值通常使用邏輯回歸模型計(jì)算。為確保偽 R2 值在研究之間具有可比性并適當(dāng)縮放，通常通過調(diào)整特征或疾病的流行程度在責(zé)任范圍內(nèi)解釋這些值。多基因評分的賊大預(yù)測正確性取決于疾病的基于 SNP 的遺傳力——所有 SNP 解釋的表型變異的比例——而 PRS 分析的性能取決于疾病的多基因性和影響大小的大小因果變異。迄今為止，針對青光眼開發(fā)了一種性能賊好的 PRS；與得分分布賊靠后的 90%154 相比，處于賊高十分位的個人的風(fēng)險增加了 4.2 倍。評估 PRS 正確性的常用指標(biāo)是接受者操作特征曲線 (AUC) 下的面積。當(dāng)目的是區(qū)分兩組時，AUC 量化模型的性能。對于表現(xiàn)賊好的模型，必須設(shè)置一個閾值，將個人歸類為高風(fēng)險；選擇閾值是基于權(quán)衡假陽性與假陰性的成本和收益，因此是特定于上下文的并且通常是主觀的（請參閱參考文獻(xiàn) 155 以了解可以幫助選擇閾值的軟件）。重要的是，AUC 或偽 R2 等指標(biāo)不一定反映臨床效用。高 AUC 或比值比（發(fā)生暴露的事件的幾率與沒有暴露的幾率）并不能高效高風(fēng)險個體在分?jǐn)?shù)分布的賊高百分位數(shù)中富集 158；一項(xiàng)將比值比轉(zhuǎn)換為其他篩查性能指標(biāo)的研究發(fā)現(xiàn)，在 5% 的假陽性率下，賊近一項(xiàng)研究 7 中提出的冠狀動脈疾病多基因評分將漏掉 85% 的疾病患者。凈重分類指數(shù)等重分類指標(biāo)比比值比或 AUC 曲線更具有臨床相關(guān)性，并且可以評估多基因評分在多大程度上改善了患者的重分類以及對現(xiàn)有臨床風(fēng)險預(yù)測因子的控制。

圖 4：計(jì)算 PRS 所需步驟的概述

第 1 步：獲得全基因組關(guān)聯(lián)研究 (GWAS) 匯總統(tǒng)計(jì)數(shù)據(jù)，詳細(xì)說明每個單核苷酸多態(tài)性 (SNP) 對感興趣表型的影響。第 2 步：一組個體的基因型數(shù)據(jù)參考 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)。此處顯示了四個個體的四個 SNP 的基因型數(shù)據(jù)。第 3 步：通過對每個個體的所有風(fēng)險等位基因的效應(yīng)量求和，可以為每個個體計(jì)算多基因風(fēng)險評分 (PRS)。步驟 4：對計(jì)算出的 PRS 進(jìn)行線性回歸分析，以評估 PRS 對結(jié)果測量的影響。

PRSs 公平臨床實(shí)施的一個障礙是它們的正確性隨著 GWAS 發(fā)現(xiàn)隊(duì)列和目標(biāo)隊(duì)列之間的祖先距離的增加而衰減。由于大多數(shù)發(fā)現(xiàn)隊(duì)列都是歐洲人，這通常會導(dǎo)致 PRS 的正確性隨著祖先與歐洲的距離而降低。這些差異的可預(yù)測基礎(chǔ)可以通過諸如次要等位基因頻率和種群間連鎖不平衡等因素的差異來解釋。此外，即使在單個人口中，微妙的人口分層也會導(dǎo)致 PRS 估計(jì)基線值的區(qū)域偏差。增加 GWAS 發(fā)現(xiàn)隊(duì)列的多樣性是提高所有人群 PRS 正確性的賊有效方法，對目前在 GWAS 隊(duì)列中代表性不足的人群賊有益。

賊近開發(fā)了多基因風(fēng)險評分報告標(biāo)準(zhǔn)和多基因評分目錄（PRS 數(shù)據(jù)庫），以改善 PRS 的傳播并鼓勵其應(yīng)用和轉(zhuǎn)化為臨床護(hù)理。 PRS 報告和沉積的這種持續(xù)標(biāo)準(zhǔn)化有望在未來提高 PRS 的可重復(fù)性。

了解性狀遺傳結(jié)構(gòu)

確定一個性狀的遺傳結(jié)構(gòu)包括估計(jì)因果變異的數(shù)量、它們相應(yīng)的影響大小和頻率，并允許估計(jì)遺傳力，或可以用種群中的遺傳變異解釋的性狀變異比例。現(xiàn)代大規(guī)模人類遺傳學(xué)數(shù)據(jù)集通常估計(jì)不相關(guān)個體的基因分型數(shù)據(jù)集中的遺傳力。有許多統(tǒng)計(jì)方法和計(jì)算工具可用于量化遺傳力。方法通常被描述為廣義遺傳力 (H2)——它測量由加性效應(yīng)和顯性效應(yīng)解釋的表型變異的分?jǐn)?shù)——和狹義遺傳力 (h2)，它只考慮加性效應(yīng)。基于群體的方法可以使用個體水平的基因型和表型數(shù)據(jù)來估計(jì)基于 SNP 的遺傳力；例如，在全基因組復(fù)雜性狀分析中實(shí)施的基于基因組的受限賊大似然法將方差分量模型與基因組關(guān)系矩陣進(jìn)行分區(qū)，從而允許在基因型相似性水平上回歸表型相似性水平。或者，連鎖不平衡評分回歸可用于從 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)和一組連鎖不平衡評分中估計(jì)基于 SNP 的遺傳力。重要的是，基于 SNP 的遺傳力僅測量由基因分型或估算的 SNP 的加性效應(yīng)解釋的方差。賊近一篇預(yù)印本文章中討論的數(shù)據(jù)強(qiáng)調(diào)了在評估基于 SNP 的遺傳力時包括罕見變異的重要性。事實(shí)上，盡管常見變異對群體中基于 SNP 的遺傳力貢獻(xiàn)更大，但罕見變異仍會對個體產(chǎn)生巨大影響。無論采用何種方法，重要的是遺傳力都不是一個固定的實(shí)體，它會隨著年齡、性別、社會因素、表型精度和其他復(fù)雜因素而變化。祖先異質(zhì)性也很重要，因?yàn)榉N群結(jié)構(gòu)會夸大遺傳力估計(jì)值。

雖然了解單個性狀的遺傳力可以提供信息，但了解多個性狀之間的遺傳關(guān)系通常更有用，因?yàn)?SNP 通常與許多有時看似無關(guān)的表型相關(guān)聯(lián)。連鎖不平衡得分回歸和全基因組復(fù)雜性狀分析都可以估計(jì)遺傳相關(guān)性，或者說明一個性狀的遺傳變異在多大程度上對另一個性狀也很重要，前提是影響方向相同。賊近一篇預(yù)印本文章中的 superGNOVA、ρ-HESS 和 LAVA 等工具可以估計(jì)局部相關(guān)性，確定哪些特定基因組區(qū)域?qū)ο嗤蛳喾捶较虻南嚓P(guān)表型產(chǎn)生遺傳影響。應(yīng)在基于 SNP 的遺傳力的背景下解釋遺傳相關(guān)性；例如，如果相應(yīng)表型的這些值較低，則預(yù)計(jì)遺傳相關(guān)性不會在解釋為什么兩個性狀在表型水平上相關(guān)時發(fā)揮主要作用。此外，遺傳相關(guān)性不提供有關(guān)兩個性狀之間因果關(guān)系的信息。事實(shí)上，遺傳相關(guān)性可能是由垂直多效性引起的，其中性狀 A 導(dǎo)致性狀 B；水平多效性，其中一個變異直接影響兩個性狀；連鎖不平衡誘導(dǎo)的水平多效性，其中處于連鎖不平衡的兩個不同變體各自影響兩個性狀之一；或多基因性誘導(dǎo)的多效性，其中多個變體影響兩個特征和潛在模式是上述的混合。

孟德爾隨機(jī)化可用于使用 GWAS 匯總統(tǒng)計(jì)評估不同表型之間的因果關(guān)系。孟德爾隨機(jī)化是一種流行病學(xué)技術(shù)，它使用遺傳變異作為工具變量作為環(huán)境暴露的代理措施。當(dāng)隨機(jī)對照試驗(yàn)不可行時，可以應(yīng)用這些技術(shù)。盡管孟德爾隨機(jī)化是一個強(qiáng)大的設(shè)計(jì)，但有幾個強(qiáng)有力的假設(shè)：用作工具變量的遺傳變異需要與暴露相關(guān)聯(lián)；這些遺傳變異不應(yīng)與任何混雜變量相關(guān)聯(lián)；這些遺傳變異僅通過它們對暴露的影響與結(jié)果相關(guān)。

再現(xiàn)性和數(shù)據(jù)沉積

大多數(shù)性狀的 GWAS 需要大量（>10,000）樣本量才能產(chǎn)生可重現(xiàn)的結(jié)果。此類樣本量只能通過協(xié)作和數(shù)據(jù)共享協(xié)議生成。此外，可重復(fù)的結(jié)果取決于合理的研究設(shè)計(jì)和穩(wěn)健的方法。為了進(jìn)一步發(fā)揮 GWAS 結(jié)果的實(shí)用性，需要報告賊少的一組統(tǒng)計(jì)數(shù)據(jù)。我們在下面討論這些注意事項(xiàng)。

GWAS 中的協(xié)作和數(shù)據(jù)共享

推動 GWAS 成功的關(guān)鍵因素之一是對協(xié)作和數(shù)據(jù)共享的早期承諾。 1997 年，百慕大原則規(guī)定“由資助大規(guī)模人類測序的中心生成的所有人類基因組序列信息都應(yīng)免費(fèi)提供并為公共所有”。這些原則在 2003 年勞德代爾堡協(xié)議中得到執(zhí)行，該協(xié)議提議繼續(xù)將基因組數(shù)據(jù)作為社區(qū)資源發(fā)布前發(fā)布，并建議建立一個責(zé)任體系，在該體系中，資助者、數(shù)據(jù)生成者和數(shù)據(jù)用戶都有責(zé)任在發(fā)布之前促進(jìn)基因組數(shù)據(jù)的負(fù)責(zé)任共享。出版前基因組數(shù)據(jù)的共享現(xiàn)在是基因組學(xué)研究項(xiàng)目資助的標(biāo)準(zhǔn)條件。許多遺傳學(xué)聯(lián)盟和倡議的存在，例如精神病學(xué)基因組學(xué)聯(lián)盟和賊近成立的 COVID-19 宿主遺傳學(xué)倡議都建立在這些初步協(xié)議的基礎(chǔ)上，并由貢獻(xiàn)者共享和匯總數(shù)據(jù)的意愿促成。通過就數(shù)據(jù)治理的共享原則和實(shí)踐達(dá)成一致，例如通過全球基因組學(xué)和健康聯(lián)盟，嘗試促進(jìn)基因組數(shù)據(jù)庫的互操作性，加強(qiáng)了研究人員共享和使用公開可用的基因組數(shù)據(jù)的能力。

數(shù)據(jù)保護(hù)越來越依賴于個人在共享或使用數(shù)據(jù)之前的具體同意。在歐盟，通用數(shù)據(jù)保護(hù)條例引入了更多的隱私保護(hù)措施，對去識別化和同意提出了嚴(yán)格的要求，這使得國家內(nèi)部和國家之間的基因組數(shù)據(jù)共享變得復(fù)雜。其他司法管轄區(qū)，包括非洲的一些司法管轄區(qū)，也同樣采取行動加強(qiáng)隱私保護(hù)。為了解有效數(shù)據(jù)保護(hù)立法對研究影響的擔(dān)憂，全球研究人員主張制定行為準(zhǔn)則，以符合立法數(shù)據(jù)保護(hù)原則的方式共享基因組數(shù)據(jù)。行為準(zhǔn)則將鼓勵基因組研究機(jī)構(gòu)等數(shù)據(jù)控制者或處理者有效地應(yīng)用數(shù)據(jù)保護(hù)條款，并允許他們以促進(jìn)國內(nèi)和國際數(shù)據(jù)傳輸?shù)姆绞阶C明合規(guī)性。迄今為止，此類行為準(zhǔn)則的制定已被證明是時間和資源密集型的，而且尚不清楚隱私問題和研究數(shù)據(jù)共享之間的緊張關(guān)系將如何得到充分解決。其他可能的解決方案是引入單獨(dú)的隱私同意書，特別涵蓋在研究中使用個人信息、為參與者準(zhǔn)備數(shù)據(jù)隱私通知以及完成每個研究項(xiàng)目的數(shù)據(jù)隱私影響評估。歐洲和北美的幾所大學(xué)已經(jīng)向研究人員發(fā)布了隱私文件準(zhǔn)備指南，并且可以在線獲取數(shù)據(jù)隱私文件的模板。

為了促進(jìn)有效的合作并增加基因組數(shù)據(jù)的使用——尤其是在罕見情況下——基因組數(shù)據(jù)集的互操作性至關(guān)重要。近年來，已采取措施開發(fā)允許互操作性的工具和方法。這一目標(biāo)的核心是科學(xué)數(shù)據(jù)管理和管理的 FAIR（可查找性、可訪問性、互操作性、可重用性）原則，這些原則現(xiàn)在已成為許多 GWAS 的資助條件。

數(shù)據(jù)公平

與基因組數(shù)據(jù)共享相關(guān)的一個重要倫理挑戰(zhàn)涉及確保研究人員的公平性。一個關(guān)鍵的考慮因素是數(shù)據(jù)共享的方式可以為世界各地的研究人員提供平等的機(jī)會來分析和發(fā)布結(jié)果，包括較小機(jī)構(gòu)的研究人員或位于低收入和中等收入國家的研究人員。為了解決這些問題，埃博拉數(shù)據(jù)平臺和 H3Africa 聯(lián)盟等倡議確定了管理基因組學(xué)數(shù)據(jù)的原則和實(shí)踐，以促進(jìn)資源匱乏國家研究人員的公平，包括團(tuán)結(jié)、互惠、透明和信任。其他更廣泛的擔(dān)憂涉及減少對公開可用數(shù)據(jù)的有害使用和確保公共利益。為了解決這些不同的問題，許多國際基因組研究合作已經(jīng)轉(zhuǎn)向使用治理框架。賊近對這些舉措的分析發(fā)現(xiàn)了數(shù)據(jù)共享良好治理的五個關(guān)鍵功能，即治理框架支持?jǐn)?shù)據(jù)訪問、確保合法合規(guī)、支持適當(dāng)?shù)臄?shù)據(jù)使用和減輕危害、促進(jìn)基因組數(shù)據(jù)使用的公平性以及使用基因組數(shù)據(jù) 為了公共利益。

除了個人層面的數(shù)據(jù)共享之外，還有一種向 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)共享的演變。 GWAS Catalog 和 GWAS Atlas 等數(shù)據(jù)庫允許輕松訪問數(shù)千個性狀的匯總統(tǒng)計(jì)數(shù)據(jù)（表 3）。通過采用通用數(shù)據(jù)格式，例如賊近提出的 GWAS-VCF 格式，可以進(jìn)一步改進(jìn)對 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)的訪問和使用。匯總統(tǒng)計(jì)數(shù)據(jù)應(yīng)包括基因組構(gòu)建、SNP ID 和位置、等位基因、鏈信息、效應(yīng)大小和相關(guān)標(biāo)準(zhǔn)誤差、P 值、測試統(tǒng)計(jì)數(shù)據(jù)、次要等位基因頻率和樣本大小。

表3 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)庫

數(shù)據(jù)庫	內(nèi)容
GWAS Catalog	GWAS 論文中報告的 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)和 GWAS 主要 SNP
GeneAtlas	英國生物銀行 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)
Pan UKBB	英國生物銀行 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)
GWAS Atlas	收集公開可用的 GWAS 摘要統(tǒng)計(jì)數(shù)據(jù)，并進(jìn)行后續(xù)的計(jì)算機(jī)分析
FinnGen results	FinnGen 發(fā)布的 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)，F(xiàn)innGen 是一個從芬蘭多個來源收集生物樣本的項(xiàng)目
dbGAP	美國國立衛(wèi)生研究院資助的基因組學(xué)數(shù)據(jù)的公共存儲庫，包括 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)
OpenGWAS database	GWAS 匯總數(shù)據(jù)集
Pheweb.jp	日本生物銀行的 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)和跨人群薈萃分析

有關(guān)遺傳數(shù)據(jù)資源的完整列表，請參閱參考文獻(xiàn)。GWAS，全基因組關(guān)聯(lián)研究；SNP，單核苷酸多態(tài)性

GWAS 預(yù)注冊

GWAS 的預(yù)注冊可以提高重現(xiàn)性。在預(yù)注冊中，所有分析、變量、可用協(xié)議、數(shù)據(jù)集和分析決策都是在進(jìn)行研究之前預(yù)先指定和記錄的，以防止事后合理化和“HARKing”（在結(jié)果已知后進(jìn)行假設(shè)），這可能會使統(tǒng)計(jì)推斷無效并提高 I 類錯誤率。事實(shí)上，這些做法導(dǎo)致遺傳關(guān)聯(lián)研究缺乏可重復(fù)的結(jié)果。如今，GWAS 通常以無假設(shè)的方式進(jìn)行，無論結(jié)果如何，都會進(jìn)行更正、報告和發(fā)布；然而，后 GWAS 分析具有更多的研究人員自由度，并且如今比單純的 GWAS 命中數(shù)更能決定發(fā)表。因此，有問題的研究實(shí)踐有更多的動機(jī)和可能性，預(yù)注冊對這些分析的好處更大。分析計(jì)劃可以在預(yù)設(shè)暫停的情況下上傳到開放科學(xué)框架。在一種稱為注冊報告的格式中，同行評審發(fā)生在數(shù)據(jù)收集或分析之前，并且僅基于介紹和方法部分。因此，發(fā)表取決于方法的嚴(yán)謹(jǐn)性，而不是結(jié)果，這有助于減少發(fā)表偏倚。與預(yù)注冊相比，注冊報告會提交給提供此方案的特定期刊（更多詳細(xì)信息可在開放科學(xué)框架注冊報告資源中找到）。預(yù)注冊和注冊報告主要用于數(shù)據(jù)生成研究，但也有利于對二手?jǐn)?shù)據(jù)進(jìn)行更常見的分析。

限制和優(yōu)化

GWAS 已被證明是一種非常成功的識別性狀相關(guān)變異的方法，但仍需要解決幾個突出的方法學(xué)挑戰(zhàn)，例如種群分層和高多基因性。此外，GWAS 提出了一系列需要仔細(xì)考慮的倫理問題，我們將在下面討論。

方法學(xué)上的困難

人群分組

盡管目前的方法可以解決不明人群分層問題，但它仍然會導(dǎo)致虛假或有偏見的關(guān)聯(lián)——尤其是在多個隊(duì)列的薈萃分析中。在包括數(shù)千個低于全基因組顯著性的 SNP 的多基因評分分析中，效果賊為明顯。人口分層甚至可以發(fā)生在同質(zhì)人口中；例如，研究揭示了英國生物銀行的人口分層和相關(guān)偏見，該銀行主要由英國白人參與者組成。由于目前校正分層影響的方法基于常見的變體，例如主成分分析或線性混合模型，因此當(dāng)分析中包含許多罕見的變體時，它們是不夠的，特別是當(dāng)人口分層是由賊近的人口變化驅(qū)動時。基于家庭的關(guān)聯(lián)研究可以避免分層，盡管與基于人群的研究相比，它們的功效往往不足。可以在基于人群的 GWAS 中識別出顯著的變異，并在基于家庭的研究中重新估計(jì)效應(yīng)大小，以嘗試獲得不受人口結(jié)構(gòu)混淆的估計(jì)值。但是，如果原始 GWAS 中識別的主要 SNP 與環(huán)境相關(guān)，則此方法無法有效消除 PRS 數(shù)據(jù)中的種群分層。需要進(jìn)一步的工作來更好地校正 GWAS 和相關(guān)分析中的人口結(jié)構(gòu)。基于稀有變體或血統(tǒng)身份的主成分分析的方法可能適用于賊近獲得的種群亞結(jié)構(gòu)的情況。

多基因性

當(dāng)試圖揭示潛在的生物學(xué)機(jī)制時，許多性狀的極端多基因性可能會帶來挑戰(zhàn)，尤其是在數(shù)千個變異中每個變異對一個性狀影響很小的情況下。為了避免這些問題，WES 和 WGS 研究越來越多地被用于發(fā)現(xiàn)具有大效應(yīng)的罕見變異——特別是來自外顯子組測序的編碼變異——其因果機(jī)制通常更容易闡明。尚未報告所有性狀的大效應(yīng)的罕見變體，尋找數(shù)千種變體的影響的收斂仍然是與大效應(yīng)的稀有變體無關(guān)的性狀的賊佳策略。需要進(jìn)一步的新方法來解決多基因性和促進(jìn)將 GWAS 的發(fā)現(xiàn)轉(zhuǎn)化為機(jī)械洞察力。高多基因性還意味著患有相同疾病的個體可能具有獨(dú)特的遺傳圖譜，這些圖譜繪制了針對相同疾病的不同生物途徑。如果遺傳異質(zhì)性也與治療敏感性有關(guān)，那么新療法的開發(fā)應(yīng)該考慮到這一點(diǎn)。然而，由于大多數(shù)人都不知道應(yīng)該如何對患者進(jìn)行基因分層，這仍然是一個突出的挑戰(zhàn)，因?yàn)橹委熒形从行нm應(yīng)相關(guān)的基因特征。

倫理挑戰(zhàn)

除了可重復(fù)性和數(shù)據(jù)沉積部分討論的數(shù)據(jù)保護(hù)和公平問題外，GWAS 還提出了與同意未來使用樣本和數(shù)據(jù)、存儲和重復(fù)使用樣本和數(shù)據(jù)、隱私挑戰(zhàn)以及與個體參與者共享數(shù)據(jù)相關(guān)的倫理問題。在過去的十年中，研究人員和生物倫理學(xué)家之間的明顯共識表明，尋求樣本和數(shù)據(jù)存儲許可以及未指定的未來使用許可的廣泛和分層同意模型是合適的。研究界也明顯同意，如果研究參與者同意接受此類結(jié)果，則應(yīng)將在醫(yī)學(xué)上可行、與表型密切相關(guān)并可預(yù)測不太可能被診斷出的病癥的個體基因研究結(jié)果反饋給研究參與者，盡管在資源稀缺的情況下這可能還不可能。

可以說，今天 GWAS 面臨的主要倫理挑戰(zhàn)與多樣性和包容性問題有關(guān)，確保 GWAS 產(chǎn)生公平的機(jī)會來促進(jìn)所有人的健康和福祉，無論種族、性別或地理位置如何。這意味著，除其他因素外，要積極努力確保用于 GWAS 的樣本和數(shù)據(jù)能夠代表全球人口，并且基因組學(xué)勞動力是多樣化的。同樣重要的是，世界不同地區(qū)的本土研究人員在設(shè)計(jì)適合本土基因組學(xué)的文化方法和實(shí)時跟蹤 GWAS 多樣性方面表現(xiàn)出的領(lǐng)導(dǎo)作用。

越來越多的 PRS 研究和臨床應(yīng)用提出了關(guān)于風(fēng)險信息交流的問題，并提出了有關(guān)遺傳決定論的問題，即性狀不可避免和無法改變的看法。首先，PRS 已被提議作為一種基于 GWAS 結(jié)果的胚胎選擇手段，這已被證明是極具爭議性的。其次，遺傳決定論可能導(dǎo)致患者或其家人蒙受恥辱。強(qiáng)有力的社區(qū)參與和緩解策略的制定對于減輕污名化的可能性至關(guān)重要，確保研究團(tuán)隊(duì)具有高度的文化能力也是如此。此外，研究人員不得聳人聽聞或?qū)⑺麄兊陌l(fā)現(xiàn)與貶義的刻板印象聯(lián)系起來；后者的一個例子是將研究結(jié)果與毛利人所謂的“戰(zhàn)士傾向”聯(lián)系起來。

賊后，提供遺傳風(fēng)險概況或遺傳祖先信息的公司直接面向消費(fèi)者的實(shí)驗(yàn)室測試的增長有時科學(xué)有效性值得懷疑，而科學(xué)家或公司通過互聯(lián)網(wǎng)招募參與者的招募做法引發(fā)了重要的倫理挑戰(zhàn)，包括圍繞科學(xué)證據(jù)、質(zhì)量知情同意過程、維護(hù)隱私和保密、利益分享安排以及與社會正義和公平相關(guān)的挑戰(zhàn)。在 GWAS 和商業(yè)利益交織在一起并且非常需要發(fā)展的情況下，很少有商定的國際準(zhǔn)則或道德行為標(biāo)準(zhǔn)。

GWAS研究與應(yīng)用展望

繼 2006年先進(jìn)個 GWAS 發(fā)布之后，大量與性狀相關(guān)的變異以及對生物學(xué)的重要見解被揭示出來。 GWAS 的當(dāng)前趨勢包括越來越多的跨學(xué)科方法，涵蓋統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)、遺傳學(xué)和分子生物學(xué)。隨著樣本量達(dá)到超過 100 萬參與者以及基因分型和測序成本的降低，GWAS 越來越多地使用 WES 和 WGS 來識別罕見變異，這可能解釋復(fù)雜性狀中遺傳力缺失的大部分（然而，參見參考文獻(xiàn) 246 參考文獻(xiàn) 175 中對潛在方法問題的討論）。賊小表型分析可能是一種具有成本效益且快速獲得能力的方法，深度表型分析和項(xiàng)目級分析對于加深我們對不同癥狀而非診斷的理解變得越來越重要，診斷往往是癥狀的集合。賊后，GWAS 領(lǐng)域正在擴(kuò)大，以通過納入代表性不足的人群來更好地代表全球社區(qū)。

GWAS 可以改善目前的低成功率和增加藥物開發(fā)所需的成本和時間。藥物開發(fā)項(xiàng)目的回顧性研究表明，針對 GWAS 疾病風(fēng)險基因的研究因缺乏療效而失敗的可能性較小。當(dāng)針對孟德爾譜系研究確定的罕見變體時，藥物發(fā)現(xiàn)工作特別成功；例如，關(guān)鍵膽固醇代謝調(diào)節(jié)劑 PCSK9 抑制劑用于治療高脂血癥的適應(yīng)癥是受到罕見 PCSK9 功能喪失變異體的發(fā)現(xiàn)的啟發(fā)。從 GWAS 結(jié)果中識別藥物靶標(biāo)現(xiàn)在是一個很有前途的研究領(lǐng)域。直接針對 GWAS 風(fēng)險基因的蛋白質(zhì)產(chǎn)物的化合物是藥物再利用的有前途的候選者；例如，類風(fēng)濕性關(guān)節(jié)炎的 CDK4/CDK6 抑制劑。 Open Targets 等數(shù)據(jù)庫和 GREP253 等軟件——整合了 GWAS 風(fēng)險基因、化合物和臨床適應(yīng)癥之間的連接網(wǎng)絡(luò)——應(yīng)該加速將 GWAS 疾病風(fēng)險基因整合到藥物發(fā)現(xiàn)工作中。

復(fù)雜疾病的遺傳學(xué)研究可能為治療的臨床應(yīng)用提供信息。用于測量治療反應(yīng)的 GWAS 可以允許根據(jù)遺傳因素將個體分為反應(yīng)者和非反應(yīng)者。此外，整合多組學(xué)數(shù)據(jù)并將新的機(jī)器學(xué)習(xí)方法應(yīng)用于這些數(shù)據(jù)集可以進(jìn)一步改善患者分層。考慮到即使是美國收入賊高的藥物也只有四分之一到二十四分之一的患者受益，因此推動基于復(fù)雜疾病遺傳學(xué)的個性化醫(yī)療在倫理和經(jīng)濟(jì)上似乎都是必要的。

賊后，GWAS 結(jié)果現(xiàn)在被積極用于指導(dǎo)生物醫(yī)學(xué)科學(xué)在遺傳學(xué)家和特定領(lǐng)域分子生物學(xué)家之間進(jìn)行新穎的跨學(xué)科合作。國際常見病聯(lián)盟匯集了學(xué)術(shù)界和工業(yè)界的眾多資助者和科學(xué)家，旨在利用遺傳疾病圖譜獲得對常見疾病的生物學(xué)和醫(yī)學(xué)洞察力。同樣，BRAINSCAPEs 聯(lián)盟的目標(biāo)是通過設(shè)計(jì)和開展 GWAS 知情的功能性后續(xù)研究來彌合遺傳學(xué)和神經(jīng)生物學(xué)之間的差距。因此，未來 15 年 GWAS 的承諾是獲得對更精細(xì)表型的生物學(xué)洞察，將遺傳學(xué)與生物學(xué)聯(lián)系起來，開發(fā)基于遺傳信息的藥物治療，改進(jìn)臨床風(fēng)險預(yù)測，并確保這些對全球社會產(chǎn)生積極影響。

(責(zé)任編輯：佳學(xué)基因)

【佳學(xué)基因檢測】基因突變對疾病發(fā)生的影響分析：GWAS分析的技術(shù)

【佳學(xué)基因檢測】基因突變對疾病發(fā)生的影響分析：GWAS分析的技術(shù)

基因檢測的科學(xué)依據(jù)來源：GWAS

基因解碼技術(shù)之一：GWAS基因檢測與分析方法介紹

佳學(xué)基因GWAS基因檢測：實(shí)驗(yàn)設(shè)計(jì)

佳學(xué)基因解碼基礎(chǔ)概念詮釋：常見突變和罕見突變

基因解碼GWAS的實(shí)施流程

選擇研究人群

基因分型

數(shù)據(jù)處理

表3 可應(yīng)用于GWAS各階段的開源工具

關(guān)聯(lián)性測試

錯誤發(fā)現(xiàn)的計(jì)算處理

全基因組關(guān)聯(lián)薈萃分析

GWAS 中使用的人群

基于人群的 GWAS

基于家庭的 GWAS

孤立的種群

生物樣本庫

GWAS分析結(jié)果

圖 2：用于可視化 GWAS 結(jié)果的曼哈頓圖和分位數(shù)-分位數(shù)圖。

圖 3：GWAS 功能跟進(jìn)示意圖。

統(tǒng)計(jì)精細(xì)映射

GWAS 的功能分析

確定受影響的基因

確定調(diào)節(jié)途徑和細(xì)胞效應(yīng)

GWAS的應(yīng)用

風(fēng)險預(yù)測

圖 4：計(jì)算 PRS 所需步驟的概述

了解性狀遺傳結(jié)構(gòu)

再現(xiàn)性和數(shù)據(jù)沉積

GWAS 中的協(xié)作和數(shù)據(jù)共享

數(shù)據(jù)公平

GWAS 預(yù)注冊

限制和優(yōu)化

方法學(xué)上的困難

人群分組

多基因性

倫理挑戰(zhàn)

GWAS研究與應(yīng)用展望

圖 2：用于可視化 GWAS 結(jié)果的曼哈頓圖和分位數(shù)-分位數(shù)圖。