【佳學(xué)基因檢測(cè)】HAIL,一個(gè)基于數(shù)據(jù)庫(kù)的生物信息分析途徑算得上是基因解碼嗎?
HAIL的特點(diǎn):
簡(jiǎn)化分析
HAIL是一個(gè)開(kāi)源的Python庫(kù),簡(jiǎn)化了基因組數(shù)據(jù)分析。它提供了強(qiáng)大、易于使用的數(shù)據(jù)科學(xué)工具,可用于甚至用于詢問(wèn)生物庫(kù)規(guī)模的基因組數(shù)據(jù)(例如英國(guó)生物庫(kù)、gnomAD、TopMed、FinnGen 和日本生物庫(kù))。
基因組數(shù)據(jù)框架
現(xiàn)代數(shù)據(jù)科學(xué)是由數(shù)字矩陣(參見(jiàn)Numpy)和表(參見(jiàn)R和熊貓)驅(qū)動(dòng)的。 雖然這些工具足以完成許多任務(wù),但這些工具都沒(méi)有充分捕獲遺傳數(shù)據(jù)的結(jié)構(gòu)。遺傳數(shù)據(jù)結(jié)合了多個(gè)軸(變體和樣本),如矩陣和結(jié)構(gòu)化條目(基因型),如表或數(shù)據(jù)框。為了支持基因組分析,Hail 引入了一種強(qiáng)大的分布式數(shù)據(jù)結(jié)構(gòu),結(jié)合了矩陣和數(shù)據(jù)幀(稱為MatrixTable)的功能。
輸入統(tǒng)一
Hail MatrixTable統(tǒng)一了各種輸入格式(例如.vcf、bgen、plink、tsv、gtf、床文件),并支持可擴(kuò)展查詢,即使在 PB 大小的數(shù)據(jù)集上。通過(guò)利用 MatrixTable,Hail 為科學(xué)提供了一個(gè)集成的、可擴(kuò)展的分析平臺(tái)。
注釋數(shù)據(jù)庫(kù)
警告
HAIL中的所有功能都是在不斷創(chuàng)新中完善和改變。
此數(shù)據(jù)庫(kù)包含一個(gè)精心策劃的變體注釋集合,其格式可訪問(wèn)且便于海爾使用,用于 Hail 分析管道。
若要將這些注釋合并到您自己的 Hail 分析管道中,請(qǐng)選擇要從下表中查詢的批注,然后復(fù)制并將 Hail 生成的代碼粘貼到您自己的分析腳本中。
查看數(shù)據(jù)庫(kù)類文檔,了解有關(guān)創(chuàng)建注釋數(shù)據(jù)庫(kù)實(shí)例和注釋MatrixTable或表的更多詳細(xì)信息。
谷歌云存儲(chǔ)
請(qǐng)注意,這些注釋存儲(chǔ)在 Google云存儲(chǔ)上的"請(qǐng)求者付費(fèi)"存儲(chǔ)桶中。存儲(chǔ)桶現(xiàn)在在美國(guó)和歐盟區(qū)域都可用,因此,如果您的群集不在創(chuàng)建注釋數(shù)據(jù)庫(kù)實(shí)例時(shí)指定的區(qū)域之外,則可能會(huì)收取出口費(fèi)用。
若要訪問(wèn)以 開(kāi)始的群集上的這些存儲(chǔ)桶,可以使用附加參數(shù),如下所示:hailctl dataproc
--requester-pays-annotation-db
hailctl dataproc start my-cluster --requester-pays-allow-annotation-db
亞馬遜 S3
注釋數(shù)據(jù)集現(xiàn)在也通過(guò)AWS 上的開(kāi)放數(shù)據(jù)進(jìn)行共享,并且可以在 AWS 上運(yùn)行 Hail 的用戶訪問(wèn)。請(qǐng)注意,在 AWS 上,注釋數(shù)據(jù)集目前僅在美國(guó)區(qū)域的存儲(chǔ)桶中可用。
數(shù)據(jù)庫(kù)查詢
通過(guò)單擊表中的復(fù)選框選擇注釋,將在下面的面板中生成相應(yīng)的 Hail 命令。
此外,如果在我們的精心策劃的集合中查找特定的注釋,則提供搜索欄。
使用"復(fù)制到剪貼板"按鈕復(fù)制生成的 Hail 代碼,然后將命令粘貼到您自己的 Hail 腳本中。
名字 | 描述 | 版本 | 參考基因組 | |
---|---|---|---|---|
CADD | 組合注釋依賴消耗 (CADD):一種用于注釋編碼和非編碼變體的算法。鏈接 |
1.4 1.4 |
GRCh37 GRCh38 |
|
DANN | DANN:一種用于注釋基因變異的致病性的深度學(xué)習(xí)方法。鏈接 |
無(wú) 無(wú) |
GRCh37 GRCh38 |
|
Ensembl_homo_sapiens_low_complexity_regions | Ensembl:脊椎動(dòng)物基因組的基因組瀏覽器,支持比較基因組學(xué)、進(jìn)化、序列變異和轉(zhuǎn)錄調(diào)控方面的研究。鏈接 |
release_95 release_95 |
GRCh37 GRCh38 |
|
Ensembl_homo_sapiens_reference_genome | Ensembl:脊椎動(dòng)物基因組的基因組瀏覽器,支持比較基因組學(xué)、進(jìn)化、序列變異和轉(zhuǎn)錄調(diào)控方面的研究。鏈接 |
release_95 release_95 |
GRCh37 GRCh38 |
|
clinvar_gene_summary | Clinvar:匯總有關(guān)基因組變異及其與人類健康的關(guān)系的信息。鏈接 | 2019-07 | 沒(méi)有 | |
clinvar_variant_summary | Clinvar:匯總有關(guān)基因組變異及其與人類健康的關(guān)系的信息。鏈接 |
2019-07 2019-07 |
GRCh37 GRCh38 |
|
dbNSFP_genes | dbNSFP:為人類基因組中所有nsSNV的功能預(yù)測(cè)和注釋而開(kāi)發(fā)的數(shù)據(jù)庫(kù)。鏈接 | 4.0 | 沒(méi)有 | |
dbNSFP_variants | dbNSFP:為人類基因組中所有nsSNV的功能預(yù)測(cè)和注釋而開(kāi)發(fā)的數(shù)據(jù)庫(kù)。鏈接 |
4.0 4.0 |
GRCh37 GRCh38 |
|
基因代碼 | GENCODE:旨在通過(guò)計(jì)算分析、人工注釋和實(shí)驗(yàn)驗(yàn)證的組合來(lái)識(shí)別人類基因組中的所有基因特征。鏈接 |
v19 v31 |
GRCh37 GRCh38 |
|
gerp_elements | GERP:通過(guò)量化替代赤字,在多個(gè)對(duì)齊方式中識(shí)別受約束的元素。鏈接 |
hg19 hg19 |
GRCh37 GRCh38 |
|
gerp_scores | GERP:通過(guò)量化替代赤字,在多個(gè)對(duì)齊方式中識(shí)別受約束的元素。鏈接 |
hg19 hg19 |
GRCh37 GRCh38 |
|
gnomad_exome_sites | gnomAD:一種資源,其目標(biāo)是聚合和協(xié)調(diào)來(lái)自各種大規(guī)模測(cè)序項(xiàng)目的外顯組和基因組測(cè)序數(shù)據(jù)。鏈接 |
2.1.1 2.1.1 |
GRCh37 GRCh38 |
|
gnomad_genome_sites | gnomAD:一種資源,其目標(biāo)是聚合和協(xié)調(diào)來(lái)自各種大規(guī)模測(cè)序項(xiàng)目的外顯組和基因組測(cè)序數(shù)據(jù)。鏈接 |
2.1.1 2.1.1 3.1 |
GRCh37 GRCh38 GRCh38 |
|
gnomad_lof_metrics | gnomAD:一種資源,其目標(biāo)是聚合和協(xié)調(diào)來(lái)自各種大規(guī)模測(cè)序項(xiàng)目的外顯組和基因組測(cè)序數(shù)據(jù)。鏈接 | 2.1.1 | 沒(méi)有 | |
ldsc_baselineLD_annotations | LDSC 基線 LD 模型:包含 75 個(gè)注釋(在后期版本中包含的其他注釋),包括功能區(qū)域、組蛋白標(biāo)記、GERP 分?jǐn)?shù)、與 LD 相關(guān)的種群遺傳學(xué)力注釋、MAF bin 等。鏈接 | 2.2 | Grch37 |
(責(zé)任編輯:佳學(xué)基因)