基因檢測就找佳學(xué)基因!

點(diǎn)此檢測

熱門搜索

癲癇
精神分裂癥
魚鱗病
白癜風(fēng)
唇腭裂
多指并指
特發(fā)性震顫
白化病
色素失禁癥
狐臭
斜視
視網(wǎng)膜色素變性
脊髓小腦萎縮
軟骨發(fā)育不全
血友病

客服電話

4001601189

在線咨詢

CONSULTATION

返回頂部

分享基因科技，實(shí)現(xiàn)人人健康！

中文字幕乱码手机在线中有,亚洲中文字幕一区精品自拍 ,国产在线精品99一区不卡

http://lucasfraser.com/about/jishu/65560.html

微信
新浪微博
QQ空間
QQ
人人網(wǎng)
領(lǐng)英
Facebook
Instapaper
Twitter
Messenger

Prev Next

當(dāng)前位置:????致電4001601189！ > 關(guān)于佳學(xué) > 技術(shù)優(yōu)勢 >

【佳學(xué)基因檢測】基因解碼如何使用UCSC/Ensembl數(shù)據(jù)庫進(jìn)行基因檢測結(jié)果的分析

來源：基因檢測的優(yōu)勢
作者：基因解碼者
時(shí)間：2024-07-14 11:21
閱讀數(shù)：473次

基因解碼說明：從技術(shù)上講，RefSeq 基因和 UCSC 基因是基于轉(zhuǎn)錄本的基因定義。該數(shù)據(jù)庫根據(jù)轉(zhuǎn)錄數(shù)據(jù)建立了基因模型，然后將基因模型同人類基因組序列進(jìn)行比對。相比之下，Ensemble Gene 和 Gencode Gene 是基于組裝的基因定義，試圖直接從人類基因組的參考序列構(gòu)建基因的判斷。這兩個(gè)數(shù)據(jù)分析方法從不同的角度出發(fā)，試圖做同一件事：將基因測序獲得的DNA序列給矛盾適當(dāng)?shù)幕?/div>

【佳學(xué)基因檢測】基因解碼如何使用UCSC/Ensembl數(shù)據(jù)庫進(jìn)行基因檢測結(jié)果的分析

ANNOVAR 可以選擇處理 UCSC 已知基因注釋或 Ensembl 基因注釋，這兩種注釋都比 RefSeq 更全面，包括許多注釋不良或計(jì)算預(yù)測的基因。下面顯示了使用 UCSC 已知基因注釋變體的示例：

[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl -out ex1 -build hg19 example/ex1.avinput humandb/ -dbtype knownGene
NOTICE: The --geneanno operation is set to ON by default
NOTICE: Reading gene annotation from humandb/hg19_knownGene.txt ... Done with 78963 transcripts (including 18502 without coding sequence annotation) for 28495 unique genes
NOTICE: Reading FASTA sequences from humandb/hg19_knownGeneMrna.fa ... Done with 45 sequences
WARNING: A total of 43 sequences will be ignored due to lack of correct ORF annotation
NOTICE: Finished gene-based annotation on 15 genetic variants in example/ex1.avinput
NOTICE: Output files were written to ex1.variant_function, ex1.exonic_variant_function

轉(zhuǎn)錄本名稱（在 ex1.exonic_variant_function 文件中）看起來像 uc002eg1.1 等，它們是 UCSC 基因標(biāo)識符。

要使用 Ensembl 基因注釋變體，請使用以下命令。輸出格式與上面描述的類似。 “ENSG”和“ENST”是注釋基因和轉(zhuǎn)錄本的 Ensembl 標(biāo)識符。

[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl -out ex1 -build hg19 ex1.hg19.avinput humandb/ -dbtype ensGene
NOTICE: The --geneanno operation is set to ON by default
NOTICE: Reading gene annotation from humandb/hg19_ensGene.txt ... Done with 196501 transcripts (including 101155 without coding sequence annotation) for 57905 unique genes
NOTICE: Reading FASTA sequences from humandb/hg19_ensGeneMrna.fa ... Done with 20 sequences
WARNING: A total of 6780 sequences will be ignored due to lack of correct ORF annotation
NOTICE: Finished gene-based annotation on 15 genetic variants in example/ex1.avinput
NOTICE: Output files were written to ex1.variant_function, ex1.exonic_variant_function

由于輸出僅包含 Ensembl 標(biāo)識符，因此如果想將其翻譯為基因同義詞，可以下載 hg19 的此文件并自行使用兩列文件進(jìn)行翻譯。

比較來自三個(gè)不同基因定義系統(tǒng)的程序消息（“Done with xxxtranscripts for yyy uniquegenes”），可以看到，Ensembl 注釋了人類基因組中賊多數(shù)量的基因，而 RefSeq 注釋了賊少數(shù)量的基因。

然而，這兩種分析方法會產(chǎn)生不同的分析結(jié)果。例如，RefSeq 通過組裝群體中的轉(zhuǎn)錄數(shù)據(jù)來構(gòu)建基因模型，但參考人類基因組可能有一個(gè)等位基因是一個(gè)次要等位基因。在這種情況下，獲得的序列可能無法與基因組 100% 對齊，從而導(dǎo)致基因測序結(jié)果的 FASTA 文件與從全基因組序列（通過將外顯子連接在一起）生成的 FASTA 文件之間存在差異。

由于這些原因，外顯子變異的正確注釋不能依賴于公共數(shù)據(jù)庫中的cDNA序列，而只能基于基因組本身中實(shí)際的chr:start-end位點(diǎn)。為此，基因解碼針對幾個(gè)特定基因組構(gòu)建了FASTA序列，基因檢測機(jī)構(gòu)可以直接從ANNOVAR網(wǎng)站下載序列；基因解碼還提供程序 (retrieve_seq_from_fasta.pl) 來為未提供預(yù)構(gòu)建文件的任何其他基因組構(gòu)建 FASTA 序列。

由于這些原因，基因解碼提供的文件中的 FASTA 序列可能與您從 RefSeq 獲得的 FASTA 序列不同。 ANNOVAR 使用的序列是基于特定基因組構(gòu)建和組裝的“理論”序列，但 RefSeq 編譯的 FASTA 序列是來自大型數(shù)據(jù)庫的“觀察到”序列，與特定組裝版本沒有任何關(guān)系。它們可能具有相同的標(biāo)識符，但它們是不同的東西。

(責(zé)任編輯：佳學(xué)基因)

頂一下

(4)

100%

踩一下

(0)