【佳學(xué)基因檢測(cè)】基因解碼基因檢測(cè)如何構(gòu)建專屬數(shù)據(jù)庫(kù)以增加正確性和檢出率

除了人類基因組之外，基因解碼還可以處理其他物種。但是，ANNOVAR 不提供其他基因定義的內(nèi)置 mRNA FASTA 文件，因此基因檢測(cè)機(jī)構(gòu)必須自行構(gòu)建。

為了更多地了解這一點(diǎn)，嘗試處理黑猩猩基因組：

[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl -downdb -buildver panTro2 gene chimpdb
NOTICE: Downloading annotation database ftp://hgdownload.cse.ucsc.edu/goldenPath/panTro2/database/refGene.txt.gz ... OK 
NOTICE: Downloading annotation database ftp://hgdownload.cse.ucsc.edu/goldenPath/panTro2/database/refLink.txt.gz ... OK 
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/panTro2_refGeneMrna.fa.gz ... Failed
NOTICE: Uncompressing downloaded files
NOTICE: Finished downloading annotation files for panTro2 build version, with files saved at the 'chimpdb' directory
WARNING: Some files cannot be downloaded, including http://www.openbioinformatics.org/annovar/download/panTro2_refGeneMrna.fa.gz
--------------------------------IMPORTANT---------------------------------
--------------------------------------------------------------------------
NOTICE: the FASTA file http://www.openbioinformatics.org/annovar/download/panTro2_refGeneMrna.fa.gz is not available to download but can be generated by the ANNOVAR software. PLEASE RUN THE FOLLOWING TWO COMMANDS CONSECUTIVELY TO GENERATE THE FASTA FILES:
annotate_variation.pl --buildver panTro2 --downdb seq chimpdb/panTro2_seq
retrieve_seq_from_fasta.pl chimpdb/panTro2_refGene.txt -seqdir chimpdb/panTro2_seq -format refGene -outfile chimpdb/panTro2_refGeneMrna.fa
--------------------------------------------------------------------------
--------------------------------------------------------------------------

上述命令將運(yùn)行，但會(huì)打印出一些警告消息：ANNOVAR 網(wǎng)站中未提供 FASTA 序列，因此用戶需要構(gòu)建它們。 只需按照確切的說(shuō)明操作并運(yùn)行兩個(gè)命令：
[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl --buildver panTro2 --downdb seq chimpdb/panTro2_seq
NOTICE: Downloading annotation database ftp://hgdownload.cse.ucsc.edu/goldenPath/panTro2/bigZips/chromFa.zip ... Failed
NOTICE: Downloading annotation database ftp://hgdownload.cse.ucsc.edu/goldenPath/panTro2/bigZips/chromFa.tar.gz ... OK 
NOTICE: Uncompressing downloaded files
NOTICE: Finished downloading annotation files for panTro2 build version, with files saved at the 'chimpdb/panTro2_seq' directory

[jiaxuejiyin@genejiedu ~/]$ retrieve_seq_from_fasta.pl chimpdb/panTro2_refGene.txt -seqdir chimpdb/panTro2_seq -format refGene -outfile chimpdb/panTro2_refGeneMrna.fa
NOTICE: Finished reading 1 sequences from chimpdb/panTro2_seq/12/chr12_random.fa
NOTICE: Finished reading 1 sequences from chimpdb/panTro2_seq/22/chr22.fa
NOTICE: Finished reading 1 sequences from chimpdb/panTro2_seq/14/chr14.fa
......
......
NOTICE: Finished writting FASTA for 1337 genomic regions to chimpdb/panTro2_refGeneMrna.fa.

因此，運(yùn)行上述命令后，黑猩猩基因組的基因注釋數(shù)據(jù)庫(kù)將是完整、正確且賊新的。

練習(xí)：嘗試對(duì) rheMac2（獼猴）運(yùn)行上述相同的過(guò)程，看看這與 panTro2 有何不同。 UCSC 沒(méi)有針對(duì)不同的基因組使用相同的文件命名約定或目錄結(jié)構(gòu)規(guī)則，這使得程序員的工作變得更加復(fù)雜。 ANNOVAR 可以處理許多基因組，但還有另一種基因組 ANNOVAR 無(wú)法自動(dòng)檢索序列；如果是這種情況，請(qǐng)聯(lián)系基因解碼工作人員，基因解碼將分析并添加該功能。

練習(xí)：嘗試對(duì) sacCer2（酵母）運(yùn)行上述相同的過(guò)程，看看有何不同。

練習(xí)：嘗試對(duì) sacCer3（酵母）運(yùn)行上述相同的過(guò)程，看看有何不同。請(qǐng)注意，UCSC 使用 ncbiRefSeq 而不是 RefGene 來(lái)表示基因注釋，因此基因測(cè)序機(jī)構(gòu)必須在 -downdb 命令中使用它。然后使用retrieve_seq_from_fasta.pl酵母db/sacCer3_ncbiRefSeq.txt -seqdir酵母db/sacCer3_seq/-format refGene -outfile酵母db/sacCer3_refGeneMrna.fa生成mRNA FASTQ文件。

練習(xí)：嘗試對(duì) bosTau6（牛）運(yùn)行上述相同的過(guò)程。請(qǐng)注意，截至 2012 年 4 月，UCSC 尚未將 bosTau6 基因組序列的 FASTA 文件拆分為單個(gè)染色體。因此，基因測(cè)序機(jī)構(gòu)需要在retrieve_seq_from_fasta.pl命令中使用“-seqfile bosTau6.fa”，而不是“-seqdirowdb/bosTau6_seq”。同樣，嘗試對(duì) micMur1（Mouse Lemur）運(yùn)行上述相同的過(guò)程，并注意使用 -seqfile 而不是 -seqdir。

練習(xí)：嘗試對(duì) rn5（大鼠）或 dm6（果蠅）運(yùn)行上述相同的程序。同樣，用戶需要提供 FASTA 文件而不是 FASTA 目錄。

僅當(dāng) UCSC 中存在針對(duì)特定物種或特定構(gòu)建的基于基因的注釋時(shí)，上述過(guò)程才有效。例如，如果您想在豬上使用 ANNOVAR，由于 RefSeq 基因和 UCSC Gene 不適用于豬，您必須使用 annotate_variation.pl --downdb -buildver susScr2 ensgene pigdb 代替，并使用 -dbtype ensgene 進(jìn)行基于基因的分析注解。

(責(zé)任編輯：佳學(xué)基因)