【佳學基因檢測】基因解碼基礎：VCF格式文件是怎么貯存基因信息的？

遺傳病、罕見病基因檢測導讀：

正確理解并應用基因信息包含兩個階段，一是基因測序階段，一個是建立《人的基因序列變化與人體疾病表征》的關系兩個階段。盡管后者有數(shù)據(jù)庫比對法和基因解碼法，但是獲取基因序列，并對基因序列進行正確記錄和傳遞是先進個階段。本文介紹了用來來貯存人體基因序列的一種格式文件，理解VCF格式文件及其貯存基因序列的方式，是基因庫比對方法和基因解碼的基礎。

1. 什么是VCF？

VCF是用于描述SNP，INDEL和SV結果的文本文件。在GATK軟件中得到賊好的支持，當然SAMtools得到的結果也是VCF格式，和GATK的VCF格式有點差別。

2. VCF的主體結構

先給出一個VCF文件的范例：

##fileformat=VCFv4.0
##FILTER=<ID=LowQual,Description="QUAL < 50.0">
##FORMAT=<ID=AD,Number=.,Type=Integer,Description="Allelic depths for the ref and alt alleles in the order listed">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth (only filtered reads used for calling)">
##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=PL,Number=3,Type=Float,Description="Normalized, Phred-scaled likelihoods for AA,AB,BB genotypes where A=ref and B=alt; not applicable if site is not biallelic">
##INFO=<ID=AC,Number=.,Type=Integer,Description="Allele count in genotypes, for each ALT allele, in the same order as listed">
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency, for each ALT allele, in the same order as listed">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP Membership">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=DS,Number=0,Type=Flag,Description="Were any of the samples downsampled?">
##INFO=<ID=Dels,Number=1,Type=Float,Description="Fraction of Reads Containing Spanning Deletions">
##INFO=<ID=HRun,Number=1,Type=Integer,Description="Largest Contiguous Homopolymer Run of Variant Allele In Either Direction">
##INFO=<ID=HaplotypeScore,Number=1,Type=Float,Description="Consistency of the site with two (and only two) segregating haplotypes">
##INFO=<ID=MQ,Number=1,Type=Float,Description="RMS Mapping Quality">
##INFO=<ID=MQ0,Number=1,Type=Integer,Description="Total Mapping Quality Zero Reads">
##INFO=<ID=QD,Number=1,Type=Float,Description="Variant Confidence/Quality by Depth">
##INFO=<ID=SB,Number=1,Type=Float,Description="Strand Bias">
##INFO=<ID=VQSLOD,Number=1,Type=Float,Description="log10-scaled probability of variant being true under the trained gaussian mixture model">
##UnifiedGenotyperV2="analysis_type=UnifiedGenotyperV2 input_file=[TEXT CLIPPED FOR CLARITY]"
#CHROM  POS ID      REF ALT QUAL    FILTER  INFO    FORMAT  NA12878
chr1    873762  .       T   G   5231.78 PASS    AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL   0/1:173,141:282:99:255,0,255
chr1    877664  rs3828047   A   G   3931.66 PASS    AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
chr1    899282  rs28548431  C   T   71.77   PASS    AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
chr1    974165  rs9442391   T   C   29.84   LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255

從范例上看，VCF文件分為兩部分內容：以“#”開頭的注釋部分；沒有“#”開頭的主體部分。

值得注意的是，注釋部分有很多對VCF的介紹信息。實際上不需要本文章，只是看看這個注釋部分就有效明白了VCF各行各列代表的意義。我們先講VCF文件主題部分的結構，如下所示：

[HEADER LINES]
#CHROM  POS ID      REF ALT QUAL    FILTER  INFO          FORMAT          NA12878
chr1    873762  .       T   G   5231.78 PASS    [ANNOTATIONS] GT:AD:DP:GQ:PL  0/1:173,141:282:99:255,0,255
chr1    877664  rs3828047   A   G   3931.66 PASS    [ANNOTATIONS] GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
chr1    899282  rs28548431  C   T   71.77   PASS    [ANNOTATIONS] GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
chr1    974165  rs9442391   T   C   29.84   LowQual [ANNOTATIONS] GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255

以上去掉了頭部的注釋行，只留下了代表每一行意義的注釋行。主體部分中每一行代表一個Variant的信息。

3. VCF格式文件怎么記錄一個人的基因信息？

CHROM 和 POS：記錄的是基因序列染色體和坐標，如果是INDEL的話，位置是INDEL的先進個堿基位置，有這兩個參數(shù)，就可以將測序結果與人體的特定的一個基因信息固定下來。

ID：數(shù)據(jù)庫中已經(jīng)有過的變異序列的代碼。比如在dbSNP中有該SNP的代碼，則會在此行給出；若沒有，則用’.’表示這是一個受檢者所特有的突變序列，在其他人身上沒有。由于這是是用一個"."來表示，經(jīng)過測序后，這樣的點有很多，數(shù)據(jù)庫比對就無法對這一突變對體的影響進行分析，需要采用新的分析策略。

REF 和 ALT：參考序列的DNA字母和可能出現(xiàn)的不同的DNA字母。

QUAL：Phred格式(Phred_scaled)的質量值，表示在該位點存在variant的可能性；該值越高，則variant的可能性越大；計算方法：Phred值 = -10 * log (1-p) p為variant存在的概率; 通過計算公式可以看出值為10的表示錯誤概率為0.1，該位點為variant的概率為90%。

FILTER：使用上一個QUAL值來進行過濾的話，是不夠的。GATK能使用其它的方法來進行過濾，過濾結果中通過則該值為”PASS”;若variant不高效，則該項不為”PASS”或”.”。

INFO：這一行是variant的詳細信息，內容很多，以下再具體詳述。

FORMAT 和 NA12878：這兩行合起來提供了’NA12878’這個sample的基因型的信息。’NA12878’代表這該名稱的樣品，是由BAM文件中的@RG下的 SM 標簽決定的。

4. 基因型信息

chr1    873762  .       T   G   [CLIPPED] GT:AD:DP:GQ:PL    0/1:173,141:282:99:255,0,255
chr1    877664  rs3828047   A   G   [CLIPPED] GT:AD:DP:GQ:PL    1/1:0,105:94:99:255,255,0
chr1    899282  rs28548431  C   T   [CLIPPED] GT:AD:DP:GQ:PL    0/1:1,3:4:25.92:103,0,26

看上面賊后兩列數(shù)據(jù)，這兩列數(shù)據(jù)是對應的，前者為格式，后者為格式對應的數(shù)據(jù)。

GT：樣品的基因型（genotype）。兩個數(shù)字中間用’/’分開，這兩個數(shù)字表示雙倍體的sample的基因型。0 表示樣品中有ref的allele； 1 表示樣品中variant的allele； 2表示有第二個variant的allele。因此： 0/0 表示sample中該位點為純合的，和ref一致； 0/1 表示sample中該位點為雜合的，有ref和variant兩個基因型； 1/1 表示sample中該位點為純合的，和variant一致。

AD 和 DP：AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個值，前者對應ref基因型，后者對應variant基因型； DP（Depth）為sample中該位點的覆蓋度。

GQ：基因型的質量值(Genotype Quality)。Phred格式(Phred_scaled)的質量值，表示在該位點該基因型存在的可能性；該值越高，則Genotype的可能性越大；計算方法：Phred值 = -10 * log (1-p) p為基因型存在的概率。

PL：指定的三種基因型的質量值(provieds the likelihoods of the given genotypes)。這三種指定的基因型為(0/0,0/1,1/1)，這三種基因型的概率總和為1。和之前不一致，該值越大，表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。

5. VCF第8列的信息

該列信息賊多了，都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注釋信息在VCF文件的頭部注釋中給出。以下是這些TAG的解釋

AC，AF 和 AN：AC(Allele Count) 表示該Allele的數(shù)目；AF(Allele Frequency) 表示Allele的頻率； AN(Allele Number) 表示Allele的總數(shù)目。對于1個diploid sample而言：則基因型 0/1 表示sample為雜合子，Allele數(shù)為1(雙倍體的sample在該位點只有1個等位基因發(fā)生了突變)，Allele的頻率為0.5(雙倍體的sample在該位點只有50%的等位基因發(fā)生了突變)，總的Allele為2；基因型 1/1 則表示sample為純合的，Allele數(shù)為2，Allele的頻率為1，總的Allele為2。

DP：reads覆蓋度。是一些reads被過濾掉后的覆蓋度。

Dels：Fraction of Reads Containing Spanning Deletions。進行SNP和INDEL calling的結果中，有該TAG并且值為0表示該位點為SNP，沒有則為INDEL。

FS：使用Fisher’s正確檢驗來檢測strand bias而得到的Fhred格式的p值。該值越小越好。一般進行filter的時候，可以設置 FS < 10～20。

HaplotypeScore：Consistency of the site with at most two segregating haplotypes

InbreedingCoeff：Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation

MLEAC：Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed

MLEAF：Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed

MQ：RMS Mapping Quality

MQ0：Total Mapping Quality Zero Reads

MQRankSum：Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities

QD：Variant Confidence/Quality by Depth

RPA：Number of times tandem repeat unit is repeated, for each allele (including reference)

RU：Tandem repeat unit (bases)

ReadPosRankSum：Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias

STR：Variant is a short tandem repeat

(責任編輯：佳學基因)

【佳學基因檢測】基因解碼基礎：VCF格式文件是怎么貯存基因信息的？

【佳學基因檢測】基因解碼基礎：VCF格式文件是怎么貯存基因信息的？

遺傳病、罕見病基因檢測導讀：

1. 什么是VCF？

2. VCF的主體結構

3. VCF格式文件怎么記錄一個人的基因信息？

4. 基因型信息

5. VCF第8列的信息

【佳學基因檢測】基因解碼基礎：VCF格式文件是怎么貯存基因信息的？

【佳學基因檢測】基因解碼基礎：VCF格式文件是怎么貯存基因信息的？

遺傳病、罕見病基因檢測導讀：

1. 什么是VCF？

3. VCF格式文件怎么記錄一個人的基因信息？