【佳學基因檢測】基因檢測數(shù)據(jù)庫調(diào)用內(nèi)容中的VCF文件中的INFO的意義：培訓教材

基因檢測技術(shù)導讀：

完整高效的基因檢測包括基因檢測位點的先擇、基因序列的獲取、基因突變的序列的鑒定、突變位點生理學意義的注釋?；谌怙@子測序和全基因測序的基因檢測由于獲取的是全部基因序列，基因位點的選擇就不重要了，而基因突變序列的鑒定和生理學意義的注釋成為非常重要的環(huán)節(jié)。雖然，基因解碼在數(shù)據(jù)庫比對之外，采用了更高級的序列注釋分析方法，但是，數(shù)據(jù)庫比對、調(diào)用及注釋是全外顯子測序基因檢測和全基因測序基因檢測的賊為基礎(chǔ)的一環(huán)。下面，是佳學基因?qū)ι镄畔⒏呓?jīng)技巧班學員進行進一步有培訓的內(nèi)容之一。

不同的VCF的內(nèi)容

8. INFO為variant的詳細信息字段的意思可以在header里搜索去看

上面vcf 中INFO全為“.”了，是因為用 vcftools 某步過濾SNP輸出文件時用了 --recode ，這樣就不輸出info信息，以 . 代替了，想輸出info，可以--recode-INFO xx（如MQ）或者 --recode-INFO-all （所有info全部輸出）

#DP-read depth：樣本在這個位置的reads覆蓋度。是一些reads被過濾掉后的覆蓋度。DP4:高質(zhì)量測序堿基，位于REF或者ALT前后

#QD：通過深度來評估一個變異的可信度。Variant call confidence normalized by depth of sample reads supporting a variant

#MQ：表示覆蓋序列質(zhì)量的均方值RMS Mapping Quality

#FQ：phred值關(guān)于所有樣本相似的可能性

#AC，AF 和 AN：AC(Allele Count) 表示該Allele的數(shù)目；AF(Allele Frequency) 表示Allele的頻率； AN(Allele Number) 表示Allele的總數(shù)目。

#FS

FS是一個通過Fisher檢驗的p-value轉(zhuǎn)換而來的值，它要描述的是測序或者比對時對于只含有變異的read以及只含有參考序列堿基的read是否存在著明顯的正負鏈特異性（Strand bias，或者說是差異性）。這個差異反應了測序過程不夠隨機，或者是比對算法在基因組的某些區(qū)域存在一定的選擇偏向。如果測序過程是隨機的，比對是沒問題的，那么不管read是否含有變異，以及是否來自基因組的正鏈或者負鏈，只要是真實的它們就都應該是比較均勻的，也就是說，不會出現(xiàn)鏈特異的比對結(jié)果，F(xiàn)S應該接近于零。使用F檢驗來檢驗測序是否存在鏈偏好性。鏈偏好性可能會導致變異等位基因檢測出現(xiàn)錯誤。輸出值Phred-scaled p-value，值越大越可能出現(xiàn)鏈偏好性。

#MLEAC：Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed. 對于每個ALT等位基因,等位基因計數(shù)(不一定與AC相同)的賊大似然期望(MLE),順序與列出的順序相同

#MLEAF：Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed. 對于每個ALT等位基因，等位基因頻率（不一定與AF相同）的賊大似然期望（MLE），順序與列出的順序相同

StrandOddsRatio（SOR）

關(guān)于SOR在上面講到FS的時候，我就在注釋里提及過了。它同樣是對鏈特異（Strand bias）的一種描述，但是從上面我們也可以看到FS在硬過濾的時候并不是非常給力，而且由于很多時候read在外顯子區(qū)域末端的覆蓋存在著一定的鏈特異（這個區(qū)域的現(xiàn)象其實是正常的），往往只有一個方向的read，這個時候該區(qū)域中如果有變異位點的話，那么FS通常會給出很差的分值，這時SOR就能夠起到比較好的校正作用了。計算SOR所用的統(tǒng)計檢驗方法也與FS不同，它用的是symmetric odds ratio test，數(shù)據(jù)是一個2×2的列聯(lián)表（如下），公式也十分簡單，我把公式進行了簡單的展開，從中可以清楚地看出，它考慮的其實就是ALT和REF這兩個堿基的read覆蓋方向的比例是否有偏，如果有效無偏，那么應該等于1。

VQSLOD是什么意思，有什么用途？

VQSLOD是Variant Quality Score Log Odds Ratio的縮寫，它是一種用于衡量變異位點質(zhì)量的指標，常用于遺傳變異的鑒定、分類和篩選。

VQSLOD指標是由GATK（Genome Analysis Toolkit）開發(fā)的一種方法，在變異位點質(zhì)量評估中得到廣泛應用。該指標通過比較某個變異位點的觀測結(jié)果與期望結(jié)果之間的對數(shù)比值來計算變異位點的質(zhì)量。VQSLOD值越高，表示該變異位點越高效，可信度越高，反之則表示該變異位點的高效性較低。

VQSLOD的應用可以幫助分析人員將高質(zhì)量的變異位點篩選出來，以便進一步分析和研究。此外，VQSLOD指標還可以與其他指標結(jié)合使用，如各類濾波器和注釋信息，以提高變異位點的篩選效率和正確性。

culprit=FS是什么意思

"Culprit=FS"是一種對遺傳變異的注釋（annotation），其中"Culprit"表示致病性變異的可能性，"FS"是該致病性變異的一種計算方法。

FS是Fisher Strand Bias的縮寫，是一種用于檢測單倍型偏移（haplotype bias）的統(tǒng)計方法。在遺傳變異的研究中，單倍型偏移指的是在一組樣本中，某個變異位點的兩種等位基因的比例與預期比例不一致的現(xiàn)象。如果某個變異位點的兩種等位基因在一些單倍型中出現(xiàn)的頻率比在其他單倍型中高，那么就可能產(chǎn)生單倍型偏移的現(xiàn)象。

FS值是根據(jù)Fisher正確檢驗計算得出的，用于評估單倍型偏移的可能性。如果一個變異位點的FS值很高，表明該位點存在單倍型偏移的可能性較大，可能對其致病性評估產(chǎn)生影響。

因此，"Culprit=FS"這一注釋表示該變異位點的致病性評估結(jié)果受到單倍型偏移的影響，需要進行更加謹慎的評估。在遺傳變異分析中，注釋信息能夠幫助分析人員更好地理解變異位點的特性和可能的致病性，從而更好地指導臨床應用和疾病研究。

POSITIVE_TRAIN_SITE是什么意思？

POSITIVE_TRAIN_SITE是用于機器學習的訓練數(shù)據(jù)集的一種標記（tag）。在機器學習中，POSITIVE_TRAIN_SITE通常指的是被認為具有某種屬性或特征的數(shù)據(jù)樣本，這些樣本被用來訓練機器學習模型。

在基因組學中，POSITIVE_TRAIN_SITE常常指的是已知的、被確認為具有某種遺傳變異的基因組位點。這些位點通常被認為與某種疾病或特定的遺傳特征相關(guān)。POSITIVE_TRAIN_SITE通常用于訓練機器學習模型，以便對新的、未知的遺傳變異進行分類和預測。比如，如果一個基因組位點被標記為POSITIVE_TRAIN_SITE，那么機器學習模型會使用該位點的信息來學習如何識別其他類似的位點，并預測它們是否具有相同的遺傳變異。

在基因組學中，POSITIVE_TRAIN_SITE還可以用于改進遺傳變異的篩選和注釋方法。通過使用POSITIVE_TRAIN_SITE，分析人員可以訓練模型來識別和過濾掉可能不相關(guān)的變異位點，從而提高變異位點的篩選正確性和高效性。

GT：

樣品的基因型（genotype）。兩個數(shù)字中間用’/”分開，這兩個數(shù)字表示雙倍體的sample的基因型。0表示樣品中有ref的allele； 1 表示樣品中variant的allele； 2表示有第二個variant的allele。

因此： 0/0表示sample中該位點為純合的，和ref一致； 0/1 表示sample中該位點為雜合的，有ref和variant兩個基因型； 1/1
表示sample中該位點為純合的，和variant一致。

AD 和 DP：

AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個值，前者對應ref基因型，后者對應variant基因型；

DP（Depth）為sample中該位點的覆蓋度(一些reads被過濾掉的覆蓋度)。

GQ：

基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值，表示在該位點該基因型存在的可能性；該值越高，則Genotype的可能性越大；計算方法：Phred值 = -10 * log (1-p) p為基因型存在的概率。

指定三種基因型的質(zhì)量值。這三種指定的基因型為(0/0,0/1,1/1)，這三種基因型的概率總和為1。該值越大，表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。

(責任編輯：佳學基因)