佳學(xué)基因遺傳病基因檢測(cè)機(jī)構(gòu)排名,三甲醫(yī)院的選擇

基因檢測(cè)就找佳學(xué)基因!

熱門(mén)搜索
  • 癲癇
  • 精神分裂癥
  • 魚(yú)鱗病
  • 白癜風(fēng)
  • 唇腭裂
  • 多指并指
  • 特發(fā)性震顫
  • 白化病
  • 色素失禁癥
  • 狐臭
  • 斜視
  • 視網(wǎng)膜色素變性
  • 脊髓小腦萎縮
  • 軟骨發(fā)育不全
  • 血友病

客服電話

4001601189

在線咨詢

CONSULTATION

一鍵分享

CLICK SHARING

返回頂部

BACK TO TOP

分享基因科技,實(shí)現(xiàn)人人健康!
×
查病因,阻遺傳,哪里干?佳學(xué)基因準(zhǔn)確有效服務(wù)好! 靶向用藥怎么搞,佳學(xué)基因測(cè)基因,優(yōu)化療效 風(fēng)險(xiǎn)基因哪里測(cè),佳學(xué)基因
當(dāng)前位置:????致電4001601189! > 基因課堂 > 基因價(jià)值 > 基因與生活 >

【佳學(xué)基因檢測(cè)】基因檢測(cè)數(shù)據(jù)庫(kù)調(diào)用內(nèi)容中的VCF文件中的INFO的意義:培訓(xùn)教材

【佳學(xué)基因檢測(cè)】基因檢測(cè)數(shù)據(jù)庫(kù)調(diào)用內(nèi)容中的VCF文件中的INFO的意義:培訓(xùn)教材?;驒z測(cè)技術(shù)導(dǎo)讀:完整高效的基因檢測(cè)包括基因檢測(cè)位點(diǎn)的先擇、基因序列的獲取、基因突變的序列的鑒定

佳學(xué)基因檢測(cè)】基因檢測(cè)數(shù)據(jù)庫(kù)調(diào)用內(nèi)容中的VCF文件中的INFO的意義:培訓(xùn)教材

基因檢測(cè)技術(shù)導(dǎo)讀:

完整高效的基因檢測(cè)包括基因檢測(cè)位點(diǎn)的先擇、基因序列的獲取、基因突變的序列的鑒定、突變位點(diǎn)生理學(xué)意義的注釋?;谌怙@子測(cè)序和全基因測(cè)序的基因檢測(cè)由于獲取的是全部基因序列,基因位點(diǎn)的選擇就不重要了,而基因突變序列的鑒定和生理學(xué)意義的注釋成為非常重要的環(huán)節(jié)。雖然, 基因解碼在數(shù)據(jù)庫(kù)比對(duì)之外,采用了更高級(jí)的序列注釋分析方法,但是,數(shù)據(jù)庫(kù)比對(duì)、調(diào)用及注釋是全外顯子測(cè)序基因檢測(cè)和全基因測(cè)序基因檢測(cè)的賊為基礎(chǔ)的一環(huán)。下面,是佳學(xué)基因?qū)ι镄畔⒏呓?jīng)技巧班學(xué)員進(jìn)行進(jìn)一步有培訓(xùn)的內(nèi)容之一。

不同的VCF的內(nèi)容

   8. INFO為variant的詳細(xì)信息     字段的意思可以在header里搜索去看

    上面vcf 中INFO全為“.”了,是因?yàn)橛?vcftools 某步過(guò)濾SNP輸出文件時(shí)用了 --recode ,這樣就不輸出info信息,以 . 代替了,想輸出info,可以--recode-INFO xx(如MQ)  或者 --recode-INFO-all (所有info全部輸出)

    #DP-read depth:樣本在這個(gè)位置的reads覆蓋度。是一些reads被過(guò)濾掉后的覆蓋度。DP4:高質(zhì)量測(cè)序堿基,位于REF或者ALT前后

    #QD:通過(guò)深度來(lái)評(píng)估一個(gè)變異的可信度。Variant call confidence normalized by depth of sample reads supporting a variant       

    #MQ:表示覆蓋序列質(zhì)量的均方值RMS Mapping Quality

    #FQ:phred值關(guān)于所有樣本相似的可能性

    #AC,AF 和 AN:AC(Allele Count) 表示該Allele的數(shù)目;AF(Allele Frequency) 表示Allele的頻率; AN(Allele Number) 表示Allele的總數(shù)目。


    #FS

 

FS是一個(gè)通過(guò)Fisher檢驗(yàn)的p-value轉(zhuǎn)換而來(lái)的值,它要描述的是測(cè)序或者比對(duì)時(shí)對(duì)于只含有變異的read以及只含有參考序列堿基的read是否存在著明顯的正負(fù)鏈特異性(Strand bias,或者說(shuō)是差異性)。這個(gè)差異反應(yīng)了測(cè)序過(guò)程不夠隨機(jī),或者是比對(duì)算法在基因組的某些區(qū)域存在一定的選擇偏向。如果測(cè)序過(guò)程是隨機(jī)的,比對(duì)是沒(méi)問(wèn)題的,那么不管read是否含有變異,以及是否來(lái)自基因組的正鏈或者負(fù)鏈,只要是真實(shí)的它們就都應(yīng)該是比較均勻的,也就是說(shuō),不會(huì)出現(xiàn)鏈特異的比對(duì)結(jié)果,F(xiàn)S應(yīng)該接近于零。 使用F檢驗(yàn)來(lái)檢驗(yàn)測(cè)序是否存在鏈偏好性。鏈偏好性可能會(huì)導(dǎo)致變異等位基因檢測(cè)出現(xiàn)錯(cuò)誤。輸出值Phred-scaled p-value,值越大越可能出現(xiàn)鏈偏好性。

 

 

  #MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed. 對(duì)于每個(gè)ALT等位基因,等位基因計(jì)數(shù)(不一定與AC相同)的賊大似然期望(MLE),順序與列出的順序相同

    #MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed. 對(duì)于每個(gè)ALT等位基因,等位基因頻率(不一定與AF相同)的賊大似然期望(MLE),順序與列出的順序相同
 

 

 

StrandOddsRatio(SOR)

關(guān)于SOR在上面講到FS的時(shí)候,我就在注釋里提及過(guò)了。它同樣是對(duì)鏈特異(Strand bias)的一種描述,但是從上面我們也可以看到FS在硬過(guò)濾的時(shí)候并不是非常給力,而且由于很多時(shí)候read在外顯子區(qū)域末端的覆蓋存在著一定的鏈特異(這個(gè)區(qū)域的現(xiàn)象其實(shí)是正常的),往往只有一個(gè)方向的read,這個(gè)時(shí)候該區(qū)域中如果有變異位點(diǎn)的話,那么FS通常會(huì)給出很差的分值,這時(shí)SOR就能夠起到比較好的校正作用了。計(jì)算SOR所用的統(tǒng)計(jì)檢驗(yàn)方法也與FS不同,它用的是symmetric odds ratio test,數(shù)據(jù)是一個(gè)2×2的列聯(lián)表(如下),公式也十分簡(jiǎn)單,我把公式進(jìn)行了簡(jiǎn)單的展開(kāi),從中可以清楚地看出,它考慮的其實(shí)就是ALT和REF這兩個(gè)堿基的read覆蓋方向的比例是否有偏,如果有效無(wú)偏,那么應(yīng)該等于1。

VQSLOD是什么意思,有什么用途?

VQSLOD是Variant Quality Score Log Odds Ratio的縮寫(xiě),它是一種用于衡量變異位點(diǎn)質(zhì)量的指標(biāo),常用于遺傳變異的鑒定、分類(lèi)和篩選。

VQSLOD指標(biāo)是由GATK(Genome Analysis Toolkit)開(kāi)發(fā)的一種方法,在變異位點(diǎn)質(zhì)量評(píng)估中得到廣泛應(yīng)用。該指標(biāo)通過(guò)比較某個(gè)變異位點(diǎn)的觀測(cè)結(jié)果與期望結(jié)果之間的對(duì)數(shù)比值來(lái)計(jì)算變異位點(diǎn)的質(zhì)量。VQSLOD值越高,表示該變異位點(diǎn)越高效,可信度越高,反之則表示該變異位點(diǎn)的高效性較低。

VQSLOD的應(yīng)用可以幫助分析人員將高質(zhì)量的變異位點(diǎn)篩選出來(lái),以便進(jìn)一步分析和研究。此外,VQSLOD指標(biāo)還可以與其他指標(biāo)結(jié)合使用,如各類(lèi)濾波器和注釋信息,以提高變異位點(diǎn)的篩選效率和正確性。
 

culprit=FS是什么意思

 

"Culprit=FS"是一種對(duì)遺傳變異的注釋?zhuān)╝nnotation),其中"Culprit"表示致病性變異的可能性,"FS"是該致病性變異的一種計(jì)算方法。

 

FS是Fisher Strand Bias的縮寫(xiě),是一種用于檢測(cè)單倍型偏移(haplotype bias)的統(tǒng)計(jì)方法。在遺傳變異的研究中,單倍型偏移指的是在一組樣本中,某個(gè)變異位點(diǎn)的兩種等位基因的比例與預(yù)期比例不一致的現(xiàn)象。如果某個(gè)變異位點(diǎn)的兩種等位基因在一些單倍型中出現(xiàn)的頻率比在其他單倍型中高,那么就可能產(chǎn)生單倍型偏移的現(xiàn)象。

 

FS值是根據(jù)Fisher正確檢驗(yàn)計(jì)算得出的,用于評(píng)估單倍型偏移的可能性。如果一個(gè)變異位點(diǎn)的FS值很高,表明該位點(diǎn)存在單倍型偏移的可能性較大,可能對(duì)其致病性評(píng)估產(chǎn)生影響。

 

因此,"Culprit=FS"這一注釋表示該變異位點(diǎn)的致病性評(píng)估結(jié)果受到單倍型偏移的影響,需要進(jìn)行更加謹(jǐn)慎的評(píng)估。在遺傳變異分析中,注釋信息能夠幫助分析人員更好地理解變異位點(diǎn)的特性和可能的致病性,從而更好地指導(dǎo)臨床應(yīng)用和疾病研究。
 

POSITIVE_TRAIN_SITE是什么意思?

 

POSITIVE_TRAIN_SITE是用于機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集的一種標(biāo)記(tag)。在機(jī)器學(xué)習(xí)中,POSITIVE_TRAIN_SITE通常指的是被認(rèn)為具有某種屬性或特征的數(shù)據(jù)樣本,這些樣本被用來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型。

 

在基因組學(xué)中,POSITIVE_TRAIN_SITE常常指的是已知的、被確認(rèn)為具有某種遺傳變異的基因組位點(diǎn)。這些位點(diǎn)通常被認(rèn)為與某種疾病或特定的遺傳特征相關(guān)。POSITIVE_TRAIN_SITE通常用于訓(xùn)練機(jī)器學(xué)習(xí)模型,以便對(duì)新的、未知的遺傳變異進(jìn)行分類(lèi)和預(yù)測(cè)。比如,如果一個(gè)基因組位點(diǎn)被標(biāo)記為POSITIVE_TRAIN_SITE,那么機(jī)器學(xué)習(xí)模型會(huì)使用該位點(diǎn)的信息來(lái)學(xué)習(xí)如何識(shí)別其他類(lèi)似的位點(diǎn),并預(yù)測(cè)它們是否具有相同的遺傳變異。

 

在基因組學(xué)中,POSITIVE_TRAIN_SITE還可以用于改進(jìn)遺傳變異的篩選和注釋方法。通過(guò)使用POSITIVE_TRAIN_SITE,分析人員可以訓(xùn)練模型來(lái)識(shí)別和過(guò)濾掉可能不相關(guān)的變異位點(diǎn),從而提高變異位點(diǎn)的篩選正確性和高效性。

 

GT:

樣品的基因型(genotype)。兩個(gè)數(shù)字中間用’/”分 開(kāi),這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0表示樣品中有ref的allele; 1 表示樣品中variant的allele; 2表示有第二個(gè)variant的allele。

因此: 0/0表示sample中該位點(diǎn)為純合的,和ref一致; 0/1 表示sample中該位點(diǎn)為雜合的,有ref和variant兩個(gè)基因型; 1/1
表示sample中該位點(diǎn)為純合的,和variant一致。

AD 和 DP:

AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號(hào)分割的兩個(gè)值,前者對(duì)應(yīng)ref基因型,后者對(duì)應(yīng)variant基因型;

DP(Depth)為sample中該位點(diǎn)的覆蓋度(一些reads被過(guò)濾掉的覆蓋度)。

GQ:

基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值,表示在該位點(diǎn)該基因型存在的可能性;該值越高,則Genotype的可能性越大;計(jì)算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。

PL

指定三種基因型的質(zhì)量值。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。


(責(zé)任編輯:佳學(xué)基因)
頂一下
(1)
100%
踩一下
(0)
0%
推薦內(nèi)容:
來(lái)了,就說(shuō)兩句!
請(qǐng)自覺(jué)遵守互聯(lián)網(wǎng)相關(guān)的政策法規(guī),嚴(yán)禁發(fā)布色情、暴力、反動(dòng)的言論。
評(píng)價(jià):
表情:
用戶名: 驗(yàn)證碼: 點(diǎn)擊我更換圖片

Copyright © 2013-2033 網(wǎng)站由佳學(xué)基因醫(yī)學(xué)技術(shù)(北京)有限公司,湖北佳學(xué)基因醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室有限公司所有 京ICP備16057506號(hào)-1;鄂ICP備2021017120號(hào)-1

設(shè)計(jì)制作 基因解碼基因檢測(cè)信息技術(shù)部