【佳學(xué)基因檢測(cè)】基因解碼如何使用eQTL指標(biāo)提高腫瘤基因檢測(cè)的正確性?
人體基因是如何解碼的?佳學(xué)基因核心技術(shù)人員不小心泄密了
基因表達(dá)數(shù)量性狀位點(diǎn)(expression quantitative trait locus, eQTL)是佳學(xué)基因基因解碼系列技術(shù)中的一個(gè)指標(biāo)。采用佳學(xué)基因采用一套完整的技術(shù)指標(biāo)解讀基因序列變化影響人體生理功能方式、位置、組織、器官并確定影響發(fā)生的時(shí)間和影響程度。
用于基因密碼破譯的基因表達(dá)數(shù)量性狀狀位點(diǎn)是一類能夠影響基因表達(dá)量的遺傳位點(diǎn)、基因變異序列。這一部分富有特殊含義的基因序列大部分都是單核苷酸多態(tài)性即SNP的形式出現(xiàn),具有一定的生物學(xué)意義。佳學(xué)基因不斷積累、豐富、優(yōu)化基因表達(dá)數(shù)量性狀位點(diǎn)數(shù)據(jù)庫(kù),形式和規(guī)模類似于eQTL數(shù)據(jù)庫(kù)是GTEx,如今已更新到第八版了。
基因序列調(diào)控基因表達(dá)從而影響人體疾病表征的方式主要有兩類,也就是eQTL主要分為兩類:(1)順式eQTL(cis-eQTL):它主要是指與所調(diào)控基因相距較近的eQTL,一般多位于所調(diào)控基因的上下游1Mb區(qū)域;(2)反式eQTL(trans-eQTL):與cis-eQTL恰恰相反,反式是指距離所調(diào)控基因位置比較遠(yuǎn)的eQTL,有時(shí)候距離甚至超過(guò)5Mb。因此,對(duì)于eQTL作用方式的基因解碼,需要考慮兩點(diǎn),SNP和基因表達(dá)水平的關(guān)聯(lián)度以及SNP與基因的距離。 佳學(xué)基因從事大量eQTL數(shù)據(jù)庫(kù)的開(kāi)發(fā),可以直接利多種來(lái)源的數(shù)據(jù)庫(kù)研究SNP調(diào)控的基因,這里的經(jīng)典代是就是GTEx數(shù)據(jù)庫(kù)。
基因解碼過(guò)程中,如何利用自己的數(shù)據(jù)計(jì)算并確定相關(guān)eQTL。 利用原始數(shù)據(jù)做eQTL分析,佳學(xué)基因至少需要三個(gè)文件,先進(jìn)個(gè)是樣本信息文件,該文件包含樣本的年齡,性別和種族等等;第二個(gè)是基因表達(dá)量文件,它表示的是每個(gè)基因在每個(gè)樣本中的表達(dá)含量;第三個(gè)是基因型數(shù)據(jù),也即每個(gè)樣本的基因型數(shù)據(jù)。 在進(jìn)行分析前,每一個(gè)數(shù)據(jù)還應(yīng)當(dāng)有嚴(yán)格的數(shù)據(jù)格式: 先進(jìn)個(gè)是樣本信息文件,除開(kāi)先進(jìn)列,其它列都代表不同的樣本,每一行代表的是樣本的表型信息。 第三個(gè)是基因型數(shù)據(jù),同樣地,除開(kāi)先進(jìn)列,其它列都代表不同的樣本,每一行代表的是不同的基因型(SNP),一般基因型數(shù)據(jù)用0,1,2這三個(gè)數(shù)字編碼,代表的是效應(yīng)等位基因劑量。舉個(gè)簡(jiǎn)單的例子,SNP1的等位基因分別是A和C,如果我們以A為效應(yīng)等位基因,那么基因型AA的劑量便是2,AC為1,CC為0。 有了這些數(shù)據(jù),我們就可以簡(jiǎn)單分析SNP和基因表達(dá)量的關(guān)系了 其數(shù)學(xué)模型如下: gene1 ~ snp1 + sex + age + error_term 這里gene1(因變量)一般就是一個(gè)基因的表達(dá)量,snp1(自變量)就是一個(gè)SNP的基因型,兩者擬合,矯正相關(guān)干擾項(xiàng)(如sex和age等),error_term是指回歸模型的誤差項(xiàng)。 如果想?yún)^(qū)分順式還是反式eQTL,這時(shí)候就需要結(jié)合基因與SNP的位置信息了。
(責(zé)任編輯:佳學(xué)基因)