1. 程式人生 > >實戰天池精準醫療大賽——複賽之妊娠糖尿病與基因資料分析

實戰天池精準醫療大賽——複賽之妊娠糖尿病與基因資料分析

1. 說明

 初賽提供的是血常規,肝功能,腎功能,生化的檢驗結果,預測血糖的具體值。複賽加入了SNP的五十多個位點資料,預測被試者是否為妊娠糖尿病,是個二分類問題。下面做了一些簡單的資料分析和相關資料採集。

2. 糖尿病相關的SNP資料重要性排序

 SNP資料取值為1,2,3,為列舉值,沒有大小關係,因此做onehot編碼,轉換為形如:SNP1_3,表示SNP1取值為3作為單一特徵. 相關性排序描述的是單個特徵與結果的相關性,決策重要性描述的是單個特徵與其它特徵組合後與結果的相關性. 下面均為重要性前十的特徵,數字為重要性評分.

1) 相關性排序(負號為負相關):

2) 決策重要性排序(五次交叉驗證模型評分累加):

3) 總結

 SNP34,SNP37在兩種排序中均佔前4位,可以說是重要性最高的特徵,SNP21, SNP53,SNP40在前十中同時出現,也有較高優先順序.

3. 糖尿病相關的其它資訊

 表中表出重要性前十位的特徵,數字為重要性評分

1) 相關性排序:

2) 決策重要性排序(五次交叉驗證模型評分累加):

3) 總結

 特徵VAR00007的重性最高,主辦方未告知該值的具體含義.比較重要的特徵還有:TG(甘油三脂);孕前BMI,孕前體重,BMI分類(與肥胖有關);年齡;hsCRP(超敏C-反應蛋白),wbc(白細胞)(與當前身體狀況相關).

4. 資料分析

1) 特徵分類與組合

 把特徵分為三類:基因資訊,祕密資訊,其它資訊. 其中基因資訊是名為SNP*的特徵值(歸為A類),祕密資訊是名為VAR00007的特徵值(歸為B類),除此之外的其它資訊幾乎都是描述當前身體狀況的資訊(歸為C類). 使用GBDT模型,CV=5交叉驗證,訓練集資料在引數相同的情況下:

2) 分析

 B類和C類組合後,準確率並沒有提升(使用混淆矩陣對比預測結果,B類與C類一致的預測僅佔61%,也就是說結果並不一致,猜測B類和C類特徵相關性不大).當B類(或C類)資訊與A類資訊結合後,準確率有明顯提升,即:基因資訊與其它資訊組合後提高預測成功率約5%左右.

5. 相關資料

1) 詞彙

i. SNP 單核苷酸多型性(single nucleotide polymorphism,SNP),主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多型性。它是人類可遺傳的變異中最常見的一種。佔所有已知多型性的90%以上。SNP在人類基因組中廣泛存在,平均每500~1000個鹼基對中就有1個,人類30億鹼基中共有300萬以上的SNP.SNP所表現的多型性只涉及到單個鹼基的變異. 之前聽說的羊水穿刺,就是提取嬰兒的DNA,對SNP相應的位點檢測。

ii. TG(Triglyceride) 甘油三酯,血脂的一種.

iii. hsCRP 超敏C-反應蛋白是機體受到微生物入侵或組織損傷等炎症性刺激時肝細胞合成的急性相蛋白

iv. apoA1 載脂蛋白

v. wbc 白細胞

2) 糖尿病與基因

i. 血液中的葡萄糖只有在有胰島素的條件才才能進入肌肉,脂肪,肝細胞發揮供能作用。胰島素釋放及細胞攝入葡萄糖之間的平衡可以使得血糖水平保持在一個較小的波動範圍。 1型糖尿病(T1D)是因為免疫系統殺死了生產胰島素的β細胞;2型糖尿病(T2D)是因為代謝紊亂阻礙了胰島素的正常功能。在2型糖尿病患者體內,由於機體不能產生足量胰島素,或者機體對胰島素產生抵抗,血糖水平會升高到過高水平。 此前的糖尿病研究大多是分析基因對免疫系統改變(T1D)和肝臟代謝紊亂(T2D)的影響。遺傳學背景是胰腺β細胞生存的關鍵。有些人的β細胞比較強壯,有些人的β細胞比較脆弱。脆弱的β細胞更容易發展成糖尿病,不論是1型還是2型,β細胞基因缺陷是兩種糖尿病的共同根源.

ii. 糖尿病分為1型、2型、特異型和妊娠糖尿病4大類。除特異型糖尿病外,其他型別糖尿病(也可稱普通糖尿病)均系多基因病,參與的每個基因對於糖尿病易感性來說必不可少,但其貢獻率都不太大,故稱其為易感基因。

iii. 國際上共報告了23個糖尿病易感基因,我國也報告了幾個候選易感基因,但經比對發現,在不同地域和不同種族間,其易感基因譜是有區別的。 相關基因包括:定位在1號染色體上的兩個小區域中。還有9號染色體上的CDKN2A、CDKN2B基因和定位在3號染色體上的IGF2BP2基因以及CDKALl基因。還有TCF7L2、SLC30A8、HHEX、PPARG、KCNJl1、SREBF2和FTO等. TM6SF2基因變異與肝脂肪變性(俗稱“脂肪肝”)有關,影響著2型糖尿病的風險。(它和脂功指標提供的資訊有一定重合). 一氧化氮合成酶1轉接蛋白(NOS1AP)基因。這個基因位點的遺傳缺陷可使得中國人Ⅱ型糖尿病的患病風險上升17%。 PAX4的基因的變異與2型糖尿病有關,而這個變異僅發生在中國、韓國、新加坡等東亞國家人群中。

6. 一些想法

 在資料分析的過程中,有一些感受,不一定對,在此分享一下,糖尿病分成單基因病(特異型糖尿病)和多基因病,我們現在看到最多的二型糖尿病是多基因病,也就是說它是由多個基因共同作用的結果,這種多基因糖尿病估計再過一百年,也不太可能通過編輯基因的方式治療,因為一個基因可能有多種影響,修改了某個基因之後,這個毛病治好了,可能其它毛病又出來了。

 也治不了,還分析它幹嘛呢?從基因的角度看確實有一些人是某種疾病的易感人群,有的是面板病,有的是癌症。在沒有基因檢測的時候,一般通過親屬家人的健康情況來預測,基因檢測相對更準確。從資料看來,各種身體指標,比如說免疫力,肥胖,年齡也都起一定作用。

    有了這些技術的支援,就不用因為親人有某種遺傳病,而對自己的健康疑神疑鬼,直接就做檢查就好了。如果不幸屬於易感人群,多注意相關的誘發因素可以大大降低患病概率,總比去切乳腺強。

7. 參考

1) SNP的概念和特點

2) 2型糖尿病相關基因的研究進展

3) 2型糖尿病的相關基因多型性的研究進展

4) 單核苷酸多型性與2型糖尿病易感基因相關性的研究進展

5) 《上帝的手術刀——基因編輯簡史》

作者:王立銘,出版社:浙江人民出版社