天池精準醫療大賽——人工智慧輔助糖尿病遺傳風險預測總結
阿新 • • 發佈:2019-01-07
1 問題描述
這個比賽的任務是預測妊娠期婦女是否患有妊娠期糖尿病,label只有一列,0表示未患病,1表示患病。一共有1000條訓練樣本,85維特徵。線上測試樣本為200條,採用F1值來評價結果好壞。由於樣本較少所以很容易出現過擬合問題。在85維特徵中,有30個是身體指標特徵,諸如年齡、身高、體重、BMI、膽固醇指標等等,其他55個是基因特徵,基因特徵有3中取值0,1,2代表生物學中的AA、Aa、aa。下面介紹賽題思路。1 連續特徵類
檢視資料的分佈,採用不同的填充辦法,比如平均值、中值、眾數等以平均值為標準值,新增和平均值的差值,以及差值的絕對值
對連續特徵做歸一化處理,由於後面需要對特徵之間做運算,所以需要把0替換成極小值
歸一化處理後做加減乘除和反除,以得到組合特徵。
2 離散特徵類
離散特徵採用one-ht編碼編碼後的特徵做與、或、異或、同或處理
2 特徵篩選
線性迴歸篩選特徵+非線性XGBoost篩選
3 模型
這裡採用的模型主要有3種,LR、XGB和LGB,其中LR採用線性篩選得到的特徵,XGB和LGB採用非線性篩選得到的特徵4 融合
這裡採用簡單的加權融合的辦法,最終結果線上F1值0.6429,複賽排名57。總體上來說思路比較簡單,傳統,和排名靠前的選手有很大的差距。下面根據答辯的情況,對每位選手的方案作出總結5 對答辯選手的總結
在資料填充中,選手不是採用簡單的平均值和中位數的填充辦法,而是Nuclear和範數填充的辦法。對於特徵處理,選手先去掉了相關度非常小的幾個特徵以剔除噪聲。然後分析所有特徵對於label的單調性,實際上也類似於相關度,篩選出強特徵和弱特徵,在對強特徵之間做組合,又一次通過單調性篩選出強特徵。一般迭代4,5次可以得到不錯的結果。這個的篩選指標不僅僅可以使用單調性、相關度等,還可以使用在模型選擇上大家都大同小異,LR、SVM、RF、GBDT、XGB、LGB都試一遍,看看效果,有一個選手用了[Catboost]的模型。在調參上面,有選手採用了遺傳演算法來調試出最佳的引數,思路不錯。
後處理,,對於不確定的結果,正例和負例相接近的(患病概率為0.49~0.50之間的也預測為患病),可以在一定程度上提高成績。