天池精準醫療大賽——人工智慧輔助糖尿病遺傳風險預測總結

阿新 • • 發佈：2019-01-07

1 問題描述

這個比賽的任務是預測妊娠期婦女是否患有妊娠期糖尿病，label只有一列，0表示未患病，1表示患病。一共有1000條訓練樣本，85維特徵。線上測試樣本為200條，採用F1值來評價結果好壞。由於樣本較少所以很容易出現過擬合問題。在85維特徵中，有30個是身體指標特徵，諸如年齡、身高、體重、BMI、膽固醇指標等等，其他55個是基因特徵，基因特徵有3中取值0,1,2代表生物學中的AA、Aa、aa。下面介紹賽題思路。

1 連續特徵類

檢視資料的分佈，採用不同的填充辦法，比如平均值、中值、眾數等
以平均值為標準值，新增和平均值的差值，以及差值的絕對值
對連續特徵做歸一化處理，由於後面需要對特徵之間做運算，所以需要把0替換成極小值

歸一化處理後做加減乘除和反除，以得到組合特徵。

2 離散特徵類

離散特徵採用one-ht編碼

編碼後的特徵做與、或、異或、同或處理

2 特徵篩選

線性迴歸篩選特徵+非線性XGBoost篩選

3 模型

這裡採用的模型主要有3種，LR、XGB和LGB，其中LR採用線性篩選得到的特徵，XGB和LGB採用非線性篩選得到的特徵

4 融合

這裡採用簡單的加權融合的辦法，最終結果線上F1值0.6429，複賽排名57。總體上來說思路比較簡單，傳統，和排名靠前的選手有很大的差距。下面根據答辯的情況，對每位選手的方案作出總結

5 對答辯選手的總結

在資料填充中，選手不是採用簡單的平均值和中位數的填充辦法，而是Nuclear和範數填充的辦法。對於特徵處理，選手先去掉了相關度非常小的幾個特徵以剔除噪聲。然後分析所有特徵對於label的單調性，實際上也類似於相關度，篩選出強特徵和弱特徵，在對強特徵之間做組合，又一次通過單調性篩選出強特徵。一般迭代4,5次可以得到不錯的結果。這個的篩選指標不僅僅可以使用單調性、相關度等，還可以使用

[IV值]，[REFCV]的辦法來篩選。這裡面ACEID也是一個非常不錯的特徵，但是缺失值很多，容易發生過擬合，選手們的辦法是不填充缺失值或者乾脆這個特徵不用。
在模型選擇上大家都大同小異，LR、SVM、RF、GBDT、XGB、LGB都試一遍，看看效果，有一個選手用了[Catboost]的模型。在調參上面，有選手採用了遺傳演算法來調試出最佳的引數，思路不錯。
後處理，，對於不確定的結果，正例和負例相接近的(患病概率為0.49~0.50之間的也預測為患病)，可以在一定程度上提高成績。

天池精準醫療大賽——人工智慧輔助糖尿病遺傳風險預測總結

1 問題描述

1 連續特徵類

2 離散特徵類

2 特徵篩選

3 模型

4 融合

5 對答辯選手的總結

天池精準醫療大賽——人工智慧輔助糖尿病遺傳風險預測總結

實戰天池精準醫療大賽——複賽之妊娠糖尿病與基因資料分析

實戰天池精準醫療大賽之三_分類迴歸與排序

資料探勘實戰之天池精準醫療大賽（3）——sklearn工具包簡介

資料探勘實戰之天池精準醫療大賽（1）——賽題與資料

天池大資料競賽——糖尿病遺傳風險預測賽後總結（一）

FlowJo正版軟體首次登陸中國，加速精準醫療水平發展

資料猿報道：精準醫療資料平臺GeneDock(聚道科技)獲5000萬元B輪融資

人工智慧打響未來戰爭精準打擊敵方

哪款二維碼掃描模組能夠實現激光精準定位？醫療行業掃碼設備應用

【產業智慧官】用新一代技術+商業作業系統(AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧),在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧

精準定位適合自己的工作——職業素養免費公益課

讓數據更精準，神器標配：熱圖

利用 Traceview 精準定位啟動時間測試的異常方法 (工具開源)

Elasticsearch學習之深入搜索一 --- 提高查詢的精準度

靈玖Nlpir Parser智能挖掘漢語精準分詞

億級推廣流量仍能精準推薦？解讀核心算法的應用實踐

如何通過今日頭條引精準流量，學完即用

學校教育技術人員的精準定位

微博營銷如何獲得精準粉絲

天池精準醫療大賽——人工智慧輔助糖尿病遺傳風險預測總結

1 問題描述

1 連續特徵類

2 離散特徵類

2 特徵篩選

3 模型

4 融合

5 對答辯選手的總結

相關推薦