1. 程式人生 > >基於帕累托最優的多目標SNP選擇

基於帕累托最優的多目標SNP選擇

#引用

##LaTex

@article{GUMUS201323, title = “Multi objective SNP selection using pareto optimality”, journal = “Computational Biology and Chemistry”, volume = “43”, pages = “23 - 28”, year = “2013”, issn = “1476-9271”, doi = “https://doi.org/10.1016/j.compbiolchem.2012.12.006”, url = “http://www.sciencedirect.com/science/article/pii/S1476927112001156

”, author = “Ergun Gumus and Zeliha Gormez and Olcay Kursun”, keywords = “Feature selection, Principal component analysis (PCA), Mutual information (MI), Genomic鈥揼eographical distance, Human Genome Diversity Project SNP dataset” }

##Normal

Ergun Gumus, Zeliha Gormez, Olcay Kursun, Multi objective SNP selection using pareto optimality, Computational Biology and Chemistry, Volume 43, 2013, Pages 23-28, ISSN 1476-9271,

https://doi.org/10.1016/j.compbiolchem.2012.12.006. (http://www.sciencedirect.com/science/article/pii/S1476927112001156) Keywords: Feature selection; Principal component analysis (PCA); Mutual information (MI); Genomic–geographical distance; Human Genome Diversity Project SNP dataset

#摘要

Biomarker discovery 生物標誌物發現

SNP — single nucleotide polymorphism 單核苷酸多型性

傳統單目標 — 最大化分類準確度

1 高分類準確度 2 種族群體遺傳多樣性與地理距離的相關性

#主要內容

資料集: Human Genome Diversity Project (HGDP) SNP 資料集 1064個個體 52個族群 原始資料: 1043個個體 每個個體 — 660,918 SNPs(163來自線粒體DNA,排除)— 用660,755 每個SNP — 2個等位基因 — 編碼表示為:{1,0,1}\left\{ -1, 0, 1 \right\}

目標一

高分類準確度 — mutual information MI 互資訊

這裡寫圖片描述 這裡寫圖片描述

HH — 隨機變數的熵

這裡寫圖片描述

目標二

基因組地理相關性 — principal components analysis PCA

由於維度較高 — 對PCA使用了“維度戲法”

這裡寫圖片描述

CCD×DD\times D維協方差矩陣 YYN×DN \times D為中心資料矩陣,NDN \ll D

這裡寫圖片描述

kik_i — 特徵向量ii 兩邊同乘YY

這裡寫圖片描述

vi=Ykiv_i = Yk_i — 協方差矩陣YYTYY^T的第ii個特徵向量 兩邊同乘YTY^T

這裡寫圖片描述

可得:

這裡寫圖片描述