《我不是藥神》與AI研製新葯
最近電影《我不是藥神》引發熱議,原研藥貴,且研製過程九死一生。近期Science Advances上發表了《Deep reinforcement learning for de novo drug design》(基於深度強化學習的新葯設計)、以及2017年Journal of Cheminformatics上的《Molecular de-novo design through deep reinforcement learning》。掀起來人工智慧方法研製新葯的序幕,人工智慧到底如何研製新葯的?這種方法有什麼優缺點?
在製藥行業,新葯研發是個費時費力、成本高昂、而且成功率極低的工作。一般研製一個新葯,需要上十年的時間,費用超過10億美元。製藥企業積累了大量調控蛋白功能的小分子化合物,規模約百萬規模的化合物。需要從百萬個候選化合物中,刷選出1
人工智慧方法篩選分子有兩個途徑:一個是用監督學習的方法建模篩選模型,這種方法好比構建一個大海撈針的模型。另一種方法是利用生成建模依照所需特性來生成分子結構,該方法不需要撈針,而是自動生成生成針取代常規的篩選的過程。我們最初提到近期兩篇文章,用的是後一種方法。該方法的的目標是訓練出一個生成藥物分子的模型,在完成訓練之後用該模型生成候選藥物。
人工智慧具體用到了兩類方法:一個是深度學習方法,在這裡深度學習方法主要是
生成模型的輸入是什麼呢?回想GAN方法正在影象處理中,輸入就直接是影象本身。而在新葯研製中,如果將分子數字化是個很好玩的事情,因為總不能將一個分子直接搬到計算機記憶體裡去吧(想想都怪怪的),只能將分子數字化。而人類對分子描述包括分子式、分可以作為分子的數字化特徵。
例如在《
也有文章直接用分子式或者SMILES資料、分子影象以及其他化學和生物相關的分子結構表徵資料作為輸入,建立模型。想想都覺得瘋狂,直接用SMILES資料描述一個分子,也就是將一個分子類比一個自然語言句子,採用自然語言處理方法中常用的RNN或者LSTM方法對這個分子進行建模。這個AI系統得多智慧啊!!!直接看分子式就能研製藥物了!!本文一開頭提到的兩篇論文就是用SMILES資料作為模型輸入,訓練模型的,他們發現直接學習分子式也是一個可行的策略。
對分子式用SMILES編碼方法如下圖。在本文開頭提到的文章中,作者利用RNN方法(或者LSTM方法)可以訓練出生成全新SMILES字串的模型,再基於強化學習中的遷移方法,利用之前人類的小分子資料集作為學習範本,對前面RNN模型進行微調。最終得到的生成模型有可能產生出於真實世界中藥物的化合物。
用人工智慧方法設計新葯看起來很容易、但實際上,當前AI設計新葯存在許多缺陷:一是很難解釋,設計出來的模型為什麼能成功,缺乏解釋。二是樣本量不夠大。儘管分子式達到了千萬的規模,但是監督資料卻非常少,根據《Nature Reviews Drug Discovery》2016年的資料,在被FDA批准的1578個藥物中,總共涉及的靶點數才667個。而且還沒辦法想AlphaGO那樣自動生成樣本。三是強化學習方法中的獎勵分無法明確給出,使得現有的強化學習方法運用在新葯研製上,真正起作用有限。四是就算挑選出新的分子式,它的臨場表現如何還得經歷九死一生的過程。
歸根結底,是因為我們對新葯產生的分子機制還不真正清楚,用人工智慧方法研製新葯任重道遠。