1. 程式人生 > >資料獲取成本對醫療影像AI產業化的影響

資料獲取成本對醫療影像AI產業化的影響

AI應用,三架馬車快慢不一?

人臉識別、語音識別、疾病檢測稱得上是這一次人工智慧創新創業大潮中的三架馬車。但觀察我們身邊生活會發現,三架馬車快慢不一。有的已經飛入尋常百姓家,有的則還是陽春白雪。

入住賓館時前臺刷臉,乘坐高鐵時進站刷臉。在手機上發文字訊息,不再動手,全靠嘴說。手機解鎖也不用指紋了,改刷臉了。這些曾經的酷炫技術,大家現在卻都已經習以為常。而這種尋常化,恰恰意味著有一批人工智慧的技術公司已經實現了大規模商業化,開始真金白銀的賺錢了。

以科大訊飛為例,面向教育機構銷售語音評測和語音教學產品是科大訊飛最主要的利潤來源之一。根據科大訊飛2016年年報,全國包含北京、上海、廣東等已開展中高考英語聽說考試的10餘省市已正式使用科大訊飛口語評測技術,累計考生數1700萬。普通話考試機測人數達550萬人次,累計機測人數2600萬。而人工智慧獨角獸公司商湯科技則依靠人臉識別技術在金融、安防、手機等領域開始賺錢。其創始人徐立在一次採訪中提到,商湯從2015年9月開始進入商業化階段,在金融場景大規模試點,開始簽署越來越多的千萬級別的合同。

可以說,在這一輪人工智慧浪潮中,人臉識別和語言識別已經率先進入市場,開始盈利。

話題回到醫療影像AI。採用人工智慧對醫療影像進行分析,也是這一輪人工智慧投資和創業的重要熱點之一。但醫學影像AI目前卻普遍尚未開始盈利。一個直接原因是,大多數企業還都在焦急等待醫療器械註冊證。根據規定,醫療影像軟體也屬於醫療器械,必須先獲得註冊證,才能作為商品開始銷售。而沒有銷售,也無從談盈利。

但其實還有更深層次的原因。拿到註冊證只是時間問題。人工智慧作為國家科技戰略發展重點支援方向,國家不會在這個環節上卡住不放。真正的問題是,拿到註冊證以後,醫療影像AI公司是否就可以真正進入商業化,開始真金白銀的賺錢?

影響商業化程序的因素很多,這裡咱們只閒聊(胡聊)其中的一個因素:資料獲取成本。巧婦難為無米之炊,獲取資料幾乎是所有人工智慧研發的第一步必須工作。資料的質量和數量,往往能夠對人工智慧,尤其是深度學習模型產生直接甚至決定性的影響。

但大家是否想過,資料獲取成本也是影響醫療影像AI商業化的決定性因素之一。醫療影像資料按照獲取來源,可以簡單劃分為開源資料和私有資料兩類。開源資料和開源軟體相類似,大家可以從網際網路上免費下載,並且在一定版權限制之下,免費使用。而私有資料則是機構根據自身商業或研發需求,組織專業人員收集和標註的資料,並不向外部公開。

開源資料如同雙刃劍

開源資料集對於人工智慧飛躍式發展的助推作用毋庸置疑。很多從業者,乃至學術機構和創業公司的起步都是依靠網路上的開源資料集。開源資料降低了人工智慧研究,乃至創業的門檻,推動了整個領域的快速繁榮。這些都是開源資料在研究和研發領域的正向積極作用。

但在商業領域,開源資料的反向負面作用也開始顯現。醫療影像AI商業化市場競爭好似一場馬拉松,藉助開源資料的訓練,越來越多的選手能夠達到報名資格線,獲得參賽資格,有機會站到賽道上。但賽道是有限的,不可能隨著參賽選手的增多而擴容。選手越多,賽道越擁擠。在擁擠的賽道上,如何才能殺出重圍?

商業競爭最直接的方式要麼拼效能,要麼拼價格。最理想的情況是,產品擁有超群乃至超凡的效能,並且能夠為大家所公認。但這往往是很難做到的。以肺結節為例,目前市場上擁有肺結節AI的廠商數量眾多,但很難說,有哪一家的檢測準確率指標是遙遙領先,且毫無爭議的。那麼,在無法以效能絕對勝出的情況下,必然有公司開始走比拼價格的路線。於是,有不少業內公司已經宣佈肺結節AI產品免費投放。而在一個商業競爭領域,一旦有人開始打出“免費牌”,甚至開始用免費模式來跑馬圈地,則意味著藍海變紅海,甚至是燒錢大戰的開始。

在網際網路經濟興起之前,傳統的商業模式往往是先有效益,再上規模,依靠自身積累來穩步發展。但近年來網際網路的新打法則顛覆傳統,往往是先上規模,再說效益,依靠一方面燒錢、一方面融資的方式來比拼誰能夠血拼到底。目前在醫療AI影像領域,大家採用網際網路模式來比拼燒錢和跑馬圈地的趨勢已經非常明顯。

但這種方式在醫療領域是否能夠成功?最後哪些企業能夠血戰勝出?目前尚不得而知,只能藉助時間來考驗。但賽道擁擠、競爭激烈已經是目前醫療影像AI領域不爭的事實。

私有資料如同奢侈品

在肺結節、糖網這些有開源資料提供的醫療影像診斷領域,競爭已經激烈乃至慘烈。為了避開這些血拼的紅海領域,很多醫療影像AI公司開始尋找新的方向,建立合作渠道、組織資源,選擇獨特的疾病診斷方向,收集資料,進行標註。從而建立自己私有的標註資料集,並推出相應的影像AI產品。

通過私有資料集,企業能夠獨闢蹊徑,開拓出屬於自己的獨佔細分領域,避免與其他公司的惡性競爭。此時,私有資料集也就成為了最好的技術壁壘。技術壁壘就意味價格壁壘,乃至利潤空間。

但是,私有資料集的建立絕非易事,其本身如同奢飾品,意味著高投入和高成本,乃至高風險。首先醫療資料的獲取成本非常高。其次,醫療資料的標註成本堪稱昂貴。ImageNet這一類的通用計算機視覺影象集,可以找普通人來標註。但醫療影像資料的標註必須由專業的影像醫生來完成。甚至為了保證標註質量,還要求必須由2~3名中高年資的醫生來同時進行。

即使如此,在現有條件下,疾病診斷仍然是客觀檢查證據與主觀經驗分析相結合的結果。醫生的個人主觀因素是診斷結果中不可排除的一部分。這也就意味著人工標記始終不可能成為100%的金標準。

臨床診斷中,要想真正確診,得到100%可靠的金標準答案,往往要麼通過病理、要麼通過手術、要麼通過隨訪。而這三種途徑的任何一種都意味著有效資料獲取難度和成本的指數級上升。

如前所述,醫療影像資料獲取的特殊困難決定了:一,用於模型訓練的資料集規模有限,往往是小資料集;二,用於訓練的資料標籤(標註)往往達不到真正的金標準,存在偏差和錯誤標註。

資料不夠,自己來造?

隨訪、病理和手術的特殊性決定了具備金標準的高質量資料集只可能是小規模資料集,無法建立起能夠與通用計算機視覺影象集(如Imagenet和CIFAR-10/100)相匹配的大規模資料集。而在小資料集上,通常的深度學習網路的準確度和可靠性往往會有所損失,甚至模型訓練無法收斂。並且,這種損失或收斂,有時無法通過簡單的資料增強來消除。此外,醫學上陰性(正常)/陽性(異常)樣本的極度不均衡特性,會進一步加大模型訓練的難度。

幸運的是,生成對抗網路(GAN)應運而生。這裡不再介紹GAN的來源和發展,網路上有很多非常好的教程可供參考。值得一提的是,GAN已經被用於醫學影像領域,甚至已經可以生成“以假亂真”的影像。在最新的公開論文中,藉助GAN已經能夠生成包含腫瘤的MRI影像,並且試驗證明,採用GAN生成的合成影像能夠有效提高腫瘤分割網路模型的精度。(Medical Image Synthesis for Data Augmentation and Anonymization using Generative Adversarial Networks,  https://arxiv.org/pdf/1807.10225.pdf)

以隨機來適應隨機?

在無法獲得病理、手術或隨訪結果的情況下,研究者往往採用組織中高年資醫生對資料進行人工標記,獲得近似金標準的方式,來建立訓練資料集。這種方式下資料集中的標註或標籤必然將包含標註者的主觀個體差異,甚至是誤判。並且,還有另外一個重要因素,由於疾病特徵的多樣性,甚至是變異性和突變性,即使再大規模的資料集,也無法覆蓋或包含疾病的所有特徵(徵象)。將上述兩個方面綜合起來考慮,可以認為,當我們建立起一個醫學影像的資料集時,實質上等同於做了一次概率試驗。相當於,從一個無窮大甚至是不斷變化的樣本池中,抽樣採集了很小一批資料。並對抽樣資料進行了總體正確但包含偏差甚至一定比例錯誤的標記工作。可以說,從資料收集到資料標記,實質上都是一種統計抽樣,抽樣樣本分佈只能儘可能逼近真實樣本分佈,但永遠無法完全達到。

也正是受這種概率思想的啟發,人工智慧領域已經開始關注和研究貝葉斯深度學習模型,並且有學者認為,基於貝葉斯概率的深度學習模型將是未來的新一代技術發展方向。

相比生成對抗網路,貝葉斯深度學習網路是一個更為新生的模型。推薦閱讀部落格“ 計算機視覺用於貝葉斯深度學習的不確定性”:http://blog.csdn.net/weixin_39779106/article/details/78968982。

前面說了,在資料集的建立過程中從資料抽樣到資料標註,都存在著不確定性。針對這種實際存在的不確定性,貝葉斯深度學習網路引入了一個革命性的創新,“神經網路的權值不是特定的數值,而是用概率分佈來表示。在對權值進行優化時,不直接優化數值,而是對所有可能的權值進行平均(也稱為邊緣化‘marginalisation’)。”

以概率分佈作為網路引數的貝葉斯深度學習模型在兩種場景下具有重要價值:

1. 對安全性要求較高的應用。因為貝葉斯模型可以識別出輸入資料與訓練資料集是否一致。 也就是說,不僅能夠給出結果,還能夠給出結果的可信度。

2. 小資料集情況。試驗表明,在小資料集上貝葉斯深度學習能夠取得比同類深度學習模型更好的識別準確率。

技術創新終將打破醫療資料困境,但這種創新是普惠的

長遠來看,醫療影像AI當前面臨的資料困境必然將被技術創新所打破。因為,人工智慧技術的發展過程就是機器學習能力向人類學習能力不斷逼近的過程。而人類的一項突出能力就是能夠從少量的代表性樣本中進行學習,能夠進行推論,或者說能夠發現模式,並用想象去組合模式。生成對抗網路和貝葉斯深度學習正是人工智慧在這個前進方向上邁出的紮實腳步。

但從商業角度考慮,開源共享從一開始就是這一輪人工智慧浪潮的本質特性。深度學習原理和模型的研究創新也將通過開源方式共享。這決定了技術創新是普惠的,它往往是為更多新興公司和後來者提供入場機會,而商業化的賽道也將因此變得更加擁擠,競爭更加激烈。

這也意味著,所有的醫學影像AI公司都必須想辦法在商業模式上找到自己的生存之道,築起自己的護城河。