1. 程式人生 > >合成數據能否成為快速培訓人工智慧(AI)演算法的解決方案?

合成數據能否成為快速培訓人工智慧(AI)演算法的解決方案?

你可能錯過的精選文章 公眾號: 新天域互聯

合成數據能否成為快速培訓人工智慧(AI)演算法的解決方案?合成數據有優點和缺點; 然而,許多技術專家認為,合成數據是機器學習民主化以及加速人工智慧演算法在我們日常生活中的測試和採用的關鍵。

 

什麼是合成數據?

當計算機人為地製造資料而不是測量並從實際情況中收集資料時,它被稱為合成數據。資料是匿名的,並根據使用者指定的引數建立,以使其儘可能接近真實場景中的資料屬性。

建立合成數據的一種方法是使用真實資料,但從資料集中刪除名稱,電子郵件,社會安全號碼和地址等識別方面,以便對其進行匿名處理。可以從實際資料中學習的生成模型也可以建立與真實資料的屬性非常相似的資料集。隨著技術的進步,合成數據與實際資料之間的差距也在縮小。

合成數據在許多情況下都很有用。與研究科學家如何使用合成材料以低風險完成實驗類似,資料科學家可以利用合成數據來最大限度地減少時間,成本和風險。在某些情況下,沒有足夠大的資料集可用於為每種可能的場景有效地訓練機器學習演算法,因此建立資料集可以確保全面的訓練。在其他情況下,由於隱私問題,實際資料不能用於測試,培訓或質量保證目的,因為資料敏感或者是受到高度監管的行業。

 

合成數據的優點

巨大的資料集是深度學習機和人工智慧演算法的動力,有望幫助解決非常具有挑戰性的問題。Google,Facebook和亞馬遜等公司因其每天建立的資料量作為其業務的一部分而具有競爭優勢。綜合資料使各種規模和資源水平的組織都有可能利用由深度資料集提供支援的學習,最終可以實現機器學習的民主化。

在許多情況下,建立合成數據比收集實際資料更有效,更具成本效益。它也可以根據規範按需建立,而不是一旦實際發生就需要等待收集資料。合成數據還可以補充現實世界的資料,因此即使在實際資料集中沒有一個好的例子,也可以對每個可以想象的變數進行測試。這使組織能夠加速系統性能測試和新系統的培訓。

當使用偽造的資料集時,減少了使用實際資料進行學習和測試的限制。最近的研究表明,使用合成數據可以獲得與使用真實資料集相同的結果。

 

合成數據的缺點

建立高質量的合成數據可能具有挑戰性,尤其是在系統複雜的情況下。建立合成數據的生成模型非常好或者它生成的資料會受到影響,這一點很重要。如果合成數據與實際資料集幾乎不相同,則可能會影響基於資料的決策質量。

即使合成數據確實很好,它仍然是真實資料集的特定屬性的副本。模型尋找要複製的趨勢,因此可能會遺漏一些隨機行為。

 

合成數據的應用

每當隱私問題成為諸如金融和醫療保健行業的問題或者需要大量資料集來訓練機器學習演算法時,合成數據集可以推動進步。以下是合成數據的一些應用:

具有記錄級資料的合成數據可以用於醫療保健組織,以在保護患者機密性的同時為護理協議提供資訊。模擬的X射線與實際的X 射線相結合,以訓練AI演算法以識別條件。

可以在不暴露個人財務記錄的情況下測試和訓練欺詐活動檢測系統。

DevOps團隊使用合成數據來測試軟體並確保質量。

機器學習演算法通常用合成數據訓練。

Waymo通過在真實道路上行駛800萬英里以及在模擬道路上行駛50億英里來測試其自動駕駛車輛。其他汽車製造商正在使用俠盜獵車手等視訊遊戲來輔助其自動駕駛技術。

雖然合成數據不是萬無一失的,但是當真實資料太昂貴而無法收集,由於隱私問題或不完整而無法訪問時,它是增強機器學習演算法的重要工具。