1. 程式人生 > >機器學習不可不知的三件事

機器學習不可不知的三件事

機器學習的狂熱,以及對基礎設施、資料儲存和雲應用的重大改進,都導致人們對其興趣的有增無減。谷歌和臉書已經做了許多面向消費者的改進,其他公司也在努力。

那麼,什麼是機器學習和人工智慧呢?

人工智慧(AI)是一款做人類可以做的事情的軟體,但是我們希望它速度更快,效能更好。例如,在會議中做記錄,並能突出所有後續的任務。機器學習是一種使用演算法而非傳統的基於規則的決策樹來實現AI的方法。在更高級別上,機器學習有三個步驟:感知,推理和生產。


目前,機器學習已經越來越流行,並在過去五年已經具有了更好的可行性。

而機器學習領域取得的幾個重大進步,已經推動了技術、應用的巨大飛躍,並改進了技術的整體可訪問性,比如雲計算和大資料。

具體來講,有四個主要因素導致目前企業廣泛在其產品中應用機器學習技術。


而機器學習的現狀,及其未來對產品和服務的影響的潛力可以通過三種具體方式來看待:

1:機器學習不是一體的

機器學習可分為不同的型別(如有監督和無監督),同時包括各種技術(如迴歸、神經網路等)。這些技術和型別不是一一對映的關係,而是要根據具體情況以不同的組合使用。下面是我的總結。

學習型別

 監督學習:監督學習要根據已給的預定特徵和已標記資料來生成模式(如傳統保險承保);

  非監督學習:非監督學習尤其適用於未標記和非結構化的資料(如Gmail垃圾郵件);

  半監督學習:是監督學習和非監督學習的混合體。通常情況下,會有一些標記資料,但不會很多(如客戶細分);

  強化學習:強化學習在訓練時為演算法提供反饋,是基於經驗的決策機制(如下棋)。


2:深度學習雖然有顯著的優勢,但也有很大的缺點

深度學習是基於人腦結構的演算法,往往是一個多層的神經網路,這使得網路很“深”。我們經常在無監督學習和強化學習中聽到深度學習的讚美,但在大型複雜問題下,監督學習對深度學習也可能是有價值的。

相對於其他技術,深度學習有三個關鍵優勢,即魯棒性、通用性和可擴充套件性。

  • 它是魯棒的,因為用於對資料進行分類的特徵不需要預先取定,可針對給定任務學習最佳特徵;

  • 它是通用的,因為同一神經網路可用於不同的應用和資料型別;

  • 它是可擴充套件的,因為1)該方法可並行化,即能在多個處理器下同時執行; 2)隨著資料量的增加,效能能得到改進,降低了過擬合的可能性。

尤其的,這對三個領域有重要的影響:自然語言處理,計算機視覺和機器人。


同時,我們也應該瞭解其缺點。其中最大的問題是其可解釋性差,當神經網路確定了某些特徵,並根據這些特徵做決策時,我們無法獲知其原因。這就意味著,如果系統中存在資料損壞或人為偏差,我們將無法確定其存在,對於會對社會產生重大影響的案例(如財務和執法)將是危險的。


此外,深度學習模型需要極大量的資料和超強的計算能力才能實現,這是昂貴和耗時的。這是一個需要慎重考慮的權衡,特別是對那些正打算開發產品的年輕初創公司們。

因此,深度學習並不總是最好的方法。對於每個具體的用例,資料科學家需要考慮偏差,計算資源可用性和資料獲取等因素。

3:機器學習將對產品的未來產生重大影響

機器學習本身不是一個解決方案,而是一個優化期望結果的工具。因此,利用機器學習的公司應該專注於使用者體驗,並從處理資料幫客戶分析,到專注於戰略和建議,使決策更有效和準確。未來,很可能使用者介面將簡化為推薦單一動作,而非提供大量的選項。下面兩個例子說明了這種轉變的雛形。

Facebook的照片標記引擎已優化為推薦標記(左),相對於以前的版本(右)更聰明,使用更簡單。


同樣,Google現在可記住使用者停車的位置(左),並根據航班時間、目前位置和路況推薦出發時間(右)。這種基於推薦的、簡化的使用者體驗將是產品使用者介面的未來。


這些例子說明了機器學習將產生的巨大影響,因為它繼續使更有效和更簡單使用的產品。