1. 程式人生 > >【機器學習】機器學習領域的突破性進展

【機器學習】機器學習領域的突破性進展

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

CDA字幕組 翻譯整理

本文為 CDA 資料分析師原創作品,轉載需授權

機器學習的發展涉及到各個方面,從語音識別到智慧回覆。但這些系統中的“智慧”實際上是如何工作的呢?還存在什麼主要挑戰?在本次講座中將一一解答。

觀看更多國外公開課,點選"閱讀原文"

Google I/O 是由Google舉行的網路開發者年會,Google I/O 2016 中圍繞機器學習領域的突破性進展進行了探討。

CDA字幕組對該視訊進行了漢化,附有中文字幕的視訊如下:

機器學習領域的突破性進展

針對不方便開啟視訊的小夥伴,CDA字幕組也貼心的整理了文字版本,如下:

(文末有彩蛋! )

0?

大家好,歡迎來到講座:關於機器學習的突破性進展。

我們探討了谷歌對於 AI 的長期願景,以及過去十年對機器學習的研究。這是十分重要的,因為所有使用者都期待著奇蹟發生。他們希望能與科技自然地交流,就像與人類交流一樣。很明顯,今天是不可能實現的,但是我們在向這個目標努力。

我認為人們常常忽略的是,谷歌不僅僅運用熟知的機器學習方法,致力於逐步改進產品。事實上我們有團隊負責基礎性工作。為了改善機器學習最先進的技術,他們在山景城以及世界各地工作。

接下來你將聽到他們的一些工作成果。如果你也在探索複雜的事情,比如用Tensorflow工作,或者致力於機器學習模型,那麼你可以通過這些演講者的經驗教訓得到一些啟示。如果你是開發人員,想使用我們提供在雲的機器學習API,你會很好地理解到哪些好用,以及你如何將其應用到自己的產品中。希望你們能樂在其中。下面有請Francoise。

語音識別

大家好,我叫Francoise。我負責語音識別的工作。我在十年前加入谷歌。你可能很難想起,但十年前還沒有iPhone和安卓系統。那時語音識別主要應用於呼叫中心,這有些煩人並不有意思。

640?wx_fmt=png

我加入谷歌時有兩個目標:

一、讓語音識別變得有趣且實用;

二、讓語音識別更好地服務全球使用者

如今過去了十年,安卓手機中約20%的查詢都是通過語音,我們將這視為一項成功。我們剛釋出了Cloud Speech API,這能讓你們利用語音識別開發出更加有意思的產品。如今涵蓋了80種語言、近40億人口。

640?wx_fmt=png

當然你可以問我,達到這個成果為何花了十年? 畢竟語音識別很簡單,用一年就能實現,幾年後就能進行轉錄。但是如果看到不同的使用者和場景,當中有不同的需求、不同的說法。

下面我想播放一些語音片段,請點選下視訊。

(片段一: "大堡礁的水母季在什麼時候?")

(片段二: 匈牙利語)這個人在講匈牙利語

(片段三:"大象會發出什麼叫聲?")

640?wx_fmt=png

這是我們需要預想到的資料,不是麼?我們想要為這些使用者提供服務,無論他們是誰。我們竭盡所能,但有時候也會出錯。

這是最近報告給我們的一個例子,一位使用者說的是西班牙語。他想表達的是 "打電話給朋友”,但我們識別成了他想要買鋼琴之類的。

再看下一個例子,你可能猜到了,我講法語。因此我用法語來測試我的產品。我跟識別器說"發生什麼了?"卻得到這個結果。雖然聽起來一樣,但是拼寫完全不一樣。

隨後我在韓語也遇到這種情況,如果看到這些字串,實際上它正確識別了每個韓文字元,但是空格的地方不正確。這就很不一樣了,從翻譯結果就能知道。

640?wx_fmt=png

我們犯錯了,但是這可是語言識別。語音識別就是機器學習,所以我們能解決這個問題。但在我們探討如何糾正錯誤之前,我想向你們展示語音識別的工作原理。

首先將語音波形圖輸入系統,你希望從中得出句子。

系統中有三個模型:第一個是語音模型,負責提取語音片段,嘗試找出音素的分佈概率以及語言中每個發音;第二個是發音模型,它從音素得出單詞;第三個是語言模型,通過概率將單詞連線起來。

640?wx_fmt=png

這是一個等式,表明根據語音觀測我們試圖得出的最大概率的詞序列。通過一些數學基礎,對應不同的模型你能將其分解成三個概率。這些都在表明這是統計模型,由三個不同模型組成 ,當中的一切都是可統計的。

我想多講講第一個語音模型,因為幾十年來我們在用一種稱為高斯混和模型的技術。多年來語音識別領域都用到該技術。但在2012年,我們改為使用神經網路。這花了一些時間,因為神經網路需要時間進行訓練。它很龐大,想從系統中得到正確的特點需要做很多優化工作。但最終我們完成了。

640?wx_fmt=png

通過轉為使用神經網路,準確度得到了大幅度的改善。除此以外,它重啟了該領域的變革。用了基礎設施我們開始創新神經網路的結構。我們使用它每個月我們都會推出新的結構,並且比過去的版本更加強大。

我們從深度神經網路過渡到LSTM(長短期記憶)遞迴神經網路。然後我們開始新增卷積層,這能讓我們更好地處理噪音和迴響。之後是CTC(connectionist temporal classification)。這個我將會仔細說明。這些型別的進步帶來了質量的改善,因此在2015年對於不同的語言組,我們大大改善了準確度。

回到CTC,就像我所說的。CTC能減少語音識別器的延遲,意味著當你對識別器說話時你將更快地得到回覆,這種感覺很好。有時候事情很複雜,作為谷歌中研究語音識別的團隊,我們在生活中也得到了很多教訓。但為了讓你們從那些經驗教訓中獲益,我需要多講講語音識別的原理。

640?wx_fmt=png

正如我所說我們使用大量的資料訓練模型,它們來源各不相同, 將用來訓練模型。模型進入識別器,然後用識別器得出的資料,反饋回到模型。因為那些資料很匹配我們要做的事情。問題在於資料有時會出現拼寫錯誤,各種各樣的錯誤。資料並不乾淨,這會導致之前遇到的問題。

有一天,我們看到識別器輸出中出現了韓語單詞"keu-a”。我們並不是瞭解當中的原因,於是開始分析。我們發現那是小孩子的聲音。人們在進行語音查詢,背景出現了小孩子的聲音。對於這些背景的高音識別器不知道如何處理,所以它找到重母音的單詞就像"keu-a”。然後它會選出那個詞,進行識別。由於之前向你們展示的反饋環路,它會反饋到系統中。如此反覆。

但在我們解決這個問題之前,我們在英式英語中開始看到"kdkdkd"這個詞。你們能猜到它的由來嗎? 有人回答說是來自火車或地鐵。所以是人們在火車和地鐵上使用手機,伴隨著"tick tick"的聲音,然後識別器不知道如何處理。

最後一個有些說不出口,是這個詞 "f*ck”。我們分析後發現是由於人們拿起手機然後講話,會先吸氣呼吸。這是吹氣的聲音。

640?wx_fmt=png

我意識解決這個問題需要向系統輸入更多的人類知識。因此我們投入更多語言學家和人力資源,以解決這類問題。從而對資料更好地格式化,然後正確地轉錄資料。我們建立了很複雜的準則,為了正確地轉錄資料。通過三百萬註釋的波形,我們可以訓練語言模型,從資料中學習新的發音,增加語言模型訓練集,這些都會帶來改善。

通過三百萬波形我們可以做很多工作,如果是三千萬呢? 因此我們開始努力轉錄3萬3千小時的人類語音,需要600人在合理時間內完成。通過這些資料我們希望實現更加複雜、更加緊密的結構。因此我們能夠使用,並且實現語音識別的夢想,即讓它服務到地球上的每個人。

謝謝,下面有請 Andrew。

640?wx_fmt=png

機器學習與影象

謝謝 Francoise。大家好,我是 Andrew。

640?wx_fmt=png

這張是機器學習常見的圖,圖中有一些紅點和藍點。我們嘗試得出能夠區分紅點和藍點的模型。當我們拿到新的輸入資料,模型便可推測輸入的是紅點還是藍點。

640?wx_fmt=png

在接下來的10分鐘裡,我們將講些不一樣的內容。這個是我,這張照片裡只有我一個人。很難僅憑這點猜測我喜歡做什麼。可能我喜歡戴帽子。但是你可以收集一些特徵,訓練模型,從而預測我喜歡做什麼。

講講另外一種做法。不僅僅通過這個資料,如果我把它和資料集中的相鄰資料一同考慮,新增關聯性。在這個例子中是加上我的孩子們。現在可以推斷,也許我喜歡跟孩子們一起參加萬聖節活動。

640?wx_fmt=png

通過這種直覺,並不是獨立地對資料物件分類。我們可以利用不同資料點間的關係。

谷歌有個叫做Expander的基礎設施,專門完成這類任務。這是利用資料物件間關聯性的平臺。

640?wx_fmt=png

舉個例子,很明顯我喜歡萬聖節的"trick-or-treating”。那麼如果我能識別出南瓜將會很有用。在谷歌我們有個很棒的影象理解系統,這是它的工作原理。輸入一組帶有訓練標籤的影象,接著它學習深度網路。這種學習能使它識別新影象,也能識別出未來的物體和影象。

現在我們給它沒有標籤的影象,運用模型給這些影象貼標籤。你可能會問我們最開始用到的那些標籤怎麼樣。它們不錯,但不是特別好。

左邊的一個圖是南瓜,右邊的是南瓜湯。如果你使用神經網路,學習南瓜的形狀,並接收這些輸入資訊是很難的。

640?wx_fmt=png

這是一個混合系統,它以圖片為基礎,學習關聯性,從而區分正確的訓練資料。並在這個基礎之上,應用深度網路學習來辨識出正確的模型。

我們該怎麼做呢? 我們已知這些資料物件的關係,在這些畫素陣列之間,我們可以捕捉兩個圖形間相似點的嵌入對映。即這兩個影象有多大機率包括相同的物體。

我們已知是南瓜的物體,通過這些關聯線確認我們最初的判斷,即物體為南瓜。當我們看到右邊的圖片,我們也可以做同樣的操作。可以拓展兩個不是南瓜的例子。通過這些圖片得出結論,之前標記為南瓜湯的物件不太準確。

我們可以使用這種方法,減少訓練資料里約40%的資料。這樣影象分類的度量標準提高了9%。

640?wx_fmt=png

讓我們看看它的工作原理,這個是影象傳播的一種等式形式。我們寫一個罰函式(penalty function)得出資料中的相鄰關聯的效果。看到有lu-lv的部分,這指資料集中U和V 節點資料相距多遠。Wuv為權重,代表它們的關聯強度,然後加總整個資料集。這指具有相似資訊的關聯線條語句匹配度的差距。然後我試著減少這個差距。

640?wx_fmt=png

下面的這個等式表明,如果對每個資料物件進行操作,使用相鄰物件的標籤更新標籤,對圖片中的所有資料都如此操作,如此重複。資訊在圖片中傳遞,並得出收斂到成本函式的最佳分配。以上是演算法方面

還有系統方面,構建這些系統是為了同時處理億萬量級的資料。我們想在圖片上進行這樣的操作,使用這些技術我們開發了相應的工具。

另外兩個例子。比如簡訊智慧回覆。這個圖片裡的頂點是你可能會發送回復。線條代表相似資訊,即這些回覆可用於相似語境。或者是詞彙式相似,即詞語相同。或者詞語嵌入為基礎的相似。

640?wx_fmt=png

有這張圖之後我們就可以執行擴充套件器來生成簇。這將返回相同意思的相似片語。還可以針對特定使用者,根據語境選出合適選項,對於不同簇的理解,可以確保我們提供多樣的選擇。因此我們並不是選擇三種方式表達相同的意思。

這在英語中運用得很好,我們也可以在其他語言中做相同操作。比如專門用於問候的回覆。在英語中我可能會說 "Hi!""How's things?" "What's up?”,這些句子之間有關聯。

在法語中我可能會說"Ca Va?" "Salut!”,我可以用谷歌翻譯的模型構建法語變數和英語變數間的關聯。

我們能夠在其他語言中構建智慧回覆功能的資料結構,比如葡萄牙語、印度尼西亞語、西班牙語,甚至是印度英語中。

640?wx_fmt=png

再舉個例子,搜尋查詢。我很喜歡萬聖節"trick-or-treating”。我想給我的孩子講一些萬聖節的故事,於是我向谷歌問一些問題,希望谷歌能夠返回直接回答我問題的文字。

這裡是一張圖片,其各個頂點代表查詢需求。線條則表示兩個查詢能夠以相同的資訊回覆。實線是我確定的內容,虛線則是不太確定的內容。完成之後,我們就可以自動解答億萬條搜尋查詢中語義相等的問題了。

640?wx_fmt=png

我們在圖片中使用機器學習來理解自然語言、搜尋查詢、影象和其他媒體物件。你們可能還聽過照片回覆,即用影象回覆,這是用的相同的技術。我們可以使用相同的技巧生成簡要的模型,並實際應用在安卓產品裝置上。

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。

AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。

領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間

給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。

子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。

如果說上一次哥倫布地理大發現,拓展的是人類的物理空間。那麼這一次地理大發現,拓展的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!

新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。

產業智慧官  AI-CPS

用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:

新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、“智慧農業”、“智慧金融”、“智慧零售”、“智慧城市、“智慧駕駛”新模式:“財富空間、“資料科學家”、“賽博物理”、“供應鏈金融”

官方網站:AI-CPS.NET

本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!

產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:[email protected]

相關推薦

機器學習機器學習領域突破性進展

CDA字幕組 翻譯整理本文為 CDA 資料分析師原創作品,轉載需授權機器學習的發展涉及到各個方面

智慧金融機器學習在風控領域的應用

文 | 婉龍 Fintech科普大使 | 帶你秒懂Fintech 大資料風控起源於網際網路金融的興起 有人會把大資料比喻成 “新時代的石油”。業界也有句話叫,得資料者得天下。現如今,在大資料時代下,資料比以往任何時候都更加根植於我們生活的每個角落。 其實早在上世紀80年代,大資料就被著名未來學家阿爾文·托

機器學習--機器學習之樸素貝葉斯從初始到應用

rac AC 一個 pam 數據 ast 出現 相對 解決方法 一、前述 機器學習算法中,有種依據概率原則進行分類的樸素貝葉斯算法,正如氣象學家預測天氣一樣,樸素貝葉斯算法就是應用先前事件的有關數據來估計未來事件發生的概率。 二、具體 1、背景--貝葉斯定理引入對於兩個關聯

機器學習機器學習的經典算法

com 上層 解決 iou 二維空間 效果展示 模擬 收信 https 【機器學習】機器學習的經典算法 https://mp.weixin.qq.com/s/CxSG9l_dxA4G-SZKOGI1ng 本文為整篇文章第二部分,整篇文章主要目錄如下: 1:一

機器學習機器學習分類器模型評價指標 機器學習分類器模型評價指標

機器學習分類器模型評價指標 分類器評價指標主要有: 1,Accuracy 2,Precision  3,Recall  4,F1 score  5,ROC 曲線

Andrew Ng 機器學習Exercise1——Linear Regression

1、單變數線性迴歸 在本部分練習中,您將使用一個變數實現線性迴歸,以預測食品卡車的利潤。假設你是一家連鎖餐廳的執行長,正在考慮在不同的城市開設一家新分店。這個連鎖店已經在不同的城市有了卡車,你可以從城市得到利潤和人口的資料。 您希望使用這些資料來幫助您選擇下一個要擴充套件到的城市。

機器學習機器學習模型訓練與測試評估

模型訓練 模型選擇 對於特定任務最優建模方法的選擇或者對特定模型最佳引數的選擇 交叉驗證 在訓練資料集上執行模型(演算法)並且在測試資料集上測試效果,迭代 更新資料模型的修改,這種方式被稱為“交叉驗證”(將資料分為訓練集 和 測試集),使用訓練集構建模型

線上直播機器學習中的建模問題

2017,人工智慧喧囂的一年;2018,人工智慧落地的一年;2019-2022,人工智慧註定飛騰!作為IT人,如何乘著人工智慧的風潮,持續學習,本期講座將為你答疑解惑關於機器學習中的建模問題。 直播時間:2018年12月5日 19:40 報名連結:【線上直播】機器學習中的建模問題 講座嘉

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [7] 支援向量機(一)

這兩篇內容為西瓜書第 6 章支援向量機 6.1,6.2,6.4,6.3 的內容: 6.1 間隔與支援向量 6.2 對偶問題 6.4 軟間隔與正則化 6.3 核函式 由於本章內容較多,分為兩篇來敘述。本篇所包含內容為間隔與支援向量和對偶問題。 如移動端無法正常

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [8] 支援向量機(二)

這兩篇內容為西瓜書第 6 章支援向量機 6.1,6.2,6.4,6.3 的內容: 6.1 間隔與支援向量 6.2 對偶問題 6.4 軟間隔與正則化 6.3 核函式 由於本章內容較多,分為兩篇來敘述。本篇所包含內容為軟間隔與正則化和核函式。關於間隔與支援向量和

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [9] 決策樹

本篇內容為西瓜書第 4 章決策樹 4.1,4.2,4.3 的內容: 4.1 基本流程 4.2 劃分選擇 4.3 剪枝處理 如移動端無法正常顯示文中的公式,右上角跳至網頁即可正常閱讀。 決策樹 (decision tree) 是一種基本的分類與迴歸方法。在分類問

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [10] 決策樹實踐

本篇內容為《機器學習實戰》第 3 章決策樹部分程式清單。所用程式碼為 python3。 決策樹優點:計算複雜度不高,輸出結果易於理解,對中間值的缺失不敏感,可以處理不相關特徵資料。缺點:可能會產生過度匹配問題。適用資料型別:數值型和標稱型 在構造決策樹時,我們需要

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [11] 整合學習

本篇內容為西瓜書第 8 章整合學習 8.1 8.2 8.3 8.4 8.5 的內容: 8.1 個體與整合 8.2 Boosting 8.3 Bagging與隨機森林 8.4 結合策略 8.5 多樣性 如移動端無法正常顯示文中的公式,右上角跳至網頁即可正常閱讀。

資料科學系統學習機器學習演算法 # 西瓜書學習記錄 [12] 整合學習實踐

本篇內容為《機器學習實戰》第 7 章利用 AdaBoost 元演算法提高分類效能程式清單。所用程式碼為 python3。 AdaBoost優點:泛化錯誤率低,易編碼,可以應用在大部分分類器上,無引數調整。缺點:對離群點敏感。適用資料型別:數值型和標稱型資料。 bo

機器學習機器學習之特徵選擇

機器學習之特徵選擇 特徵選擇方法初識: 1、為什麼要做特徵選擇 在有限的樣本數目下,用大量的特徵來設計分類器計算開銷太大而且分類效能差。 2、特徵選擇的確切含義 將高維空間的樣本通過對映或者是變換的方式轉換到低維空間,達到降維的目的,然後通過特徵選取刪選掉冗餘和不相關的特徵來進一步降維。

AI測試機器學習專案的測試,演算法測試

開場白 大家好,今天分享的主題是AI演算法專案的測試探索。 首先介紹人工智慧的一些基本概念,接著說明人工智慧和機器學習的關係,然後再敘述機器學習相關的基本概念,包括監督學習,無監督學習,會重點說監督學習。再介紹機器學習演算法專案的測試。最後會介紹演算法專案測

時間之外機器學習與優化-1

正在讀《機器學習與優化》,涉及了不少人工智慧的概念,做一個筆記,供自己和需要的朋友們學習和理解,如果需要詳細瞭解,請購買正版圖書。 最近鄰方法 由於自然界不允許跳躍,感覺有點神學的味道了。這裡舉了一個例子,撿蘑菇,你能明白嗎?上個圖吧 不同型別的誤差 以下幾個率值得記住,畢

機器學習機器學習Top10演算法,教你選擇最合適的那一個!一文讀懂ML中的解析解與數值解...

在機器學習領域裡,不存在一種萬能的演算法可以完美解決所有問題,尤其是像預測建模的監督學習裡。比方

通俗易懂機器學習中 L1 和 L2 正則化的直觀解釋

機器學習中,如果引數過多,模型過於複雜,容易造成過擬合(overfit)。即模型在訓練樣本資料上表現的很好,但在實際測試樣本上表現的較差,不具備良好的泛化能力。為了避免過擬合,最常用的一種方法是使用使用正則化,例如 L1 和 L2 正則化。但是,正則化項是如

SQL Server機器學習的生命週期和角色

機器學習專案十分複雜,因為它們需要不同組專業人員的技能協作。本文旨在介紹的機器學習的生命週期、參與機器學習的專業人員角色介紹以及SQL Server如何支援主體的需求任務。 機器學習生命週期 機器學習是一個複雜的過程,許多方面花費的時間比預期更復雜。下面是一些機器學習要求企業中的資