1. 程式人生 > >【深度學習】不要被深度學習一葉障目不見泰山;NLP 解決方案是如何被深度學習改寫的?

【深度學習】不要被深度學習一葉障目不見泰山;NLP 解決方案是如何被深度學習改寫的?

雷鋒網 AI 科技評論按:正如大家討論人工智慧時經常把它和機器學習甚至深度學習近似等價,工業界和學術界的許多研究、開發人員們也往往過於關注深度學習,忽略了實際上範圍更廣的機器學習和人工智慧領域還有許多有價值的問題等待研究。

近日,UC 伯克利大學電子工程與計算機學院和統計學院教授、機器學習領域的宗師、被稱為「人工智慧界的邁克爾喬丹的」Michael I. Jordan 就發表了一篇文章,提醒大家不僅深度學習不是「人工智慧」的全部,甚至我們日常討論的「人工智慧」都不是真正意義上的「人工智慧」的全部;這裡不僅有許多我們忽略了的問題,而且為了真正造福全人類,還有一個關於如何構建人工智慧系統的新學科才剛剛萌芽、 等待建立。雷鋒網 AI 科技評論把這篇文章全文編譯如下。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

人工智慧(AI)是這個時代的人們的口頭禪,它被技術專家、學者、記者和投資者們一遍遍反覆唸叨。就像以往許許多多先從技術學術領域出現再傳播到普羅大眾中的短語一樣,人們使用 AI 這個短語時存在嚴重的誤解。以往可能是因為公眾沒能理解科學家,但這次是科學家們和公眾一樣迷惑。這個時代出現和我們具有同等智力的矽基智慧的可能性讓我們所有人都覺得有趣,它既吸引我們又讓我們害怕。但是,它還會讓我們分心。

對於這個時代發生的事情,我想講一個視角獨特的故事。這個故事裡涉及到人類、計算機、資料和生死抉擇,但這裡的重點是矽基智慧的幻想之外的一些東西。14 年前,當我的妻子懷孕時,我們做了超聲波檢查。為她檢查的遺傳學家指出胎兒心臟周圍有一些些白色斑點。「這些是唐氏綜合症的標誌,」她說,「患病風險已經上升到二十分之一了。」她進一步告訴我們,可以通過羊膜穿刺術檢查出胎兒是否帶有唐氏綜合症突變基因。但是羊膜穿刺術存在風險,在手術過程中胎兒的死亡率大約是三百分之一。

作為一名統計學家,我決定找出這些數字的來源。長話短說,我找到了一份來自英國的 10 年前的針對這一疾病的統計分析,其中認為這些白色的斑點反映了鈣的積累,是唐氏綜合症的預測因子之一。但我也注意到,檢查我妻子的成像機器比英國研究中使用的機器每平方英寸多幾百個畫素。我就回去告訴遺傳學家,這些白色的斑點很可能是假陽性——它們實際上是「白噪音」。她說到,「啊,那我知道為什麼我們診斷出的唐氏綜合症幾年前一下子變多了,我們就是那個時候換的新機器。」

我們最終沒有做羊膜穿刺術,幾個月後,我們的女兒出生了,非常健康。但這件事讓我心中五味陳雜,尤其是在粗略計算之後,我確信,在醫生告訴我們診斷結果的那一天,全世界上有成千上萬的人得到了與我們相同的診斷結果,他們中的許多人選擇了羊膜穿刺術,許多嬰兒不必要地死去。這種事情每天都會發生,直到某一天人們找出原因。這一事件體現出的醫療問題並不是只有我一個人會遇到,這是整個醫療系統的問題 —— 在某一些時間地點測量變數、得出結果,進行統計分析,然後在其他時間地點使用這些結論。

準確地說,問題不僅在於資料分析本身,還在於資料庫研究人員所稱的「溯源(provenance)」—— 廣義上說,資料出現在哪裡,從資料中得出了什麼推論,以及這些推論與當前情況關聯性有多大?雖然一個受過專業訓練的人可能能夠針對每一種情況具體分析、具體解決,但真正需要解決的問題是全世界範圍使用的醫療系統如何在不需要精細的人類監督情況下就能做到這一點。

我也是一名電腦科學家,我突然意識到建立這種世界性規模的推理和決策系統的學科 —— 將電腦科學與統計學融合,並將人類經驗考慮在內 —— 從來就沒有任何學校教授過。我也意識到,不僅在醫學領域,在商務、運輸和教育等領域也類似,這種法則的建立至少與構建 AI 系統(讓我們眼花繚亂的遊戲 AI 和運動感知系統)同等重要。

無論我們能否在短時間內理解「智慧」,我們都面臨著一個巨大的挑戰,那就是如何將計算機和人類結合,讓人類更好地生存。這一難題被一些人看作是「人工智慧」的誕生,但我們也可以用平常心、以敬畏之心把它看作工程學科的一個新的分支。

就像幾十年前的土木工程和化學工程一樣,這個新學科的目標是集合一些關鍵思想的力量,安全地為人們帶來新的資源和能力。就像土木工程和化學工程是建立在物理理論和化學理論的基礎之上,這個新學科建立在我們在上個世紀中發現的思想之上,在諸如「資訊」、「演算法」、「資料」、「不確定性」、「計算」、「推理」和「優化」等概念之上。此外,由於這一學科的大部分重點都是來自於人類、關於人類的資料,它的發展也需要社會科學和人文學科提供幫助。

雖然這個學科的一些基礎理論已經逐漸出現,但把它們組合到一起的法則還不見蹤影。這些基礎理論之間現在就只能單個單個地產生聯絡、堆在一起。

就像土木工程學科出現之前人們就已經在造房子、造橋一樣,人們現在也是在沒有建立起新的學科的情況下,就在著手建造把機器、人類、環境都包含在內的全社會尺度的推理和決策系統。同樣地,就像早期的建築和橋樑有時會以完全無法預料的方式倒塌,造成悲劇的後果,我們許多早期的全社會尺度的推理和決策系統也已經暴露出了嚴重的觀念問題。

更難堪的是,我們人類並不是很擅長預測下一次會在哪裡出現嚴重問題。我們現在缺少它對應的工程學科,缺少其中的分析和設計的法則。

當下的公眾談起這些問題的時候總是用「人工智慧」這個詞寬泛地囊括了所有和智慧相關的概念,這也就讓新出現的科學技術的影響範圍和後果變得很難討論。我們先仔細看看「人工智慧」這個詞近期以及歷史上都表示過哪些含義吧。

如今的「人工智慧」在大多數情況下所指的,尤其是在公眾討論中,就是過去的幾十年中我們稱作「機器學習 Machine Learning」的東西。機器學習是一門研究演算法的學科,它從統計學、電腦科學和其它一些學科汲取了思想,用來設計能處理資料、做出預測、幫助人類決策的演算法。至於對真實世界的影響,機器學習的影響是實實在在的,而且遠不止是近期才有影響。實際上,早在 1990 年代初的時候機器學習就已經表現出了明顯的跡象可以對工業界產生巨大的影響,到了二十一世紀,亞馬遜這樣的有前瞻性的公司就已經把機器學習用到了公司業務的上上下下當中,處理著詐騙檢測、邏輯鏈預測這樣的後端問題,也構建了推薦系統這樣的面向使用者的創新服務。隨著資料集的大小和計算資源在過去的 20 年裡突飛猛進,我們現在可以清楚地看到,不只是亞馬遜,幾乎任何可以依據大規模資料做出決策的企業都很快會把機器學習作為動力。新的商業模式會湧現。也已經出現了「資料科學」這個短語用來稱呼這種現象,其中反應的就是機器學習演算法專家和資料庫、分散式系統專家攜手構建可拓展的、魯棒的機器學習系統的需求,也反應了這樣的系統對更大的社會和環境範圍的影響。

在過去的幾年裡,這種思想和技術潮流的融合也被我們稱作了「人工智慧」。然而這種稱呼是值得我們仔細審視的。

歷史上來說,人們在 50 年代末產生了一股用軟硬體共同重現出人類水平智慧的熱情,同時也創造出了「人工智慧」/「AI」這個詞。這種志向我們可以稱為仿人類人工智慧(human-imitative AI),在這種觀念裡具有人造智慧的實體應當被看作我們的夥伴,即便看上去不像,精神上也應當像。這很大程度上可以看作學術研究領域的一種野心。一些相關的學術領域當時就已經存在,比如運籌學、統計學、模式識別、資訊學和控制學這些學科,而且他們也經常從人類的智慧(以及動物的智慧中)獲得啟發,但一定程度上這些學科都關注的是“低層次”的訊號和決策。比如說一隻松鼠理解它所居住的森林的三維結構的能力、在樹枝間跳躍的能力,都對這些學科有啟發作用。而「人工智慧」應當關注的是另一些東西,是人類推理、思考中的「高層次」的、「認知性」的能力。一晃六十年過去了,高層次的推理和思考能力我們仍然捉摸不到。如今被稱作人工智慧的技術進步基本都來自於低層次模式識別、運動控制相關的工程領域,以及在資料中尋找模式,據此做出預測、驗證猜想和決策的統計領域。

實際上,David Rumelhart 在八十年代重新發現的、如今被看作是所謂「人工智慧革命」的核心的反向傳播演算法,最早在五六十年代就出現在了控制領域。當時它最早的應用之一就是為阿波羅飛船計算飛向月球時的推力。

六十年代以來,我們的技術有了許多突破性發展,但是很大程度上這些進步並不是來自於對仿人類人工智慧的追求的。倒不如說,就像阿波羅飛船的這個例子裡一樣,這些思想都是隱藏在幕後的,是嘗試解決一些非常具體的工程挑戰的研究人員們的研究成果。雖然一般大眾看不到,但在文件索引、文字分類、腐敗監控、推薦系統、個性化搜尋、社交網路分析、規劃、診斷和 A/B 測試方面的研究和系統構建都非常的成功;谷歌、Netflix、Facebook、Amazon 這些大公司的驅動力也正是這樣的技術進步。

現在我們會簡單地把上面這些東西全都統稱為「人工智慧」,看上去也似乎確實是那麼回事。對於優化或者統計領域的研究員來說,這種歸類方式算是一個不大不小的驚喜,他們一下子就變成了「人工智慧研究員」。但除了研究員的歸類問題之外,更大的問題是這種單個的、定義得並不準確的縮寫詞彙會阻止我們清晰地理解當下大規模的智慧化和商業化問題。

過去的 20 年裡我們有許多重大突破,工業界和學術界也一同創造出了一種新的思維,作為仿人類人工智慧的補充;我們常常把它稱作「智慧增強」(Intelligence Augmentation)。在這裡,我們用計算能力和資料構建一些服務,它們可以增強人類的智力和創造能力。搜尋引擎就可以看作是智慧增強的一個例子,它增強了人類的記憶能力、增強了人類對客觀事實的認識;自然語言翻譯也是這樣,它增強了人類的溝通的能力。基於電腦的聲音和影象生成也可以成為藝術家創作時的調色盤和創新思想的增強。不過,雖然這樣的服務最終不可避免地會涉及到高層級的推理和思維能力,目前它們卻在這方面是一篇空白:它們所做的只不過是通過各種各樣的字串匹配和數值計算找到一些人類可以加以利用的模式而已。

這裡我還需要再提出一個概念,就是廣義地認識到「智慧基礎設施」(Intelligent Infrastructure)這個學科。它是指一種計算能力、資料和相關的物理實體組成的網路,這個網路可以讓人類的生存環境對人類更有幫助性、更有趣、也更安全。這樣的基礎設施已經在物流運輸、醫藥、商業和金融這樣的領域顯露頭角,影響到了無數的個人和社會活動。有時候人們談起物聯網(IoT)也會提起某種網路的建立,不過物聯網領域的網僅僅是把「物」連線到了「網」上而已,對於如何讓這些「物」處理資料流、發現關於世界的資訊、與人類互動等等超越 0 和 1 組成的資料的高階抽象問題完全沒有觸及。

比如我可以再講一個自己的想法,我們可能幻想過生活在一個「全社會尺度的醫療系統」中,它會設定好醫生和病人身邊的醫療裝置間的資料流和資料分析流,從而在疾病診斷和醫療護理中為人類的智慧提供幫助。這個系統可以收集身體細胞中的資訊、DNA 中的資訊、血液診斷中的資訊、環境、群體遺傳學以及關於藥物和醫療方法的海量文獻中的資訊,然後把它們整合在一起。它關注的不是單個病人和醫生,而是所有人類之間的關係,就像現代的醫學實驗是在某一部分人身上(或者動物身上)做實驗,然後用依據實驗結果醫治別的人。同樣,就像現代銀行系統可以在金融和支付領域中注重關聯性、可追溯性和可靠性這些問題一樣,這個醫療系統也最好可以注重這些理念。並且,雖然我們可以預見到構建這樣的系統會遇到各種各樣的問題,包括隱私問題、責任問題、安全問題等等,但這些問題都應當被正確看待為等待解決的挑戰,而不是阻止構建這樣系統的理由。

我們現在就遇到了這樣一個關鍵問題:面對這些更大的挑戰,研究仿人類人工智慧是應對它們的最好的方法,甚至是唯一的方法嗎?機器學習領域最常被提起的成功故事裡有不少就是和仿人類人工智慧相關的,比如在計算機視覺、語音識別、遊戲 AI 和機器人領域。所以似乎看起來我們就只要等著這樣的領域裡不斷出現新的進步就好了。

在這裡我想指出兩件事。一,雖然報紙上不會這樣講,但仿人類人工智慧方向的研究實際上有很大限制,我們距離達到真正的仿人類人工智慧的目標還非常遠。不幸的是,仿人類人工智慧領域的有限的進步也很容易引發人們的激動(以及恐懼),這讓這個方向的研究本身過於火熱、媒體關注也過多。任何其它的工程領域都看不到這樣的現象。二,而且更重要的是,如果是為了解決重要的智慧增強和智慧基礎設施問題,那麼仿人類人工智慧相關領域的成功既不充分也不必要。

對於充分性這一邊,可以想想自動駕駛汽車。為了實現這樣的技術,等待解決的一系列工程問題和人類勝任駕駛的程度(以及人類不勝任駕駛的程度)幾乎沒有任何關係。一個總體性的交通運輸系統(一個智慧基礎設施)會非常接近現代的空中管制系統,而不太像目前的幾乎沒有分組的、前向的、漫不經心的人類司機的集合體。它將會比目前的空中管制系統複雜得多,尤其在於它可以利用海量資料和自適應性建模能力,做出細粒度決策。我們最先需要考慮的正是這樣的問題,而對於這樣的問題,仿人類人工智慧方面的努力反倒會分散我們的注意力。

對於必要性,有一些人提出仿人類人工智慧的願望其實包含了智慧增強和智慧基礎設施在內,因為仿人類人工智慧將不僅可以解決各種經典 AI 問題(字面意思上,比如圖靈測試),而且它最有可能同時解決智慧增強和智慧基礎設施問題。這樣的觀點其實找不到什麼歷史先例作為支撐。土木工程的發展難道靠的是設想如何設計人造的粉刷匠和泥瓦匠嗎?難道化學工程的學科框架是如何創造出一個人造化學家?甚至更有意思的是,如果我們的目標是建造一個化學工廠,那我們難道應該要先造出一個人造化學家,然後讓它來思考如何建造一個化學工廠?

還有一種有關聯的觀點,是說人類智慧是我們唯一知道的一種智慧,我們發展人工智慧的第一步就應當是嘗試模仿這種智慧。但是實際上有一些型別的推理人類並不是很擅長,人類有很多失誤、偏見和限制。更重要的是,人類進化的目的就不是為了處理現代智慧基礎設施那樣的大規模決策問題的,也同樣不是為了處理智慧基礎設施環境下的不確定性問題的。有的人可能會說,一個人工智慧系統將不僅可以模仿人類的智慧,而且還可以「糾正」它,當然也就可以拓展到任何大規模問題上去。但這樣的想法就跑到了科幻小說的領域去了,這樣的純粹猜想性的觀點當然符合科學幻想,但不應當作為我們面對逐漸顯現的重要的智慧強化和智慧基礎設施問題時的主要策略。我們應當分別以它們應有的方式處理智慧強化和智慧基礎設施問題,而不是僅僅當作仿人類人工智慧目標的推論。

其實不難看到,智慧基礎設施系統中的演算法和基礎設施挑戰並不是仿人類人工智慧研究中的核心主題。智慧基礎設施需要的是管理快速變化的、而且很有可能全域性不相干的分散式知識儲存的能力。這樣的系統需要雲端計算和邊緣計算之間的互動,才能做出即時的、分散式的決策;而且還需要能夠處理資料中的長尾現象,即關於某一些個體有很多的資料,但大多數個體都只有很少的資料。它們需要能處理在穿越管理性和競爭性的邊界分享資料的問題。最後,而且也非常重要的是,智慧基礎設施系統需要把動機和定價這樣的經濟學理念融入到連線了人與人、人與商品的統計和計算基礎設施中。這樣的智慧基礎設施系統就不僅僅是提供了服務,更重要的是它提供了市場。音樂、文學、新聞等一些領域就非常需要這樣的市場,其中的資料分析就可以吧創作者和消費者連線到一起。而這一切也都需要在進化出社會性的、符合道德的、合乎法律的前提之下。

當然了,經典的仿人類人工智慧問題也仍然是重要的研究課題。但是,目前的人工智慧研究都是藉助收集資料、藉助部署深度學習基礎架構,這些系統所展現出的模仿某一些非常專門的人類技術的能力、同時還無法在解釋其中的規律上起到什麼幫助的現狀,實際上分散了我們的注意力,讓我們忽視了經典人工智慧中的許多開放性問題。這些問題包括:如何給能夠處理自然語言的系統增加意義和推理能力,如何推理和表示因果關係,如何開發出可計算的不確定性的表示方法,以及如何開發出能夠形式化並追尋長期目標的系統,等等。這些同樣都是仿人類人工智慧中的經典目標,但在當下的「人工智慧革命熱潮」中,我們很容易忘記這些問題都還沒有解決。

智慧增強也依然是足夠關鍵的,在真實世界狀況的抽象推理這件事上,在可見的未來內計算機都不可能達到人類的水平。人類和計算機之間需要構建思考足夠深入的溝通方式才能解決我們最緊迫的問題。而且我們也希望用計算機把人類的創造力推向新的高度,而不是用計算機取代人類的創造力(各種意義上的)。

John McCarthy(約翰麥卡錫)在達特茅斯學院時提出了「人工智慧」這個詞,當時明顯是為了把他和 Norbert Wiener(諾伯特維納)兩人的不同的研究目標區分開。Wiener 提出詞是「神經機械學」(cybernetics),以表示他對智慧系統的憧憬是和運籌學、統計、模式識別、資訊理論和控制理論緊密相關的。McCarthy 則更看重的是智慧和邏輯之間的聯絡。不過後來發生了有趣的反轉,目前正是 Wiener 闡述的智力目標統治了這個領域,但打的卻是 McCarthy 的旗號。(目前的現狀當然是暫時的;AI 領域的風向轉換得比其它領域快得多)

但對我們來說,McCarthy 和 Wiener 兩人的歷史視角我們都需要超越。

我們需要明白,如今普通大眾討論的這種專注於工業和學術中的很小一部分問題的人工智慧,有極大的風險會讓我們不再注意到人工智慧、智慧增強和智慧基礎設施的全部範圍內的挑戰和問題。

這個範圍並不僅僅是關於某些關於超人類電腦的科幻夢想以及恐懼的,而更關注的是,隨著科學技術在人類的生活中越來越顯著、越來越有影響力,人類需要能夠理解和控制它。並且,在這種理解和控制中,所有人類都應該發出各自的聲音,而不是僅僅在瞭解技術的人之間進行討論。狹隘地只關注仿人類人工智慧會讓很多應當被聽到的聲音無法聽到。

雖然業界公司會繼續不斷地帶來更多技術進步,學術界也要扮演好自己的關鍵角色。不是僅僅提供一些創新的技術思路就結束,而應該把計算學科、統計學科的研究者和值得傾聽的其它學科的研究者聯絡起來,尤其值得一提的是社會科學、認知科學以及人文學科。

另一方面,雖然人文學科和自然科學學科對我們的前進來說都非常重要,我們也應當牢記我們討論的內容是關於一個前所未見的尺度和範圍的工程專案,是這個社會需要構建一些新的人造物。這些人造物應當建造得符合承諾。我們都不希望在一些幫助醫療的、交通的、商務的系統建造完畢之後才發現它們其實不好使,發現它們其實會減少人類的壽命和幸福感。出於這種理念,正如我剛才強調過的,我們需要一種新的工程學科來引導這種資料向的、學習向的領域。雖然這中想法聽起來很不錯,但目前我們還無法真正地把它看作一門學科。

更進一步地,我們正在見證新的工程領域的出現,我們應該為此感到高興。「工程」這個詞經常被人們理解得很狹隘,不管是在學術界還是更多語境下,好像都隱喻著冷酷無情的機器、或者是失去人類的控制。但其實一門工程學科可以成為任何我們希望它成為的樣子。

現在這個時代,我們真的可以設想一種歷史上從未出現過的東西:一個新的以人為中心的工程學科。

我現在沒法給這個正在萌發的新學科給出一個名字,但如果「人工智慧」/「AI」這個詞會作為這個學科的命名的詞根的話,我們一定要謹記這個詞根的極為有限的實際意義。讓我們放寬視野、收起狂熱,仔細地觀察觀察我們面前等待著的挑戰吧。

Michael I. Jordan

via Michael I. Jordan,雷鋒網 AI 科技評論編譯

NLP 解決方案是如何被深度學習改寫的?

雷鋒網 

雷鋒網 AI 科技評論按:英特爾人工智慧產品事業部,資料科學主任 Yinyin Liu 近日撰寫了一篇文章,介紹了深度學習為自然語言處理帶來的種種變化。有趣的大趨勢是首先產生在 CV 領域的技術也不斷用於 NLP,而深度學習解決方案的構建方式也隨著時間在進化。雷鋒網 AI 科技評論編譯把這篇文章如下。

640?wx_fmt=jpeg

自然語言處理(NLP)是最常見的人工智慧的應用方式之一,它通過消費者數字助理、聊天機器人以及財務和法律記錄的文字分析等商業應用變得無處不在。隨著硬體和軟體能力的提升,以及模組化 NLP 元件的發展,Intel 的技術也使得各種各樣的 NLP 應用成為可能。

深度學習效能的上升趨勢

近年來,許多 NLP 領域的進展都是由深度學習領域的普遍進步驅動的。深度學習擁有了更強大的計算資源,可以運用更大的資料集,並且在神經網路拓撲結構和訓練正規化方面有所發展。這些深度學習的進步始於推動計算機視覺應用的改進,但是也讓自然語言處理領域極大地獲益。

在深度學習的網路層方面,為了使得訊號和梯度能夠更容易地傳遞到深度神經網路的每一層,殘差結構單元(residual layer)、highway 層(全連線的 highway 網路)以及稠密連線(dense connections)結構應運而生。有了這些網路層,目前最先進的計算機視覺技術通過利用深度學習網路的表示能力得以實現。同時,他們也在許多自然語言處理任務上提高了模型的效能。例如,將稠密連線的迴圈層用於語言模型(Improving Language Modeling using Densely Connected Recurrent Neural Networks,https://arxiv.org/abs/1707.06130)。

640?wx_fmt=jpeg

有實證研究中比較了卷積層、迴圈層或者一種結合了這兩種思想的時序卷積層的表現,時序卷積層在一系列的語言資料集上取得了目前最好的效果(Convolutional Sequence to Sequence Learning,https://arxiv.org/abs/1705.03122;An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling,https://arxiv.org/abs/1803.01271)。有這些不同型別的層可供靈活使用,使得開發者能夠在處理特定的自然語言處理問題時嘗試各種各樣的選項。

在深度學習的拓撲結構方面,一個自編碼器(auto-encoder)模型可以被改進為一個序列到序列(seq2seq)模型用於處理順序語言資料。注意力機制(attention mechanism)解決了隨著時間的推移,解碼網路應該如何對輸入的編碼做出響應。指標網路(Pointer network),作為注意力模型的一種變體,專門用於在輸入序列中尋找詞語的位置,它為機器閱讀理解和文字摘要提供了一種新的處理機制(Machine Comprehension Using Match-LSTM and Answer Pointer,https://arxiv.org/abs/1608.07905;Get To The Point: Summarization with Pointer-Generator Networks,https://arxiv.org/abs/1704.04368)。通過增加快速權重(fast weights),(Fast Weights to Attend to the Recent Past,https://arxiv.org/abs/1610.06258)短期聯想記憶的概念可以和長期序列的學習結合到一起。

640?wx_fmt=jpeg

在訓練正規化方面,無監督學習利用訓練資料本身和遷移學習技術去構建資料表示,遷移學習可以把學到的將表徵用於一個又一個的任務,都是從計算機視覺領域獲得啟發,推動了自然語言處理技術的進步。

由於這些深度學習模型共用了許多底層的元件,基於深度學習的自然語言處理解決方案可以與計算機視覺和其它人工智慧功能的解決方案共用軟體和硬體。對於深度學習的通用軟體棧的優化也可以為深度學習自然語言處理解決方案的效能帶來改善。英特爾的人工智慧硬體和軟體組合解決方案為這些在英特爾架構的系統上執行的深度學習進展提供了很好的示例。最近,在我們的硬體和對廣泛使用的深度學習框架的優化上的工作提供了為在英特爾至強可擴充套件處理器上執行普遍使用的模型和計算任務優化後的工作效能。英特爾也積極地將他們的這些努力回饋到開放的框架中,這樣一來,每個開發者都能很直接地獲得這些經驗。

為自然語言處理用例構建一個靈活的、模組化的棧

由於基於深度學習的自然語言處理模型通常擁有共用的構建模組(例如:深度學習網路層和深度學習拓撲結構),這讓我們在構建自然語言處理用例的基礎時擁有了一個全新的視角。一些底層的功能在很多種應用中同時被需要。在一個開放的、靈活的棧中獲得基本元件對於解決各種各樣的自然語言處理問題是十分恰當的。

640?wx_fmt=jpeg

相比之下,傳統的機器學習或者深度學習的做法都是每一次只考慮某一個特定問題。而如今,由於深度學習社群已經提供了許多有用的基礎功能模組,企業中的使用者和資料科學家們就可以考慮其它的方面,在學習、構建起基礎以後,著眼於如何把它們應用於各種不同的問題。

這種轉換的好處主要有這麼幾點。首先,這些可以複用的元件可以幫助我們逐步構建「結構性資產」。通過重複應用之前已經構建好的東西,我們可以做得更快、評價得更快。其次,這些構建在英特爾的統一軟硬體平臺上的功能和解決方案可以持續不斷地從英特爾未來的開發和改進中受益。另外,用現有的基礎設施做實驗可以拓展出令人驚喜的新的解決方案或者新的應用,這是更早時候的僅關注於問題本身的思考方式所無法帶來的。

一個靈活的、模組化的棧還能使使用者可以將傳統的自然語言處理方法和基於深度學習的方法結合起來,併為不同的使用者群提供不同層次的抽象。許多不同的企業用例表明了自然語言處理和它的基本元件的潛力。下面,我們為您提供了幾個例子,但是顯然還有很多別的可能性。

主題分析

金融業面臨著巨大的知識管理挑戰,這是由每天必須處理和理解的檔案的數量(太大)所造成的。從一頁又一頁的文字中提取出諸如「某種特定產品的競爭力」這樣的關鍵的見解是十分困難的。

自然語言處理主題分析技術現在可以被用來快速分析大量的文件,並且識別文件中不同的部分所關聯的主題。不同的使用者會關注不同的話題,例如:某個公司的價值、競爭力、領導力或者巨集觀經濟學。自然語言處理主題分析讓使用者能夠篩選出特定的感興趣的主題,並且獲得更加濃縮的資訊。

為了利用大量未標記的資料,模型可以用內容類似的文字進行預訓練,之後這些資料表示可以被遷移至主題分析或者其它附加的任務中。早前的一篇部落格介紹了這種解決方案中涉及到的一些方法的概述。為了實現這種方案,從自然語言處理構建模組的角度來說,我們使用了序列到序列(seq2seq)的拓撲結構,長短期記憶網路(LSTM),詞嵌入來自遷移學習,而後進行精細調節(fine-tune),還可以與命名實體識別等元件結合在一起。

640?wx_fmt=jpeg

趨勢分析

諸如醫療保健、工業製造、金融業等行業都面臨著從大量的文字資料中識別基於時間的趨勢的挑戰。通過將文字正則化、名詞短語分塊和抽取、語言模型、語料庫的詞頻-逆文字頻率指數(TF-IDF)演算法,以及使用詞向量的分組等技術,我們可以快速的生成一個解決方案,它可以從一組文件中抽取關鍵詞和重要性估計。接著,隨著時間的推移,通過比較這些抽取出來的關鍵詞,我們能夠發現有用的趨勢,例如:天氣變化如何能夠造成庫存的短缺,或者哪些領域的學術研究隨著時間的推移會吸引更多的貢獻和注意。

情感分析

情感分析功能通常被用於競爭力分析、溝通策略優化、以及產品或市場分析。一個提供了細粒度的情感分析的解決方案能夠為企業使用者提供可行的見解。例如:這種更有針對性的情感分析可以發現,關於一個特定商品的評論普遍是對於它的能耗的正面看法以及對它的可靠性的負面看法。對於這種細粒度的情感分析,我們使用了諸如詞性標註(POS tagging)、文字正則化、依存分析和詞彙擴充套件等元件。對於不同的領域,相同的的那次可能傳遞不同的情感,所以允許領域自適應的機制也是十分關鍵的。

多功能體系架構上靈活的構造模組

當我們看到巨大的自然語言處理市場中的種種規劃時,我們應該如何構建解決方案、軟體、硬體來利用這些機會並使它們成為可能?在英特爾,我們希望構建能夠持續創新和改進的技術,這能夠給我們一個用於研究、實踐並應用演算法的開放的、靈活的平臺,這種技術還能夠高效地擴充套件到多種應用程式中,最終形成影響深遠的商業見解。

在英特爾人工智慧實驗室,我們的自然語言處理研究人員和開發者正在構建一個開放的、靈活的自然語言處理元件庫,以便為我們的合作伙伴和客戶實現多種自然語言處理用例。它使我們能夠高效地將我們靈活、可靠高效能的英特爾架構為這些自然語言處理應用、其他的人工智慧和先進分析工作流提供了硬體、框架工具和軟體層。我們將繼續努力優化這些元件,以提高深度學習的能力。

via Intel AI Blog,雷鋒網 AI 科技評論編譯