1. 程式人生 > 資訊 >一夜爆紅的 AI 語言處理工具:能一句話總結論文,但仍“難辨是非”

一夜爆紅的 AI 語言處理工具:能一句話總結論文,但仍“難辨是非”

1 月 20 日訊息,據報道,近來,AI 語言處理工具“tl;dr papers”在推特上得到大量學者推薦。“tl;dr papers”運用 AI 語言處理領域(AI language processing)的前沿技術,根據論文摘要總結論文觀點,能將難以理解的學術文章提煉為簡潔通俗的短句,增強趣味性,不僅便於讀者閱讀,也為教育科普提供了新手段。同時,它對文章的概括也能啟發研究人員從新角度重新審視研究物件。

英語俚語中用縮寫“tl;dr”代表“Too Long;Didn’t Read”,意為“文章太長,沒有興趣看”。對於那些有難度、不想看的學術論文,“tl;dr papers”正好可以助你一臂之力,它將長篇幅的文章濃縮至一句話,讓你能夠快速瀏覽文章內容。

目前,AI 語言處理工具在微軟、谷歌等主流公司被廣泛應用,但它們對訓練資料的依賴性較高,不能自主辨別不良資訊,甚至會幫助傳播這些資訊。此外,AI 語言處理工具常產生違背基本常識的處理結果,其準確性還有待提高。

一、一句話概括高難度論文,新科普手段出現

“tl;dr papers”是由亞什・達尼(Yash Dani)和辛迪・吳(Cindy Wu)在兩年前建立的 AI 語言處理網站,本意是協助自己瞭解更多軟體開發知識。上週末,學者們紛紛在推特上分享“tl;dr papers”對其學術論文的概括總結,熱度一夜飆升。“tl;dr papers”主要根據學術論文摘要進行概括,刪減了學術術語,用語簡潔,雖然忽略了概念之間的細微差別,但整體上總結準確,富有趣味性,得到學者們的廣泛肯定。

澳大利亞國立大學全球女性領導力研究所所長米歇爾・瑞恩(Michelle Ryan)教授曾發表一篇關於“glass cliff”的文章,指出在組織面臨危機或經濟低迷時期,女性比男性更有可能被選中擔任領導角色,這本質上是一種性別歧視。“tl;dr papers”將其概括為“很多女性被置於‘glass cliff’之上,這是一個糟糕的地方”,這句總結句式簡單、意義明確,小學生也能毫不費力地看懂。

▲ Ryan 教授在推特上發文支援“tl;dr papers”

賓夕法尼亞大學安納伯格傳播學院的博士生贊恩・格里芬・塔利・庫珀(Zane Griffin Talley Cooper)也用其概括了一篇有關“資料外圍(data peripheries)”的論文,原文內容是追溯大資料基礎設施材料的物理學歷史。這篇論文最後被總結為“大資料儲存在硬碟驅動器上,硬碟驅動器由非常小的磁鐵製成,磁鐵從地下開採出來。”庫珀意識到,表面上看“tl;dr papers”是用於娛樂,但實際上它還可以被應用到教學和研究中,比如幫助學生閱讀複雜的論文,為線上期刊生成簡化版摘要,方便公眾閱讀。

二、看看機器如何理解,激發研究人員創造力

莫納什大學新興技術研究實驗室的高階研究員賈森・薩多夫斯基(Jathan Sadowski)對“tl;dr papers”很感興趣,將它看作研究人員創造力的催化劑。他認為“tl;dr papers”提供的總結往往具有“偶然的智慧”,這也許是機器學習無法完全理解語言的副產品,但機器提供的這些視角能夠幫助在自己的領域挖掘甚深的學者從更新奇的角度看待自己的研究物件。

薩多夫斯基認為,像“tl;dr papers”這樣的 AI 語言處理工具可以挖掘自身作為“創造力催化劑”的定位。布萊恩・伊諾(Brian Eno)和彼得・施密特(Peter Schmidt)曾創造一組卡片“Oblique Strategies”,每張卡片上都有一個警句或評論,旨在通過鼓勵橫向思維來幫助藝術家(尤其是音樂家)打破創作障礙。“tl;dr papers”也可以提供類似的服務,激發學者開拓新的思維模式。事實上,一些公司已經察覺到 AI 在這方面的潛力,推出了 AI 創意寫作助手。

▲ Oblique Strategies 網站隨機生成的警句

三、囿於資料庫和統計方法,AI 語言處理工具難辨是非

目前 AI 語言處理工具以訓練資料為基礎,而訓練資料通常只是從網際網路上搜集的大量文字,因此這些 AI 語言處理工具有可能會強調不良資訊,比如重複涉及種族主義和性別歧視的汙言穢語,還可能以更微妙的方式帶有偏見。

AI 語言處理工具的不準確性也令人擔憂。這些工具運用統計方法處理語言,對內容的理解方式與人類不同,這可能會導致一些非常基本的錯誤,甚至可能危及生命。谷歌搜尋曾在回答“癲癇發作應對措施”問題時提供了誤導性的醫療建議。去年 12 月,亞馬遜的語音助手 Alexa 在一個孩子讓其隨機推薦一個挑戰時,引導孩子把手機充電器插到牆上插座的一半,然後用一枚硬幣去觸碰暴露在外的金屬頭。

▲ 使用者釋出了 Alexa 給出的誤導性資訊截圖

這些都說明了 AI 語言處理工具在結構模型上的弱點,即作為模型基礎的資料魚龍混雜,模型採用的方法與人類理解語言的方式也存在差距。薩多夫斯基認為,像這樣的 AI 語言處理工具應該小心處理,讓它們儘量可以發揮正面作用

結語:AI 語言處理工具拓展應用範圍,但精確性還需加強

AI 語言處理工具“tl;dr papers”對高難度學術論文進行了準確、簡潔的概括,使學術內容以更富趣味性的形式呈現在大眾面前。這些概括不僅具有娛樂性,還能夠促進知識科普,激發研究人員的創造力,助力教學和研究工作,展現了人工智慧語言處理工具廣闊的應用前景。

AI 語言處理工具長期採用以統計為主的經驗主義方法,這種與人類大相徑庭的語言理解方式幫助人們在計算機語言處理上取得了極大進步。未來,這種方法能否進一步消除人們對其錯誤傾向性、準確性的擔憂,值得期待。