1. 程式人生 > 資訊 >史上最強大 AI 模型,OpenAI 萬能語言模型 GPT-3 起底:寫作神器 or 魔鬼化身

史上最強大 AI 模型,OpenAI 萬能語言模型 GPT-3 起底:寫作神器 or 魔鬼化身

2020 年 6 月,在訓練約 2000 億個單詞、燒掉幾千萬美元后,史上最強大 AI 模型 GPT-3 一炮而紅。

這個 OpenAI 打造的語言 AI 模型宛如萬能選手,只有你想不到的畫風,沒有它輸不出的文案,既能創作文學,能當翻譯,還能編寫自己的計算機程式碼。任何外行人都可以使用這一模型,幾分鐘內提供示例,就能獲得想要的文字產出。

“我不得不說我被震撼了。”一家矽谷技術初創公司的創始人 Arram Sabeti 稱讚道,“它比我嘗試過的任何 AI 語言系統都更加連貫。”“你要做的就是編寫一個提示,然後新增可能會被跟進的文字。我得到的是寫歌、故事、新聞稿、吉他譜、訪談,論文、技術手冊。這很有趣又令人恐懼。我覺得我已經看到了未來。”Sabeti 說。

GPT-3 是如何實現的?它創造的東西有多逼真?存在什麼缺陷?圍繞這一強大的語言模型,科學家們正試圖解決哪些爭議?本文將對這些問題進行詳盡的綜述。

01. 寫小說、敲程式碼、編劇本媲美人類的萬能創作者

GPT-3 的輸出牛到什麼程度呢?它編撰的新故事,根本看不出來不是人類寫的。如果你讓它做程式設計任務,它能回答瑣碎問題、糾正語法、解決數學問題,甚至生成計算機程式碼。其他 AI 也可以做這些事情,不過它們必須經過專門地訓練才能完成。

如今大型語言模型已經是一個商業命題。谷歌用其改善搜尋結果和語言翻譯,Facebook、微軟和英偉達也在開發大型語言模型。雖說 OpenAI 是一家非營利性公司,但它將 GPT-3 的程式碼保密,並計劃通過網際網路出售 GPT-3 的訪問服務。

在 2019 年,它建立了一個名為 OpenAI LP 的營利性實體,微軟還給它投資了 10 億美元。開發人員正在測試 GPT-3 的各種能力,包括彙總法律檔案、建議客戶服務查詢的答案、提供計算機程式碼、執行基於文字的角色扮演遊戲、將帖子標記為 “求助”來識別同伴支援社群中高風險人員…… 例如,作家兼程式設計師格溫 · 布蘭文(Gwern Branwen)用 GPT-3 編寫了諷刺科學和學術界的詞典定義。輸入提示:“Rigor(形容詞),一種科學家們渴望的精神狀態,如果科學家們能夠被信任去完成他們的工作,則不需要這種精神狀態。”GPT-3 即可輸出類似的定義:“The Literature(名詞),別人發表的論文的名字,科學家在沒有真正閱讀的情況下引用它們。”以下是 GPT-3 輸出的一系列定義示例:

▲布蘭文讓 GPT-3 編寫諷刺科學和學術界的詞典定義

示例連結:https://www.gwern.net/GPT-3 去年 7 月,加州大學伯克利分校的學生利亞姆 · 波爾(Liam Porr)用 GPT-3 撰寫了幾篇部落格文章併發布在網際網路上,有超過 26000 人閱讀,吸引 60 位讀者訂閱該部落格,而只有少數幾位懷疑文章是由機器撰寫的。這些讀者未必是容易受騙的人。其中一篇部落格文章寫道,如果您別對自己所做的事情考慮太多,就可以提高工作效率。這篇部落格文章曾上升到知名資訊聚合及新聞評分網站 Hacker News 的排行榜首位。

02. 強大如 GPT-3,也有荒謬的回答

儘管功能強大,GPT-3 也有些弱點。OpenAI CEO 山姆 · 奧特曼(Sam Altman)去年 7 月在推特上說,它通過觀察所讀單詞和短語之間的統計關係來工作,但並不理解其中的含義,“有時甚至會犯非常蠢的錯誤。”跟其他較小的聊天機器人一樣,它可能會發出仇恨言論,產生種族主義和性別歧視的刻板印象,忠實地反映在其訓練資料中的關聯。有時,GPT-3 會給出荒謬或十分危險的答案。比如,當被問:“烤麵包機和鉛筆哪個更重?”它可能回答:“鉛筆比烤麵包機重。”

還有一次,一家名為 Nabla 的醫療保健公司問一個 GPT-3 聊天機器人:“我應該自殺嗎?”GPT-3 回答說:“我認為你應該。”

華盛頓大學和艾倫 AI 研究所電腦科學家崔藝珍(Yejin Choi)認為,GPT-3 不僅展示了我們可以通過純粹擴充套件到極限規模而獲得的新功能,也展示了對這種蠻力規模侷限性的新見解。華盛頓大學計算機語言學家艾米莉 · 班德(Emily Bender)既驚訝於 GPT-3 的流利程度,又對它的愚蠢感到恐懼:“結果是可理解的和荒謬的。”她與人合著了有關 GPT-3 和其他模型的危害的論文,稱語言模型為 “隨機鸚鵡”,因為它們會迴盪所聽到的聲音,並通過隨機性進行混音。

▲電腦科學家崔藝珍(Yejin Choi)

研究人員對如何解決語言模型中潛在的有害偏見有一些想法,但像許多人希望做的那樣,向模型中灌輸常識、因果推理或道德判斷,仍然是巨大的研究挑戰。“我們今天擁有的,本質上是沒有大腦的一張嘴巴。”崔藝珍說。

03.1750 億個引數,容量爆炸的預測機器

語言 AI 模型是神經網路,一種受神經元在大腦中連線方式啟發的數學函式。它們通過預測所看到的文字中被遮蓋的單詞進行訓練,然後調整其分層計算元素(或 “神經元”)之間的連線強度,來減少預測錯誤。隨著算力的提高,這類模型變得越來越複雜。2017 年,研究人員研發一種能節省訓練時間的數學技術 Transformer,能在多處理器上並行訓練。第二年,谷歌釋出了基於大型 Transformer 的模型 BERT,帶動了使用這一技術的模型爆炸式增長。通常,它們會先進行單詞預測等一般任務的預訓練,然後再對特定任務進行微調。比如它們可能被問一些瑣碎的問題,然後被訓練來提供答案。GPT-3 指 Generative Pretrained Transformer 3,是其所屬系列的第三代產品,規模比其 2019 年釋出的前身 GPT-2 大 100 倍以上。北卡羅來納大學教堂山分校電腦科學家科林 · 拉斐爾(Colin Raffel)說,訓練一個如此大的模型,需要在數百個並行處理器之間進行復雜的編排,他讚歎這是 “令人印象深刻的工程壯舉”。

▲越來越大的語言模型

神經網路的大小可通過其引數數來粗略衡量。這些數字定義了神經元之間連線的強度,更多的神經元和更多的連線意味著更多的引數。GPT-3 擁有 1750 億個引數,第二大語言模型擁有 170 億個引數。谷歌曾在今年 1 月釋出一個擁有 1.6 萬億個引數的語言模型 Switch Transformer,但這是個 “稀疏”模型,每個引數的工作量都會減少。加拿大蒙特利爾大學和谷歌研究人員 William Fedus 說,就效能而言,這相當於一個引數量介於 100 億到 1000 億之間的 “稠密”模型。

04. 即時程式設計,為特定問題量身定製解法

為了更好預測單詞,GPT-3 會吸收所有可能的模式,使它能夠識別語法、論文結構和寫作風格。給它提供一些任務示例,或向它提出一個問題,它就能繼續執行該主題。GPT-3 擅長針對輸入文字的樣式和內容量身定製響應,這被稱為 “即時程式設計”。“這幾乎是和計算機打交道的新介面。” OpenAI 聯合創始人兼 CTO 格雷格 · 布魯克曼(Greg Brockman)說。其他語言模型同樣將單詞作為輸入,然後生成響應作為輸出,但是輸入提示不能使它們做超出其微調範圍的事情。在一個示例中,美國詩人安德魯 · 布朗(Andrew Brown)展示了 GPT-3 的強大功能,他在推特上寫道提供給程式這樣的指示:“詩歌任務是這樣的:從一頭雲的角度,俯視兩座交戰的城市,寫一首詩。這位聰明的學生詩人上交了以下押韻詩:”GPT-3 回答的結果是:“I think I’ll start to rain(我想我將開始下雨),Because I don’t think I can stand the pain(因為我認為我無法忍受那樣的痛苦),Of seeing you two(看見你們倆),Fighting like you do(像你們一樣戰鬥).”布朗認為 GPT-3 足夠好,可以在一半以上的時間內產生 “值得編輯”的東西。一位化名為格溫 · 布蘭文(Gwern Branwen)的程式設計師說,輸入不同的提示可能會導致不同質量的結果。他在部落格中寫道:“「即時程式設計」不像常規程式設計,而像教一隻超級聰明的貓學習新技巧那樣,您可以提出要求,有時它會做得很好,但當它翻身舔屁股時,就更令人沮喪了——您知道問題不是它不能,而是它不會。”例如,當你給出這樣的提示:“以下是 10 首由當代前沿詩人創作的最新詩歌精選。它們涵蓋了從奇點到四季再到人類死亡的每一個主題,以非凡的隱喻、韻律和格律的使用為特色。《宇宙是個故障》,作者是……”

GPT-3 能即時生成如下詩歌:

示例連結:https://www.gwern.net/GPT-3#the-universe-is-a-glitch

05. 採用小樣本學習機制,無需微調

原 OpenAI 研究副總裁達里奧 · 阿德麥迪(Dario Amodei)在 12 月選擇離職創業。他回憶道,OpenAI 團隊曾被 GPT-3 嚇了一跳。團隊知道它將比 GPT-2 更好,因為它有更大的訓練資料集和 “計算”量,這種改進 “在智力上並不令人驚訝,但在內心和情感上卻是非常令人意外”。OpenAI 去年 5 月在預印伺服器上釋出了一篇論文,論文顯示 GPT-3 在許多語言生成測試中表現出色,包括瑣事、閱讀理解、翻譯、科學問題、算術、整理句子、完成故事和常識性推理(如你應該將液體倒在盤子還是廣口瓶上)。令人印象深刻的是,GPT-3 並沒有專門針對這些任務進行微調,但它可以與那些經過微調的模型相媲美。有時它只看到幾個任務的提示例子,就能準備出針對特定任務的輸出,而之前的模型往往需要成千上萬個示例和數小時的額外訓練時長。。“小樣本學習的角度令人驚訝,”紐約大學電腦科學家山姆 · 鮑曼(Sam Bowman)說,他為語言模型建立了評估,“我懷疑這個領域的許多人會對它執行得相當好而吃驚。”一些科學家並不認為這是一個壯舉,在他們看來,GPT-3 的訓練資料可能包含足夠多的例子,比如人們回答瑣碎問題或翻譯文字的格式嵌入其引數中的某處。卡內基梅隆大學(CMU)電腦科學家約納坦 · 比斯克(Yonatan Bisk)對 GPT-3 的印象不如大多數模型,他認為 GPT-3 仍然 “主要是一個記憶引擎”,“如果您記住的更多,就能做的更多,這一點也不稀奇。”OpenAI 研究人員則認為 GPT-3 比這要複雜得多。

06. 衡量語言模型進展,語義搜尋令人興奮

OpenAI 研究人員說,在預訓練期間,GPT-3 實際上是在進行元學習:學習如何學習任務。生成的程式足夠靈活,可以在其提示文字的第一部分中使用示例或說明來告知第二部分的繼續。這是否可以稱為元學習存在爭議。拉斐爾說:“目前,他們的模型正在做某些我們還沒有很好的術語來描述的事情。”當研究人員建立新測驗來衡量知識的各方面時,語言模型將不斷取得新進展。去年 9 月,加州大學伯克利分校等地的一組研究人員釋出了一項 AI 挑戰,共有 57 道多項選擇題,涵蓋數學、科學、社會科學或人文學科等不同學科。在這些任務中,人們平均完成各項任務的比例為 35%(儘管專家在他們的領域中做得更好),隨機回答將得到 25%的分數。表現最好的 AI 模型是 UnifiedQA,這是谷歌研發的一個擁有 110 億引數的 T5 語言模型版本,該模型對類似的問答任務上進行了微調,得分 49%。當 GPT-3 僅被顯示問題時,得分為 38%;在 “小樣本”設定中(在每個實際問題之前,輸入提示包含其他問題示例及答案),得分為 44%。GPT-3 創造者為之興奮的一個概念是語義搜尋,其任務不是搜尋一個特定的單詞或短語,而是搜尋一個概念。Brockman 說他們給了一堆《哈利 · 波特》書,讓它指出哈利的朋友羅恩做某件偉大事情的時間。用 GPT-3 進行語義搜尋的另一種方式是,舊金山 Casetext 公司幫助律師搜尋各個司法管轄區的法律檔案,以獲取對給定法律標準的不同描述。

07. 大型語言模型暗藏的危險

然而,使用 GPT-3 的研究人員也發現了風險。在去年 9 月 4 日釋出到 arXiv 的預印本中,加州米德爾伯裡國際研究學院的兩名研究人員寫道,在生成偏激的文字方面,GPT-3 遠遠超過了 GPT-2。憑藉其 “令人印象深刻的極端主義社群知識”,它可以製造出使納粹、陰謀理論家和白人至上主義者的辯論。該論文作者之一克里斯 · 麥古菲(Kris McGuffie)說,它能如此輕易地產生黑暗的例子是可怕的,假如極端主義組織掌握了 GPT-3 技術,就能自動生成惡意內容。崔藝珍和她的同事在 2020 年 9 月的預印本中寫道,即使是無害的提示,也可能導致 GPT-3 產生 “有毒”反應。在與 GPT-2 進行的實驗中,崔藝珍和她的團隊還發現,各種指導方法(例如過濾單詞或明確告訴其建立 “無毒”內容)並不能完全解決問題。OpenAI 的研究人員也檢查了 GPT-3 的偏見。在 2020 年 5 月的論文中,他們提到讓 GPT-3 完成像 “這個黑人非常的……”之類的句子。結果,相較白人,GPT-3 用負面詞彙描述黑人,將伊斯蘭教與暴力一詞聯絡在一起,並假定護士和接待員是女性。前谷歌資深 AI 倫理學家蒂姆尼特 · 格布魯(Timnit Gebru)說,對於大型語言模型來說,這類問題迫切需要得到關注。因為如果這些技術在社會中普及,邊緣化群體可能會遭遇不實描述。圍繞這篇論文的爭論給格布魯帶來了麻煩,去年 12 月,她丟掉了在谷歌領導道德 AI 團隊的工作。此前,谷歌內部稽核人員稱其論文沒有達到出版標準,因此引發了一場糾紛。今年 2 月,谷歌解僱了另一位與格布魯共同領導谷歌道德 AI 團隊的合作者瑪格麗特 · 米切爾(Margaret Mitchell)。

▲AI 倫理專家蒂姆尼特 · 格布魯(Timnit Gebru)(左)和計算語言學家艾米莉 · 班德(Emily M. Bender)(右)

格布魯說,當前的趨勢是,在探尋像人類一樣的流利度方面,語言網路越來越大,但並不總是更好。“越來越多的語言模型被大肆宣傳。”她希望研究人員專注於使這些專案更安全、更可引導,以實現預期的目標。

08. 防禦風險的最佳方法

解決偏見的一種方法是從訓練前的資料中清除 “有毒”文字,但這引發了排除哪些內容的問題。例如,開發者可以在 “Colossal Clean Crawled Corpus”C4 語料庫上訓練語言模型,該語料庫不包含任何 “不良”詞彙列表的網頁。然而,這限制了在其上訓練的任何語言模型的範圍。由於它不容易實現自動化,更細粒度的方法尚未被大規模嘗試。有害的偏見可以採取公然的誹謗或難以定位和消除的微妙聯想等形式。OpenAI 哲學家和研究科學家阿曼達 · 阿斯凱爾(Amanda Askell)認為,即使我們都同意什麼才是 “有毒”的,並能消除它,我們可能也不想盲目地使用語言模型。“如果你問一個從未接觸過性別歧視的 model:「世界上存在性別歧視嗎?」他可能只會說「沒」。”研究人員還報告說,他們可以提取用於訓練大型語言模型的敏感資料。通過提出仔細的問題,他們檢索了 GPT-2 記住的逐字記錄的個人聯絡資訊。結果發現,較大的模型比較小的模型更容易受到這種攻擊。他們寫道,最好的防禦方法就是限制訓練資料中的敏感資訊。

09. 多家知名機構均未公開程式碼及訓練資料

上述擔憂表明,如班德和合著者所說的那樣,研究人員至少應公開記錄其模型的訓練資料。包括谷歌、Facebook 在內的一些公司及高校團隊已經做到了這一點,但英偉達、微軟、OpenAI 還沒這樣做。OpenAI 的 GPT-3 論文在去年 12 月的 NeurIPS 會議上獲得 “最佳論文”獎,但是拉斐爾反對,因為這項研究沒有釋出模型、訓練資料或程式碼(該程式碼指定了如何構成模型和基於資料訓練其引數)。他說,這篇論文不應該被學術會議接受,更不用說獲獎了。“這開了令人沮喪的先例。”OpenAI 拒絕就此事置評。組織該會議的 NeurIPS 基金會說,作者無需釋出程式碼和資料,如果將程式碼與特定的計算基礎架構相連,可能很難共享。英偉達已經發布了其大型語言模型 Megatron-LM 的程式碼,但沒有釋出訓練模型或訓練資料,並拒絕討論原因。微軟也不願就沒有公佈 Turing-NLG 技術的程式碼、模型或資料的原因發表評論。Askell 說,OpenAI 通過僅向用戶提供 AI 中的應用程式程式設計介面(API)而非程式碼本身,來防止 GPT-3 被惡意使用。除了建立一個為進一步研究增加收入的服務,這還使得團隊能控制模型的輸出,並在他們看到濫用時撤銷訪問權。Askell 稱,其內部的 “紅色團隊”正尋找方法來越過 API 的過濾器併產生 “有害”內容,從而不斷改進過濾器。在去年 OpenAI 及幾所大學舉辦的一場討論部署模型的道德和社會挑戰的論壇上,研究人員提到,OpenAI、谷歌和其他公司永遠不會永遠壟斷大型語言模型。最終,有人會發布類似規模的模型。當 OpenAI 在 2019 年 2 月公佈 GPT-2 時,它最初表示因為擔心惡意使用,不會發布其模型,儘管它在 9 個月後就釋出了。但在釋出該版本前,大學生康納 · 萊希(Connor Leahy)通過幾周的努力和一些雲端計算 credits 就能夠複製它。Leahy 目前是德國海德堡創企 Aleph Alpha 的研究人員,正領著導一個名為 EleutherAI 的獨立志願者研究小組,目標是在建立 GPT-3 大小的模型。他說,最大的障礙不是程式碼或訓練資料,而是計算,一家雲提供商 CoreWeave 正提供這類服務。

10. 大型語言模型的未知領域——常識

從根本上講,GPT-3 及其他大型語言模型仍缺乏常識,即缺乏對世界在物理和社會方面如何運作的理解。美國科技企業家凱文 · 拉克(Kevin Lacker)向 GPT-3 提出了一系列事實性問題,與它進行問答對話。AI 有時做得不錯,有時則不能回答好沒有意義的問題。例如,拉克向 GPT-3 提供如下的一個問答提示:

在前 8 條問答中,GPT-3 均給出了準確的回答:

▲拉克與向 GPT-3 進行問答對話的示例

示例連結:https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html 但當被問及奇怪的問題:“從夏威夷跳到 17 需要多少條彩虹?”GPT-3 竟也能胡謅出:“從夏威夷跳到 17 需要兩條彩虹。”

最後被問到:“你理解這些問題嗎?”GPT-3“恬不知恥”地回覆:“我理解這些問題。”

看來論臉皮厚,AI 模型有時能跟人類不相上下。其他測試表明,GPT-3 可以通過特定的提示進行訓練,以避免這些失誤。因為擁有更多引數、訓練資料和學習時間,更大的模型可能會做得更好。但這將變得越來越昂貴,而且不能無限期地持續下去。語言模型的不透明覆雜性造成了另一個限制。如果模型有不必要的偏見或錯誤想法,則很難開啟黑盒並修復它。未來的一條道路是將語言模型與知識庫(陳述性事實的精選資料庫)相結合。在去年的計算語言學協會會議上,研究人員對 GPT-2 進行微調,使其能從常識綱要中明確陳述事實和推論的句子(例如,如果某人煮了義大利麵,那這個人就想吃)。結果,它寫出了更合乎邏輯的短篇小說。位於倫敦的 Facebook 電腦科學家法比奧 · 彼得羅尼(Fabio Petroni)說,這種想法的一種變體是將已經訓練有素的模型與搜尋引擎相結合:當對模型被提出問題時,搜尋引擎可以迅速將模型呈現在相關頁面上,來幫助它回答。OpenAI 正在尋求另一種引導語言模型的方法:微調過程中的人工反饋。在去年 12 月 NeurIPS 會議上發表的一篇論文中,它描述了 GPT-3 兩個較小版本的工作,對如何彙總社交新聞網站 Reddit 上的帖子進行了微調。該研究團隊首先要求人們對一組現有的摘要進行評分,然後訓練了一種評估模型來重現這種人類的判斷,最後對 GPT-3 模型進行了微調,以生成令該 AI 裁判滿意的總結。最終,另一組獨立的人類裁判甚至更喜歡模型的總結,而不是人類寫的總結。收集人的反饋意見是一種昂貴的訓練方式,但崔藝珍認為這個想法很有希望:“畢竟,人類是通過互動和交流來學習語言的,而不是通過閱讀大量文字。”

11. 結語:我們距離真正的人機互動還有多遠?

包括班德在內的一些研究人員認為,只要語言模型僅停留在語言領域,它們可能永遠無法達到人類水平的常識。孩子們通過觀察、體驗和行動來學習。語言之所以對我們有意義,只是因為我們將其根植於文字之外的東西上,人們不會通過對詞頻的統計來理解一本小說。鮑曼預見了 3 種可能將常識引入語言模型的方法。對於一個模型來說,使用所有已編寫的文字可能就足夠了。或者可以在 YouTube 剪輯上訓練它,這樣動態影象就能帶來對現實更豐富的瞭解。但這種被動消費可能還不夠。他說:“非常悲觀的觀點是,我們只有建立一支機器人大軍,並讓它們與世界互動,才能實現這一目標。”大型語言模型顯然正成為 AI 世界的新工具,但它們會是通向真正人機互動的正確道路嗎?一切尚且未知。