日產 45 億詞,“地表最強語言模型”GPT-3 已落地 300 多個應用
4 月 3 日訊息,據 The Verge 報道,OpenAI 最近宣佈,其人工智慧文字生成器 GPT-3 現已被數萬開發者用於 300 多個不同的應用程式,每天輸出 45 億詞之多。
報道稱,雖然 GPT-3 生成的大部分文字都很生澀,但如此大的輸出量也反映出,AI 文字生成技術的規模、影響和商業潛力正在不斷增長。
一、約 2000 億個單詞的訓練,讓機器“開口說話”
GPT-3 的全稱叫生成預訓練轉換器 - 3 (Generative Pretrained Transformer-3),這套強大的“大型語言模型”於 2020 年 6 月問世,訓練了大約 2000 億個單詞,估計花費了數千萬美元。
目前,文字生成是機器學習的一大趨勢。人工智慧系統從網際網路上抓取大量的單詞進行學習,並根據各種提示生成文字。學習完成後,機器就可以實現一系列功能,比如創作小說、編寫潦草的程式碼,以及讓使用者對話歷史人物等。
二、眾多公司申請使用 GPT-3 通用 API 以構建服務
獲取 GPT-3 底層程式碼是 OpenAI 的一項商業服務。GPT-3 與微軟簽訂了獨家協議,允許微軟獨家訪問 GPT-3 程式的底層程式碼。
不過,任何公司都可以申請使用 GPT-3 的通用 API,並在此基礎上構建服務。目前已經有數百家公司這樣做了。
美國一家名為 Viable 的客戶反饋分析公司採用了 GPT-3,從調查、服務檯票、實時聊天記錄和評論中識別出“主題和情緒”;美國的 AI 虛擬形象公司 Fable Studio 使用這個程式實現了使用者跟虛擬形象的對話;美國舊金山的人工智慧搜尋平臺 Algolia 也在用它改進自己的網路搜尋產品,然後賣給其他客戶。
三、難逃同質化、文字質量堪憂,應用仍存難點
GPT-3 的大量使用對 OpenAI 以及微軟來說都是好訊息,因為微軟 Azure 雲端計算平臺能夠為 OpenAI 提供更強大的技術支援,但並非所有創業公司都對此感興趣。
據分析人士觀點,如果不是真正擁有這項技術,那麼一家公司全靠 GPT-3 來構建業務是十分不明智的選擇。
主要原因在於,儘管使用 GPT-3 能讓公司和業務的建立更加簡單,但自己的競爭對手也同樣能這麼做。就算能通過品牌和使用者介面讓公司業務打出差異化,技術背後所產生的大量收益還是歸 OpenAI 所有。
與此同時,GPT-3 的智慧文字輸出質量也存在令人擔憂的問題。和許多演算法一樣,GPT-3 也會吸收和放大有害的偏見,這有時會讓它犯下“愚蠢的錯誤”。例如,在使用 GPT-3 構建的醫療聊天機器人進行測試時,該模型曾鼓勵“有自殺傾向”的病人去自殺。
▲測試中,GPT-3 鼓勵有自殺傾向的使用者言論
去年 9 月 4 日,蒙特雷的米德爾伯裡國際研究所的兩名研究人員在 airXiv 平臺上釋出了一篇論文,文章提到,GPT-3 在生成激進文字方面遠遠超過上一個版本 GPT-2。對此,OpenAI 也在開發工具,幫助使用者更好地控制 GPT-3 生成文字。
結語:機器對話來臨,還需摸索前進
OpenAI 的“45 億字”里程碑說明了,像 GPT-3 這樣的智慧文字生成工具目前已經在大量生成機器對話,並且已經被開發者大量地採用。
但當前來看,實際應用中演算法還是會造成錯誤、不公和偏見,過於依賴演算法未必是好事。這類問題仍然值得關注,因為 AI 文字生成的機器對話還會繼續下去、甚至愈演愈烈。
或許在未來,我們會迎來一個充滿機器人生成對話的世界。