AI 破解古文字登 Nature 封面：修復缺失文字，精確地理位置和書寫時間

阿新 • • 發佈：2022-03-10

最新一期的 Nature 封面，AI 再度來到舞臺中央，這一次是在破譯古文字方面立功了。這是一種基於 Transformer 架構的方法，由 DeepMind、谷歌、牛津大學等多家研究機構聯合開發。

在單獨修復受損文字時，這種方法能達到 62% 的準確率。在實際應用中，歷史學家單獨破譯某塊古希臘石碑的準確率本來只有 25%，但在使用這一方法後一舉提升了近乎 3 倍，達到了 72%。

不僅能修復文字，這一方法在地理歸屬的任務上也有 71% 的準確率，還能將古文字的書寫日期精確到 30 年以內。目前，這一方法已經引起了不小的討論熱度：

現在已經有可以線上解析古希臘文字的網頁版，架構方法也已開源。

Transformer 破譯古文字

這是一個叫做 Ithaca 的架構，以荷馬史詩《奧德賽》中的希臘島嶼命名。Ithaca 架構中的注意力機制能夠通過串聯輸入的單個字元、完整單詞的表徵與順序位置來了解輸入文字的每一部分的位置，最終權衡不同的輸入對模型決策過程的影響。

完整架構由多個 Transformer 塊組成，每個 Transformer 塊都輸出一個經過處理的表徵序列（Sequence of Processed Representations），其長度即輸入字元的數量。其輸入隨後被傳遞給三個分別負責文字修復、地理歸屬、時間歸屬的任務頭，每個頭都由一個前饋的神經網路組成，專門負責各自任務的訓練。

在文字修復任務中，Ithaca 會提供 20 個按概率排列的解析結果預測：

地理歸屬的確定上，則會依據古歷史學中的 84 個區域中對輸入文字進行分類，將可能的區域預測類別通過地圖和柱狀圖展現：

日期歸屬任務同樣也通過分佈預測的柱狀圖來展示。如下圖所示，公元前 300-250 年的日期 10 年一組，被表示為 5 個概率相同的範圍，而公元前 305 年的銘文將以 100% 的概率被分配到公元前 300-310 年的十年組：

歷史學家的 AI 助手

研究人員分別將 Ithaca 與歷史學家、同類 AI 方法 Pythia、以及 Ithaca 與歷史學家合作等不同破解古文字的方法做了對比。

字錯率（CER）總是越低越好，在文字修復任務上，Ithaca 的字錯率和準確率都最好，如果與歷史學家合作時，效果還將再次提升。

在論文的最後，研究人員表示，研究方法適用於手稿學、錢幣學和紙草學等所有與古代文字相關的學科，也適用於古代、現代的任何語言。

目前，這一方法已經投入了實際使用，比如在雅典時期頒佈的某個重要法令的碑文的日期確認上，歷史學家們之前認為是在公元前 446/5 年之前書寫的。而 Ithaca 與歷史學家一起，將這一日期更新到了公元前 424/3 年：

Ithaca 現在提供了線上試用的途徑，登入官網，在方框中中輸入古希臘銘文，將缺少的字元標記為破折號（-)），將預測的字元標記為問號（?）。

每次查詢最多可以預測 10 個連續或非連續的問號，點選查詢後將在下方顯示文字缺失的字元，並將其歸屬到原來的地點和時間：

作者介紹

研究由 DeepMind、威尼斯卡福斯卡里大學（Ca’ Foscari University of Venice）、哈佛大學、雅典經商大學(Athens University of Economics and Business)、谷歌幾家 AI 團隊合作開發。

論文有兩位共同一作，其中 annis Assael 為 DeepMind 的 AI 部門的研究員，碩博都畢業於牛津大學，同時也是福布斯“30 歲以下 30 名歐洲傑出科學家”之一：

共同一作 Thea Sommerschield 則是一位歷史學家，目前任威尼斯佛斯卡里大學的人文科學院，以及哈佛大學希臘研究中心的研究員，主要研究領域是將機器學習應用於研究古代地中海的書面文化。

論文：

https://www.nature.com/articles/s41586-022-04448-z

開源連結：

https://github.com/DeepMind/ithaca

線上試用：

https://ithaca.DeepMind.com/?job=eyJyZXF1ZXN0SUQiOiJmYzUwNGY0NWNhZjJjZWMxZjIxZDA4YWVjNTdkMjEzMSIsImF0dHJpYnV0aW9uIjp0cnVlLCJyZXN0b3JhdGlvbiI6dHJ1ZX0%3D

AI 破解古文字登 Nature 封面：修復缺失文字，精確地理位置和書寫時間

Transformer 破譯古文字

歷史學家的 AI 助手

作者介紹

AI 破解古文字登 Nature 封面：修復缺失文字，精確地理位置和書寫時間

DeepMind 再登 Nature 封面：AI 首批重大數學發現，驗證兩大數學猜想

“意念手寫”登 Nature 封面：碼字不用手，準確率 99%

蘋果 CEO 蒂姆 · 庫克登上《Outside》雜誌封面：大談健康，在 Apple Park“就像在國家公園裡工作一樣”

“世界首個 AI 地震監測系統”詳解：重點在於 “實時”，準確性有待提升

蘋果 iOS/iPadOS 15 開發者 Beta 2 正式釋出：修復海量 bug，新增多種功能

微軟 Surface Book 2 韌體更新：修復安全漏洞，提高攝像頭和音訊可靠性

蘋果釋出 SF Symbols 3.1 圖示庫更新：修復錯誤 Bug，新增更多符號圖示

華為 Mate 10/P20 系列、榮耀 V10 推送鴻蒙 HarmonyOS 2 系統重要補丁包：修復部分場景無法設定來電鈴聲和編輯聯絡人資訊問題

谷歌 Pixel 6 / 6 Pro 獲釋出以來最大更新：修復大量 Bug，改進相機與指紋識別

微軟推出 Win10 KB5008212 累積更新：修復安全問題，2004 版本已停止主流支援

堅果 Pro 3 手機推送 Smartisan OS V8.0.2 更新：修復若干 Bug，增強系統穩定性

深度作業系統 V20（1003）內測版招募：新增手機助手，支援安卓和 iOS 端，管理手機應用、檔案

ATSS：自動選擇樣本，消除Anchor based和Anchor free物體檢測方法之間的差別

echarts餅圖：設定佔比的起始角度位置和生長方向

JavaCV開發詳解之23：hls視訊錄製，m3u8切片錄製和fmp4切片錄製詳解

宣佈離婚後比爾・蓋茨首次公開發表講話：不談私事，只談疫苗和氣候變化

OPPO ColorOS 12 系統曝光：融合氧 OS，並採用 Flyme 和 MIUI 元素

工信部：對反覆違規呼叫使用者地理位置、許可權等企業，加大懲處

假的 Win11 安裝包被曝光：1.75GB 大小，都是廣告和木馬病毒

AI 破解古文字登 Nature 封面：修復缺失文字，精確地理位置和書寫時間

Transformer 破譯古文字

歷史學家的 AI 助手

作者介紹

相關推薦