1. 程式人生 > >袁毓林 李強:怎樣用物性結構知識解決“網球問題”?(下)

袁毓林 李強:怎樣用物性結構知識解決“網球問題”?(下)

“網球問題”指怎樣把racquet(網球拍)、ball(網球)和net(球網)之類具有情境聯想關係的詞彙概念聯絡起來、發現它們之間的語義和推理關係。這是一個自然語言處理和相關的語言知識資源建設的世界性難題。該文以求解“網球問題”為目標,對目前比較主流的幾種語言詞彙和概念知識庫系統(包括WordNet、VerbNet、FrameNet、ConceptNet等)進行檢討,指出它們在解決“網球問題”上還都存在一定的侷限性,著重分析它們為什麼不能解決“網球問題”。進而指出基於生成詞庫論的名詞物性結構知識描寫體系可以解決“網球問題”,主張用名詞的物性結構知識和相關的句法組合知識來構建一種以名詞(實體)為核心的詞彙概念網路,以彌補上述幾種知識庫系統的不足,為自然語言處理提供一種可資參考的詞彙概念知識庫體系。

由於微信篇幅限制,請檢視《中文資訊學報》佳文共賞∣ 袁毓林 李強:怎樣用物性結構知識解決“網球問題”?(上)以閱讀剩餘論文上半部分。

5   為什麼ConceptNet無法解決“網球問題”?

人工智慧領域的研究從20世紀30、40年代開始興起,早在計算機時代的曙光來臨之前,以圖靈(Alan Turing,1912-1954)為代表的一批學者就已經提出了關於計算機以及人工智慧的設想,他們希望未來可以研製出類似人腦那樣具有判斷、分析、推理、決策等高階認知能力的計算機,而這也成為人工智慧領域的終極目標。在人工智慧的發展過程中,很多學者都曾明確提出,橫亙在人工智慧研究道路上的一塊大頑石是現有的計算機程式缺乏必要的常識。換句話說,在人類社會中,一個正常的6歲兒童就已經掌握了有關周圍世界和環境的常識知識;但是對於計算機來說,它連最基本的常識都沒有[15]。人工智慧專家為了解決這個問題,開始為計算機研製添置常識知識庫,例如費根鮑姆(Feigenbaum)的“專家系統”和裡南(Lenat)的“大百科全書”計劃,都旨在使計算機系統具有一個強大的知識庫,這是當代智慧系統或智慧代理所具備的一種常識性知識庫。本節所介紹的ConceptNet也屬於這樣一種常識性推理知識庫。

ConceptNet是由麻省理工學院媒體實驗室開發的一種開源工具,它的開發者Liu & Singh[16]指出,基於關鍵詞和資料統計的方法只能實現計算機語義理解的表層處理,要想實現深層次的計算機對於文字的理解,就必須新增各種不同的語義知識(semantic knowledge),使得計算機同時也擁有人所具備的常識性知識。ConceptNet的開發建立在OMCS(Open Mind Common Sense)基礎之上,它是一個大型的常識知識庫(knowledgebase),包含了來自於空間、物質、社會、時間和心理方面的日常生活知識。ConceptNet從OMCS所收集的大約70萬個句子中自動構造一個常識性語義網路,用不同型別的連結描述物體、事件以及人物之間的關係。值得一提的是,與傳統的手工提取常識性知識不同,OMCS通過網路平臺向普通大眾尋求支援,體現了網路眾包開發意識。在ConceptNet中,語義知識網路通過160萬個箭頭將超過30萬個節點連線在一起,每一個箭頭代表一種語義關係,類似這樣的語義關係共有20種,構成了語義關係的本體知識系統。比如:

Is(A,B):A dog is an animal.

Location Of(A,B):Books are in the library.

Used For(A,B):Forks are used for eating.

Subevent Of(A,B):After waking up in morning, he checked his email.

在上面這些例子中,“Is”連線“dog”和“animal”這兩個概念節點,這兩個概念節點又可以通過其他型別連結與其他概念節點相連。其餘情況亦是如此。通過詞彙之間相互連結所形成的概念語義網路對於話題提取(topic extraction)、情感標註(emotion tagging)、詞義消歧(word sense disambiguation)、文字推理(text inference)等自然語言處理都有重要的作用。ConceptNet常識語義網路如下面圖6所示.

6ConceptNet常識語義網路片段

由上圖可見,ConceptNet實質上是一種基於常識和概念聯想關係的詞彙語義知識庫。這種知識庫通過認知上的擴散性啟用機制(spreading activation mechanism)將日常生活中方方面面的知識都囊括在語義網路之中,並可通過指標進行追蹤(traversal),從而為計算機建立了一個類似儲存在人腦之中的概念系統,為相關的自然語言處理提供了強有力的支援。從理論上來說,這種常識知識庫應該是解決“網球問題”的一種比較理想的資源。比如,“網球拍”、“網球場”、“網球服”等概念都可以通過“網球”來啟用;“醫生”、“護士”、“醫療儀器”等都可以以“醫院”作為中心概念形成擴散性的輻射式網路;“蛋糕”、“蠟燭”等都是“生日”這一事件情景中經常出現的事物。但是,這種常識知識庫主要側重於概念和推理層面,在知識庫中儲存的資訊是關於某一個概念可能與其他若干概念之間的生髮(generation)關係以及這種關係的具體屬性值,而對於詞語之間的組合關係關注不夠。這進一步限制了它在自然語言處理中的應用。比如,袁毓林[17]就曾指出,在資訊抽取(information extraction)領域中,中觀層次的論元結構知識是非常重要的。以句子為考察物件,句子中的謂詞和名詞之間的論元結構關係這種低層次的語義關係可以通過一定的程式傳遞到高層次的關於事件的指令碼和框架中。也就是說,只有弄清楚動詞的論元結構資訊,才能在特定的文字模板中抽取資訊檢索所需要的關鍵內容。雖然ConceptNet為不同概念節點之間設定了多達20種的語義關係連結,但這些語義連結呈現出來的只是概念之間的深層語義推導關係,而並沒有說明表達這些不同概念的詞語在句法表層是如何被組織在一起的。正因為缺乏句法層面的相關描述,使得不同概念之間的關係連結不便於以一種規則化和形式化的標準確立,只能依賴於一般的常識性知識。此外,ConceptNet主要關注短語結構所表達的複合概念(compound concept,如“開車”、“買食物”)之間的深層語義關係,大多數屬於由事件範疇所啟用的概念知識,對於由一般事物範疇所能引發生成的網路系統,ConceptNet關注得還不夠。因此,也就不便於進行以名詞為查詢項(入口)的相關詞彙及其情境聯想關係的檢索。

總之,我們認為,與VerbNet和FrameNet相比,ConceptNet建構了一種常識性知識網路系統,這對於“網球問題”的解決具有重要的作用。但是,ConceptNet過分關注不同概念之間常識推理性的語義關係,而忽略了表示相關概念的不同詞語在句法層面上的組合關係和語篇層面上的共現關係。如果有一種詞彙知識庫能同時涵蓋跟有關詞項相關的常識性知識和句法組合及語篇共現知識,那麼,它對於解決“網球問題”應該會發揮更大的作用。

6   為什麼物性結構知識可以解決“網球問題”?

圍繞著自動構建詞彙語義系統的嘗試,在過去的一、二十年中一直在進行。其中,Pustejovsky[18-19]提出的生成詞庫論(Generative Lexicon,GL),確定瞭如下的總體目標:

開發生成詞庫的目的在於提供一種成分組合語義學,對源自現實語言使用中的意義進行語境調製(contextual modulation)。[20]

生成詞庫論一方面關注詞彙語義學(詞彙的成分組合語義學),同時也關注語境語義學(意義的語境調製),並試圖在它們之間進行調和②[21]。面對語言學知識和非語言學知識的表徵介面,Pustejovsky設計了一種語義框架,即物性結構,或稱為物性角色描寫體系。它其實是一套關於詞彙本體知識(ontological lexical knowledge)的描述體系,是生成詞庫理論中最為核心的內容③。藉助物性角色知識,我們可以對語言的創造性使用,尤其是對詞項在不同的語言環境下浮現出(emerge)不同的意義這一動態性詞義變化現象進行說明和解釋。Pustejovsky(1995)談到了下列四種物性角色④:

(1)構成角色constitutive role:描寫一個物體與其組成部分之間的關係,包括材料material、重量(weight)、部分與組成成分等;也指物體在一個更大的範圍內構成或組成其他物體

(2)形式角色formal role描寫物件在更大的認知域內區別於其他物件的屬性,包括大小(magnitude)、形狀(shape)、維度(dimensionality)和顏色(color)

(3)功用角色(telic role):描寫物件的用途(purpose)和功能(function)。主要包括兩種,一種是直接功用角色(direct telic),人可以與某物發生直接聯絡,如beer的功用角色是drink;另一種是間接功用角色(purpose telic),指某個事物可以用來協助完成某個活動,如knife的功用角色是cut;

(4)施成角色(agentive role):描寫物件怎樣形成或產生的,如創造、因果關係等;比如,餃子是用皮和餡兒包出來的,那麼餃子的施成角色就是“包”這個動作。

受Pustejovsky的這套物性角色的啟發,袁毓林[25-26]通過對大規模漢語真實文字中名詞跟相關動詞等的搭配關係和選擇限制進行調查後發現,Pustejovsky[18-19]的四種物性角色並不足以全面反映名詞跟動詞等的搭配限制,於是對物性角色框架進行了更深一步的擴充套件描述,將物性角色的總數增加至10個,以便適應漢語的語義描寫和研究。除了上面的四個物性角色外,新增的六個分別是:單位、評價、行為、處置、材料、定位⑤。這些物性角色反映了我們人類對於名詞所指事物的最為關切的內容,也即關於世界萬事萬物最基本、最樸素的哲學命題:是什麼?為什麼?怎麼樣?基於亞里士多德的“四因說”,物性角色體系將事物的客觀屬性特徵與主觀評價特徵包裝在一個描寫框架之中,多維度地展示了名詞自身所容納的語義資訊。這實際上是一種基於世間萬物本體論的語言哲學思考,將事物跟相關事物、屬性、動作、行為和評價等等之間的關係表現了出來。同時,在袁毓林[25-26]的物性結構體系中,相關詞項的物性角色描述直接跟該詞項所具備的基本句法格式掛鉤,語義和句法組合的各種可能性被展示出來,為下一步自然語言處理應用提供了有關名詞的句法-語義介面知識。這樣一種不僅關注詞項所代表事物的百科知識,同時也重視與其他語言成分相互組配的詞彙知識庫特別有利於“網球問題”的解決。

為了檢驗這種經過擴充套件的物性結構理論在解決“網球問題”方面的效力,我們以“網球、網球拍、網球場”和“生日、蛋糕、蠟燭”這兩組基於情景聯想關係的名詞為例進行考察。首先,我們從北京大學已經編制的名詞物性結構知識庫中調出這些詞條的描寫資訊,再檢索北京大學漢語語言學研究中心CCL語料庫,並且按照袁毓林[25-26]的物性結構描寫體系,分別對“網球”和“生日”的詞條資訊(字形、語音、意義等)、物性結構和句法配置資訊進行修正。首先來看“網球”的物性結構資訊。

網球 02 wǎngqiú〈名詞,中性〉網球運動使用的球,圓形,有彈性。裡面用橡皮,外面用毛織品等製成。

1物性角色

形式FOR:具體事物、運動器材;

構成CON:由橡皮、紡織材料(羊毛和尼龍)構成,圓形,顏色為白色或黃色,可以分為訓練用球和比賽用球,等等;

單位UNI個、只、種、堆、些、袋、桶、籃子,等等;

評價EVA:有彈性、軟、硬、新、舊、重、輕,等等;

施成AGE:生產、製作、縫製,等等;

功用TEL:打、擊打、拍,等等;

行為ACT:滾動、飛、彈動,等等;

處置HAN:買、賣、扔、撿、拿、踢、發現、掏出、看見、發、接,等等;

2句法格式

S1CON+(的+)_ | _++CON

如:白色~ | 黃色~ | 圓形(的)~ | ~有橡皮 | ~有尼龍

S2:NUM+UNI+_

如:一個~ | 一袋~ | 一些~ | 一桶~ | 一堆~ | 一籃子~ | 一隻~ | 一種~

S3EVA++_

如:有彈性的~ | 軟的~ | 硬的~ | 新的~ | 舊的~ | 重的~ | 輕的~

S4AGE+_

如:生產~ | 製作~ | 縫製~

S5:TEL+__

如:~ | 擊打~ | ~

S6_+ACT

如:~(一直滾動 | ~起來| ~(上下彈動

S7HAN+_

如:~ | ~ | ~ | ~ | ~ | ~ | 發現~ | 掏出~ | 看見~ | 

相關推薦

怎樣物性結構知識解決網球問題”?

“網球問題”指怎樣把racquet(網球拍)、ball(網球)和net(球網)之類具有情境聯想關係的詞彙概念聯絡起來、發現它們之間的語義和推理關係。這是一個自然語言處理和相關的語言知識資源建設的世界性難題。該文以求解“網球問題”為目標,對目前比較主流的幾種語言詞彙和概

MasterDAX創始人雲服務模式解決中心化交易所的集權問題

放心 pan 完全 範圍 管理者 ali 機會 這才 差異   7月28日,由火星財經(微信:hxcj24h)、光谷創業咖啡、 Consensus Lab共識實驗室共同主辦的線下交流活動“火星財經中國行·成都站”在成都電子科技大學舉行。MasterDAX創始人李成發表了主

OpenCV 入門 Node.js 進行圖片處理 譯文

在這篇 OpenCV 入門文章中,我將會向大家展示如何使用 Node.js 進行計算機視覺處理。並且結合例項講解使用 OpenCV 這個開源庫進行影象處理的基礎方法。 目前,我正在完成我的碩士論文,其中使用到了 React Native ,神經網路,和 OpenCV 計

循序漸進python做金融量化分析一條移動平均線策略系統建立

在前言中我們講了些基礎知識,這一節正式開始從最簡單的移動平均線講起,移動平均線是在趨勢行情中應用最廣泛的策略,移動平均線有簡單算術平均線,指數平均線,加權平均線,還可以分為一條均線,兩條均線,三條均線策略等等,在這裡我們

修羅場第二天C#之面向對象基礎

dog 主函數 div 接口 對象 blank 返回值 情況 抽象 ------------接(上)http://www.cnblogs.com/HoloSherry/p/7100795.html   抽象類     抽象類也可以實現多態,使用關鍵字abstract。那麽什

廖雪峰網站學習python基礎知識—循環

con class strong 網站 python bre 計算 end hal 一、循環 1、for names = [‘Michal‘, ‘Bob‘, ‘tracy‘] for name in names: print(name) sum =

Redis(二十一)Redis效能問題排查解決手冊

效能相關的資料指標 通過Redis-cli命令列介面訪問到Redis伺服器,然後使用info命令獲取所有與Redis服務相關的資訊。通過這些資訊來分析文章後面提到的一些效能指標。 info命令輸出的資料可分為10個類別,分別是: server clients memory persis

資料結構基礎之圖最短路徑

轉自:http://www.cnblogs.com/edisonchou/p/4691020.html   圖(下):最短路徑 圖的最重要的應用之一就是在交通運輸和通訊網路中尋找最短路徑。例如在交通網路中經常會遇到這樣的問題:兩地之間是否有公路可通;在有多條公路可通的情況下,哪

資料結構基礎之查詢雜湊表

轉自:http://www.cnblogs.com/edisonchou/p/4706253.html   查詢(下):雜湊表 雜湊(雜湊)技術既是一種儲存方法,也是一種查詢方法。然而它與線性表、樹、圖等結構不同的是,前面幾種結構,資料元素之間都存在某種邏輯關係,可以用連線圖示

UVM暫存器篇之五暫存器模型的整合

本文轉自:http://www.eetop.cn/blog/html/28/1561828-6266222.html 前門訪問 利用暫存器模型,我們可以更方便地對暫存器做操作。接下來我們分別兩種訪問暫存器的方式,即前門訪問(front-door)和後門訪問(back-door)。前門訪問,顧

帶你合理的姿勢使用webpack4

推薦先閱讀 webpack 入門教程之後再來閱讀本文。 本文為手摸手使用 webpack4(下),主要分為兩部分: 怎麼合理的運用瀏覽器快取 怎麼構建可靠的持久化快取 預設分包策略 webpack 4 最大的改動就是廢除了 CommonsChunkPlugin 引

ASP.NET Aries 高階開發教程Excel匯入配置之規則說明

前言: 前面兩篇都是大體介紹流程,有一些配置細節,沒有細說,這裡用一篇補上。 1、Excel配置項 起始行索引、列頭跨行數: 對於自定義的Excel匯入模板(有時候模板是由客戶提供,模板的規則很亂) 比如模板裡前面是一些說明,中間是列頭,下面還帶有資料和說明格式。 通過配置起始行索

Performanced C++ 經驗規則3你不知道的建構函式

前面兩篇,我們已經討論了C++建構函式中諸多細枝末節,但百密一疏,還有一些地方我們沒有考慮到。這一篇將對這些問題進行完結。 7、建構函式中的異常 當你在建構函式中寫程式碼的時候,你有沒有想過,如果建構函式中出現異常(別告訴我,你不拋異常。“必要”時系統會替你拋的),那會出現怎樣的情況?

python3.6爬蟲案例爬取某網站所有PPT

上篇部落格:python3.6爬蟲案例:爬取某網站所有PPT(上)給大家介紹了爬取(http://www.1ppt.com/)網站中的ppt檔案,爬下來的檔案如下:所以,我們就要考慮將其名稱修改為其在網頁中顯示的名字,並將其批量解壓到指定資料夾。一、批量修改壓縮檔名稱。細心的

Cocos2D遊戲之旅卡牌翻轉效果的實現

曉石頭的部落格 郵箱:[email protected] 上篇講解了用ScaleTo縮放卡牌,達到翻轉的效果。 條條大道通羅馬,RotateBy 旋轉卡牌同樣能夠實現,而且效果更棒,就看你喜歡哪種了! 效果對比圖 一、先談思路: 用ScaleTo縮放卡

為什麽是阿裏巴巴、是馬雲、是王堅?

美國 服務 王堅 right 獲得 什麽是 生產 浙江省 是我 馬雲和王堅,都是我喜歡的聊天對象。跟馬雲聊的收獲是“原來可以這樣看問題”,跟王堅聊的收獲是“未來可能真的會這樣”。 讀了書稿後相信,這是王堅自己一字一字碼出來的。思想活躍所以文字輕快,一如說話跳躍的他。洞察未

幸福數字經濟學第一人培養人才要課程體系建設與實踐教學並行|筱靜觀察

幸福數字經濟學第一人,清華大學網際網路產業研究院副院長 798藝術區總規劃師,曾擔任軍隊幹部,國企總經理,民企董事長,參與創辦過藝術區、交易所,網路電視臺 先後獲得北京電影學院導演系博士,北京大學金融方向工商管理碩士,清華大學電子系工學士 對於產業升級,跨界與轉型、文化與泛娛樂,創業與商業

BAT解密互聯網技術發展之路8- 戶層技術剖析

用戶管理 相同 開源 大廠 cookie alt 之間 平臺 之路 互聯網業務用戶層技術主要包括:用戶管理、消息推送、存儲雲、圖片雲。用戶管理互聯網業務的一個典型特征就是通過互聯網將眾多分散的用戶連接起來。因此用戶管理是互聯網業務不可缺少的一部分。略微大一點的互聯網業務

面向物件【老師版】__init__定製自己獨有的特徵

本節內容 1、是如何產生物件 2、例項化的步驟 一、是如何產生物件? __init__方法用來為物件定製物件自己獨有的特徵 1、stu1=LuffyStudent()呼叫報錯 1、程式碼 class LuffyStudent: school='luffycity' #

面向物件【老師版】多型與多型性十三

一、多型 多型指的是一類事物有多種形態,比如 1、動物有多種形態:人,狗,豬 import abc class Animal(metaclass=abc.ABCMeta): #同一類事物:動物 @abc.abstractmethod def talk(self):