1. 程式人生 > 實用技巧 >FreeDOM —— 一個可遷移的網頁資訊抽取模型

FreeDOM —— 一個可遷移的網頁資訊抽取模型

⬆⬆⬆ 點選藍字

關注我們

AI TIME歡迎每一位AI愛好者的加入!

在網頁中抽取結構化資訊是一種非常重要的知識獲取(Knowledge Discvoery)方式。為了構建一個領域的知識圖譜,往往需要從涉及這個領域的眾多網站中抽取結構化資訊,從而促進知識庫的補全和擴充套件。然而,每個網站都有不同的結構和對應的抽取規則(wrapper),如果用人力來編寫每個網頁獨自使用的規則,那麼效率會大打折扣。為此,提出了一個可遷移的資訊抽取模型,FreeDOM。它可以只用很少的初始標註網站資料,自動擴充套件到同領域的其他網站。該模型在公開資料集SWDE上得到了最優的效果且不需要渲染網頁得到的視覺特徵,更加輕便。

林禹臣,美國南加州大學(USC)計算機系三年級博士生,導師為Xiang Ren教授。研究方向為自然語言處理與人工智慧方向的應用。專注在資訊抽取(Information Extraction)、常識推理 (Commonsense Reasoning)、符號-神經計算 (Neuro-Symbolic Computation)等方向。已在ACL, EMNLP, KDD, WWW 等會議上發表多篇論文。

一、引言

講者以汽車為例,介紹了此項工作面向的應用場景。在每一個domain(關於汽車、電影、圖書等),有很多的entities(比如某個型號的汽車),在一個domain中往往有很多網站介紹不同的entity。針對在網頁文件中進行資訊抽取

,講者限定了模型的輸入:detail page, 即關於某一個entity的具體頁面,比如:關於某一部電影的詳細頁面或者是關於某一具體型號汽車的詳細介紹等;輸出為:期望得到相關型別的結構化資訊,比如:汽車型號、價格、引擎以及燃油資訊構成的一條data record extraction。

網頁文件中進行資訊抽取的應用有哪些呢?它可用於構建某一行業或某一個具體領域的知識圖譜,或應用於問答系統、推薦系統中。

圖1. 網頁中的資訊抽取

假想:在一個具體的,不同的entity的detail page具有相似的結構。當只有三五個感興趣的網站需要抽取時,可以1):針對每一個website進行基於規則的matching program,常見的有wrapper方法;或者2):通過人工標註,進行有監督的模型學習。這兩種方法的缺點在於:泛化性低,只能應用在已標註或編寫規則的網站中。那麼,當有成百上千未標註的websites,上述方法就過於昂貴、需要大量的人工。因此,此項研究的核心問題在於:如何學習到一個可遷移的資訊抽取模型?從而只用少量的網站標註進行學習,從而擴充套件到大量的未標註的網站。

圖2. 可遷移資訊抽取模型的必要性

二、問題描述

應用場景例子:假如想要構建一個關於課程資訊(course)的知識庫,課程資訊來源於不同學校的網站,每個網站具有不同的結構。期望抽取的資訊包括有:Name, Course Number, Instructor, Time, Location, Email, Textbook, Description等。希望採用很少個初始帶標籤的網站資訊(如MIT, Harvard, USC)去訓練一個可遷移的抽取模型,但該模型可被應用在訓練過程中沒有見過的網站(如圖中的Univ 1,2,3,…)上(這些網站包含了所期望抽取的資訊,但具有不同的網頁結構)。當有了這樣一個可遷移的抽取模型之後,通過後處理就可以構建一個課程知識庫了。(類似的應用場景可以擴充套件到比如建立一個關於人工智慧的學者主頁資訊的知識圖譜構建上)。

圖3.關於網頁中資訊抽取問題的描述

如何表徵一個網頁?一是基於網頁渲染(rendering)的方法,通過下載外部的檔案包括,CSS,JS以及圖片等帶有樣式的文字去渲染網頁,但耗費更多的計算資源;二是直接使用HTML程式碼,但資訊的structure沒有表現出來。提出一種半結構化的資料結構即DOM Tree,既有structure資訊,且每一個node資訊較容易得到,因此任何一個網頁可由樹特徵表徵節點間的層級結構。基於DOM Tree,可將資訊抽取任務轉化為node classification,也就是判斷每一個node中是否包含想得到的資訊以及哪種型別的資訊。None表示不包含任何想要的資料。

圖4.網頁資訊的幾種結構形式

三、模型構建

提出FreeDOM模型,包括兩個階段:第一階段:基於DOM Tree學習每一個node的local feature;但只用了node的區域性資訊,不包括與鄰居node間的結構資訊,因此提出第二階段,以掌握node之間互相依賴關係,比如當一個node為引擎資訊時,另一個相鄰節點為燃料資訊,這樣的一個pattern。在應用階段,可直接採用unsee的網頁進行測試得到最終的結構化資料。

圖4. FreeDOM的概覽圖

類似於supervise-learning的方法,提取一些node的feature。主要由三部分組成:node本身的文字(Element of …);node之前的文字,稱為preceding tokens(Textbook);基於node的一些離散資訊(比如,node的型別;是否包含url;是否包含數字等)。為獲得node的feature,經過word embedding table以及character embedding table雙路編碼sentences以及preceding tokens,以對整個文字資訊建模並得到vectors;對於離散的資訊經過trainable embedding,可由pooling得到feature vectors;最後concatenate三者的feature vectors作為整個node的表徵,再由MLP進行分類,其中None表示該node不包含所需的資料。講者解釋為什麼選擇用基於character的embedding? 主要是因為對於課程編號、時間、地點這些本身具有很少字的資訊,採用word embedding得到的資訊非常少。

圖5. 模型第一階段演算法結構圖

然而,僅僅使用local的node表徵帶來了一些問題,一是:具有迷惑性的local features。比如下圖所示,兩次出現Time,緊鄰Instructor 的Time更可能表示為課程的上課時間;緊鄰TA Office的Time更可能表示為教室開放的時間。二是:缺失類似於Textbook這樣的詞。在訓練中會發現類似的網頁結構,即Time 和Location往往會挨在一起,Textbook總是出現在Overview或者Description的下面。因此,可通過加強這種猜測,學習一些node之間的dependency,以更好的做決策。

圖6. 僅適用local node表徵帶來的問題

為解決上述問題,作者團隊提出了通過pair-wise modeling建模節點間的dependency。該思路是指通過編碼每一對node-pair,並學習其關係型別Value-Value,Value-None,None-Value,None-None,來判斷給定node pair是否為Value-Value。具體地,node pair的representation也是由三部分組成:模型第一階段學習到的node表徵;node的HTML Tag的embedding,即XPath的sequence;以及node的position,可從標籤body開始往下數。同樣地,concatenate三者的feature vectors作為給定relational node-pair features。由Classification model 判斷node-pair的關係型別,同時可結合第一階段得分,刪除第一階段中False Positive的節點。因此,第二階段演算法的提出,可保證分類結果既結合節點的local features,也結合鄰居節點的prediction score。

圖7. 模型第二階段演算法結構圖

在具體應用中,主要存在以下3個問題:

(1)網頁中有很多nodes,如何做簡化?

可以定義一個variable nodes,即只關注不同頁面裡具有不同資料的節點。

(2)依舊存在大量的node-pairs?

基於第一階段分類結果的confidence,可以選擇排名前m個節點做classification。

(3)對網站做具體的constrains?

根據網站固定的layout,採用多數投票的方式排除outlier predictions。

圖8. 模型處理前後的tricks

四、實驗結果

採用SWDE資料集進行實驗,其包含有8個不同的領域,每個領域有10個不同的網站,且有4~5個data fields。講者選擇K個websites 作為training data,選擇10-K個websites 作為testing data,同時給定K 選擇10種不同組合情況,最終取10種不同實驗的平均值。

圖8. SWDE資料集的統計結果

講者採用FreeDOM模型的兩個變種與baseline methods進行對比,其中只考慮第一階段模型FreeDOM-Node Labeling的效果與Render-Full相近;而兩階段都採用時的模型FreeDOM-Full出現了明顯的提升。

圖9. 在SWDE資料集上的實驗結果

進一步,通過Ablation Study的實驗,說明FreeDOM模型較傳統的序列化模型具有顯著的優勢。當discrete features在某些領域不適用時,講者對不採用discrete features的模型進行實驗,也達到了不錯的效果。

圖10. 基於FreeDOM模型進行的ablation study

五、總結與展望

講者介紹了一種新型的基於神經網路的模型,即可遷移的資訊抽取模型,可在網頁中實現資訊抽取任務,該方法沒有使用渲染過程,直接使用DOM Tree結構做pairwise modeling,在SWDE資料集上也達到了最優的效果。

同時講者介紹了未來工作的方向:(1)在開放領域進行資訊抽取;(2)考慮學習一種self-training 得到HTML documents 的表徵。

圖11. 總結與展望

整理:劉美珍

審稿:林禹臣

排版:田雨晴

AI Time歡迎AI領域學者投稿,期待大家剖析學科歷史發展和前沿技術。針對熱門話題,我們將邀請專家一起論道。同時,我們也長期招募優質的撰稿人,頂級的平臺需要頂級的你,請將簡歷等資訊發至[email protected]

微信聯絡:AITIME_HY

AI Time是清華大學計算機系一群關注人工智慧發展,並有思想情懷的青年學者們創辦的圈子,旨在發揚科學思辨精神,邀請各界人士對人工智慧理論、演算法、場景、應用的本質問題進行探索,加強思想碰撞,打造一個知識分享的聚集地。

更多資訊請掃碼關注

(點選“閱讀原文”下載本次報告ppt)

(直播回放:https://www.bilibili.com/video/BV1Jk4y117ff)