1. 程式人生 > >法狗狗人工智慧技術總監龐雨穠:文字智慧的演進 | 2018FMI人工智慧與大資料高峰論壇(深圳站)

法狗狗人工智慧技術總監龐雨穠:文字智慧的演進 | 2018FMI人工智慧與大資料高峰論壇(深圳站)

10月28日FMI-2018人工智慧與大資料高峰論壇深圳場圓滿落幕,法狗狗人工智慧技術總監龐雨穠以文字智慧的演進為主題進行了精彩的分享。

 

法狗狗人工智慧技術總監 龐雨穠

 

以下是龐雨穠演講內容,飛馬網根據現場速記進行了不改變原意的編輯(有刪減):

 

龐雨穠:非常高興今天能跟大家分享關於法狗狗的工作。法狗狗主要是專注於泛法領域的科技,包括文書的分析、智慧法律諮詢問答機器人等。

 

有人問,到底怎麼樣才能實現司法的公平與公正?或者是到底怎麼使用資訊科技才能促進社會的公平公正?法狗狗從成立第一天開始一直在思考這個問題。

 

隨著審判檔案的公開,所有案件的儲存形式都以自然語言文字的形式儲存在網路上的,使得處理難度非常大。雖然案件公開、政務公開,但資訊處理的效率並沒有得到提升,如何利用這些資訊幫助審判或者瞭解案件的真實情況成為一大難題。包括現在的工商資訊、工商登記的資訊,雖然公佈在網上,但是如何快速對它進行檢索,都是問題。這種難以處理的文件我們都叫非結構化的文件。

 

像資料庫、excel,這些平時用的都是結構化文件。結構化文件中的每個維度,比如說這裡面的年齡、姓名每個維度都特別清晰的定義出來。HTML、XML這些語言,也都是結構化的語言。除了這些語言,包括金融文字的資料,大部分的儲存的形式,像財報或者視訊、錄影,很難直接用計算機對它進行處理。

 

搜尋

 

怎麼用AI的方法智慧處理這些文件,最開始容易想到的方法是搜尋,把這些文件放到搜尋引擎裡面,然後去做一個快速的檢索。搜尋引擎是非常快速、有用的方法,能夠快速在非結構化文件裡面找到你想要的資訊。怎麼做到搜尋?首先待檢索的文件要放到搜尋引擎裡面,通過建立索引,把檔案放到資料庫,下次再問這個問題就可以把這個問題同樣做分詞,並且找到相關的文件;最關鍵的是排序,通過對於關鍵詞的排列和其他維度的資訊來最後確定文件的評分,最後進行排序。

 

搜尋引擎的問題也很多,搜尋引擎的形式是完全忠實於使用者的搜尋,難以解決各種歧義的問題。還有最麻煩的一點是口語化表達,比如炒雞好吃,炒雞這個詞是超級的意思,但是它是口語化的表達。所以到底什麼演算法或者什麼形式可以解決俚語表達呢?再比如我們做法律諮詢的時候經常遇到農民工或者受教育水平不高的人,他們腦中對於某個概念缺乏最基本的認識的時候,他們很難很容易地表達他想要的東西,只能不斷地描述周邊的資訊來表達意圖。這些都是使用傳統搜尋引擎技術無法解決的問題。

 

機器閱讀理解模型

 

我們怎麼樣克服或者解決剛才的兩個問題?這裡面比較前沿或者比較通用的方法叫做“機器閱讀理解”。顧名思義,讓機器去做閱讀理解的題。它的形式是你有一段文字還有一個問題,你要從這個文本里面找到想要的答案。閱讀理解的概念的提出是由斯坦福的資料集建立以後流行起來的,這個資料集裡的資料形式和右邊的資料形式是一樣的,包含了10萬Q&A、Text、question、Answer。現在很多公司針對資料集構建很多模型來攻克問題。在一定程度上用機器閱讀的模型拓展機器對於查詢或者是問題的理解能力,同時它具有一定的推理能力,意味著可能沒有說得很清楚,但是一樣能從裡面找到相關的答案。這就是機器閱讀理解模型。

 

機器閱讀理解模型的技術可以做什麼事?舉兩個專案例子,一個是我們2017年做的法律文獻閱讀器,法律文獻非常生澀難懂,但可以用剛才的模型去訓練法律方面的文獻。比如微信的聊天記錄算不算加班證據?這可能是勞動方面的問題,它會告訴你,錄音、聊天記錄等都可以作為加班的證據,所以下次你們加班的時候,聊天記錄千萬不要刪。這是根據閱讀理解模型做的事情。二是Google books的專案,你可以在谷歌books裡詢問關於某本書的問題,比如白雪公主的媽媽是誰?這種問題就可以快速從相關的書籍裡面找到相關的證據,還有重點能回答他的段落。這些都是機器閱讀模型能完成的事情。

 

 

機器閱讀模型的壞處

 

壞處是比較慢。

現在你很難用自己的方法做一個查詢。同時每個模型都需要做非常巨大的預運算的運算量,比如谷歌的BERT模型花了64個TPU、花了4天時間。比如有開礦廠,挖礦的朋友,他們有大量的GPU,但他去跑這個模型至少要跑2個月。所以你要製作某個領域或者解決大批量文字問題的時候,它就需要很大預運算量的時間,同時也無法完全地使用索引技術來對檢索進行加速。

但是它還是有很多可以優化的方法,包括做預分類等。

 

資訊抽取

 

剛才提到的兩種方法,一個是搜尋、一個是機器閱讀理解。這兩種方法的作用都是將演算法直接作用於非結構化的文字上,但是有的人會問為什麼非結構化文字這麼難,轉化為結構化文字問題不就解決了嗎?資訊抽取就做這個事情,主要的任務就是將非結構化的資料轉化為結構化的資料,相當於對結構化的每個維度有針對性做模型或者是解析器,這個精確度的要求會比較高一些。一旦文件被結構化成圖譜或者表格之後,就可以對它做快速的分析。

 

文字生成對話

 

把文件進行搜尋、檢索,又能夠把它結構化,那麼有沒有可能把這個文件放到一個機器裡,讓機器去分析,能夠讓用更自然的方式進行互動呢?

 

這種用文字直接生成對話,也就是我們常見的對話機器人。

這個對話機器人把之前的幾種資料,包括結構化的資料還有書籍的資料,預測的東西全都放到對話系統裡面,通過對話的中控管理中心來管理這一系列的對話的上下文。這樣子就可以通過很自然的語言對話方式,去了解關於法律方面的東西。為什麼選擇文字對話的方式呢?其實法律這個東西更多是讓每個人使用,假如你使用很難懂或者很高階的方法,普通人很難接觸到這個東西。包括我們的系統也會對接到語音或者是電話這種平臺,他們都直接打個電話過去就能夠獲得一些法律上面的幫助。雖然看起來大家都接觸過這種客服機器人,但是對普通老百姓,真正有一個東西理解他們的話,能告訴他們怎麼做,能夠怎麼起訴或者怎麼寫這種起訴書的東西,他們其實還是非常喜歡的。

 

推動文字智慧的工具

 

但我們應該如何使用從非結構化到結構化的轉換?

 

最簡單的方法是通過正則表示式

正則表示式是處理字元級的問題,包括你要提取數字或者是做一些簡單模式的匹配,這都是用正則表示式。更復雜的任務卻很難用正則表示式實現。

 

現在有一種語義表示式

語義是把字元級操作符升級到語義級。語義級的表示式的結合更多是通過機器學習或者機器學習和規則共同結合起來才能去構建。包括主語,要提取出這個東西的主語,我們就可以在這裡面用句話分析,我們可以快速的提取出來主語來。

 

第三種機器學習

機器學習的基本任務,包括文字分類,要把這個東西分類為新聞還是金融方面的新聞都可以通過這種方法做到。還有其他機器學習的演算法,他們都能夠做這個事情。

 

大資料背景下的文字處理工具

 

文字分類的運算元可能是一個由簡單表示式的東西,運算量非常小,不需要擴充套件它。但如果是類似於CRF,它是用於提取句子裡面實體的演算法,這種演算法非常耗時,在計算的時候可能要對它進行橫向的擴張。我們提出的SEE(Scalable Expression Engineering)架構就是為了解決運算元間運算量的不平衡產生的無法快速擴充套件的問題。最後我們將文字抽取的任務中的每一個模組都會封裝成可被重複呼叫的模組,也可以通過圖形化拖拽和連線的形式進行連線,這樣將每個文字處理的演算法都可以快速分解,並且組合成一個更靈活的文字處理演算法。

 

文字理解的演進

 

很多人說影象演算法非常複雜,但其實對於某些任務來說,處理文字的任務會更復雜一些,為什麼呢?

 

因為影象的很多工都是資訊完全的任務,比如從圖片裡面找出一張人臉,所有的資訊都在圖中。但文字的任務,很多時候是作為資訊不完全問題,很容易碰到這種問題。例如“法狗狗是專注於泛法律領域的文字分析技術公司”,在計算機裡面表示就是A is B,但我問“法狗狗的成立時間是什麼時候?”這個問題雖然很簡單,但計算機卻很難回答。因為這時候我們會發現它並不是是資訊完備的問題,我們需要解決自然語言處理的問題,就需要關注知識、資料。我們就會問,這個資料或者知識到底怎麼樣引入到系統裡,我們到底怎麼樣儲存這些知識。

 

知識圖譜

 

知識圖譜是一個把每個知識點當做節點,而節點與節點之間的連線被稱為實體之間的關係的一個結構。知識圖譜的好處在於把問題實際的落實到了每個知識圖譜的點上,你可以通過點、線之間的關係來做進一步的推理。

 

知識圖譜是Ontology中的一種,是本體體系裡面很小的分支。本體體系更多描述的是你如何把一個知識對映到可以被推理、可以被檢索的空間裡面去,其中包括了知識圖譜。比如說你建立了一個音樂領域的知識圖譜,就可以去查詢關於音樂的方方面面。

 

但除了這種可以用圖狀結構很容易表示的知識結構之外,其他結構比如一維的、或者更高維的知識結構可能就不容易使用知識圖譜來進行表示。 例如空間方面的東西很難用知識圖譜表達, 又比如在一個車用場景裡面,會涉及到很多的空間資訊(例如,“方向盤的左邊是什麼按鈕”),這些很難在缺乏空間資訊的時候進行回答。所以很多做定製化的本體體系的廠商,他們會在某個場景下構建一個可以推理的知識結構模型。有的人說通用的人工智慧到底能不能出現或者通用的自然語言處理的儲存知識、儲存模型存不存在?目前來說肯定很難存在的。你需要針對每個問題、每個領域單獨的去構建它的垂直的知識體系。我們企業現在主要的工作也是在構建法律領域的本體體系,你可以通過我們的本體體系問更模糊的問題,可能你不太懂的東西也可以在法律領域做出一定的推導。

 

所以我們做的工作就是要把法律服務的成本降低。公平與正義,很多人覺得是靜態的過程,其實它更多是動態博弈的過程。這就像一場搏鬥,我手上有一把刀,你沒有,這就是不公平的決定。但法律給了每個人一把一樣的刀,拿著同樣的刀來決鬥,這才能叫做公平。我相信,通過演算法的不斷提升,本體建模的不斷完善,知識資料的不斷積累。我們必然能打造一個智慧平臺,將知識流動效率提高,同時訪問知識門檻降低。你不需要成為一個律師,不需要背誦大量的法律概念,就能通過與計算機對話獲得法律諮詢、分析、評估。同時律師、法院也可以通過資訊檢索,大大地提高工作效率。

 

所以最後到底法狗狗能為大家做什麼?我用一句話總結:社會給了我們法律的武器,但是我們需要用資訊科技來降低它的使用門檻,讓每個人都能尋找光明。謝謝!

關注公眾賬號

飛馬會

 

 

往期福利

關注飛馬會公眾號,回覆對應關鍵詞打包下載學習資料;回覆“入群”,加入飛馬網AI、大資料、專案經理學習群,和優秀的人一起成長!

 

回覆 數字“4”瞭解人工智慧,30份書單不容錯過(附電子版PDF下載)

回覆 數字“5”大資料學習資料下載,新手攻略,資料分析工具、軟體使用教程