1. 程式人生 > >阿里來了位技術新童鞋,一秒K.O八位律師

阿里來了位技術新童鞋,一秒K.O八位律師

阿里妹導讀:批改作文、同聲翻譯、製作海報……人工智慧技術已經越來越多地運用在我們的日常生活中。而在法務領域,除了國外LawGeex在多個法務領域的應用外,目前在國內暫無成熟運作產品。

最近,阿里巴巴資訊平臺企業資料智慧部的工程師們,悄悄解鎖了這項成就。下面我們一起來看看。

AI與法務,會擦出怎樣的火花?

日前在阿里巴巴內部,進行了這樣一場特殊的“比賽”。600份線上協議,8位專業律師用了一週時間完成稽核,而人工智慧僅用時1秒,並且在這600份協議中,標記出的問題準確率達到100%。

這是阿里巴巴資訊平臺企業資料智慧部的工程師們,自主研發的智慧合同診斷系統,用AI代替法務進行網際網路線上協議的稽核工作。究竟AI在法務領域如何運用?背後有哪些技術原理?以下是我們給出的解決方案。

背景

網際網路背景下的消費者權益保護成為大眾關注的新焦點。這其中就包括了客戶服務協議、使用者隱私協議等消費者與運營商簽署的網際網路線上協議問題。阿里巴巴因為業務線眾多,對於此類協議的審查與更新工作更是一項龐大工程。

目前人工稽核一份線上協議的平均時長在30分鐘左右,並且由於文字量大、規則多,人工檢查不可能100%覆蓋,人工稽核標準不夠統一。有沒有可能讓AI來代替法務進行稽核工作?在這樣的背景下,智慧合同診斷系統上線了。

這套智慧合同診斷系統主要做兩件事,一是判斷出不該出現的內容(如:違反法律法規的違禁詞、侵犯消費者許可權的條款、模糊表述等);二是判斷哪些是原本應該出現的內容,並給出修改建議或推薦用詞。

智慧合同診斷系統檢查出風險點,並給出推薦表述

看似簡單,但實際在系統學習過程中卻困難重重:

1、法律語言表達和自然語言的差異性

目前普遍在做的NLP應用,大部分是基於自然語言進行處理。例如社交網路語言,更加接近人們對話的用語表達。而法律用語和自然語言用語之間存在較大差異,法律語言通常有其特定領域的表達規範和邏輯,和我們通常的自然語言表述有較大差異。這就導致了現有的研究成果無法直接應用於法務領域,需要做特定領域的遷移。

2、技術和業務場景的鴻溝

如果不具備法務法律領域相關知識基礎,有好的NLP技術也不一定能在法務領域落地。能夠將法務領域需求抽象並和技術相結合,具有很大挑戰,需要跨領域人才和多領域人才密切配合。

3、標註資料的稀缺性

在法務領域,資料十分稀缺,而且往往涉及到敏感資訊和商業機密,導致了資料無法共享。有些場景僅有少量標註資料。

4、較高的準確性要求

法務領域對演算法指標要求較高,特別有些場景對演算法的召回率有嚴格要求,因為一旦漏掉關鍵資訊有可能造成較大的法律風險;此外,法務很多場景對演算法可解釋性要求較高,因此演算法不但要知其然還要知其所以然。

解決方案

在搭建系統時,第一步就是針對法務領域建立行業詞庫和知識圖譜。

只有首先教會系統理解法律術語,而不是自然語言,接下來才能更好訓練系統去理解法律概念。基於阿里巴巴大量的線上協議、合同、訴訟等各種法律文書,採用大規模無監督的短語挖掘方法 Phrase Mining[1,2] 能自動從文書中提取出行業關聯度較強的短語,例如:“包括但不限於”、“授權委託書”、“過失侵權行為”等;

同時,法務專家會根據特定業務場景梳理出業務規則,比如在線上協議領域,就標註出一份禁止用語清單,以及出現相關禁用語的對應推薦詞可供機器學習。比如:“一經公告、立即生效”的推薦表述為“公告之後的7日後生效”等。針對大量這些法務規則輸入,從技術角度解析為知識圖譜上的點,變為計算機可以處理的格式。

詞的向量表示

基於大規模訓練的通用詞向量幾乎對所有NLP任務都有顯著幫助。而針對法務領域而言,由於有其特定的領域特性,我們在通用的詞向量基礎上,加入了大量法務領域文書的語料,使得學習到的詞向量在法務領域表現更為突出。

普通的詞向量模型大多采用 Word2Vec 或者 GloVe 訓練得到,最近的一項研究[3]發現基於 context 的詞向量 ELMo 能夠進一步提升幫助多個NLP 任務。

基於context的詞向量本質是語言模型的詞向量,詞向量不僅僅是詞本身的函式,也同時是句子裡面其他詞以及序列位置的函式。在法務領域中我們也嘗試了ELMo 語言模型得到詞向量,提升了模型效能。

冷啟動和快速樣本標註

標註資料一直是機器學習問題最重要的要素之一,只有擁有了大量標註資料才能訓練得到比較好的模型。然而在法務領域,標註資料的獲取是非常昂貴的,需要具備法律專業的人士進行標註。

為了取得效率和成本的權衡,我們首先基於專家輸入的規則和知識圖譜,構建了基於規則系統的自動標註服務,能夠對存量資料進行自動打標。另一方面,可以替換關鍵詞,自動生成標註資料。例如:“一經公告、立即生效”,可以將“立即”替換為“立刻”、“立馬”、“即刻”等,通過這種方式可以生成大量的標註資料。

主動學習。規則畢竟是有限的,雖然可以解決一部分問題,但是無法解決模型的泛化能力,最終還是需要依賴一部分人工標註。為了減少人工標註成本,可以採用主動學習方法。每次僅需要人工標註最不確定的那些少量樣本就可以很大程度提升模型的效能。

多模型組合

文字分類技術也經歷了從傳統基於規則、人工特徵到目前基於深度學習的技術演變過程。目前比較流行的技術方案是基於RNN的序列模型、基於CNN的模型,以及在此基礎上演化而來的各種變種,比如結合注意力(attention)機制,用預訓練的詞嵌入(Word Embedding)等方法。

在法務垂直領域中,我們利用 ELMo 構建了領域特性的詞向量作為模型的輸入,針對線上協議審查這一具體問題設計了一種結合CNN和RNN的深度神經網路:C-GRU模型。不僅充分捕捉了核心詞與周圍詞的關係,也解決了長句依賴問題。

深度學習模型雖然能較好解決違規表述的分類問題,但是由於模型對於使用者而言是黑盒,可解釋性差。線上協議智慧稽核不僅要找到違規的條款表述,還需要定位到具體哪些詞語引起的,以及需要改成什麼樣的才是推薦的表述。

因此我們的最終方案採取深度學習模型負責高召回,將所有可能產生違規表述的條款檢測出來。然後採用句法分析和規則方法對條款進行解析,定位到具體違規表述的位置和推薦表達。這種方案的優點是利用深度學習提高召回率,用規則進行精確定位。

目前線上協議AI診斷系統除了極大提升協議稽核效率,實現秒級稽核速度,平均準確率在94%以上,每年相當於節省130人日的工作量。

未來規劃

近年來,以深度學習和自然語言處理為代表的人工智慧技術取得巨大突破,也開始在法律智慧領域嶄露頭角,受到學術界和產業界的廣泛關注。智慧合同診斷只是我們在智慧法務領域的第一步探索,除此之外,更多在合同、訴訟文書以及裁決文書上的工作正在進行中。

在技術上,我們進一步和阿里巴巴機器智慧技術(MIT) 合作共建,加強在行業知識圖譜構建、機器閱讀理解以及資訊抽取技術在法律領域應用的研究與探索。沉澱法律領域基礎資料資源,構建領域特點的自然語言處理平臺,共同服務於多樣化的法律業務中。

除了自然語言處理技術之外,我們還會在音視訊技術上加大投入,如影象識別,光學字元識別(OCR)、手寫字元識別、ASR等。用於處理不同型別的法律材料,解決自然語言處理上游多源資訊輸入問題。我們的最終目標是構建全鏈路全能力的法務AI能力。

相信法務AI能力的建設和完善能夠服務於廣大普通使用者、律師、法院等法律行業從業者。

阿里巴巴資訊平臺事業部-企業資料智慧團隊,集資料,演算法,產品為一體,擁有文字,運籌,視覺等多類別AI能力,通過發掘資料內在價值,提升企業智慧化管理水平。

團隊成員曾活躍於TREC QA Track,LFW(Labeled Faces in the Wild),ACM/ICPC等各大賽事,博士佔比25%。

歡迎更多勇於挑戰的演算法牛人加入我們,一起發現數據之美,構建企業大腦。

點選文末“閱讀原文”,即可檢視招聘崗位具體資訊,投遞簡歷。

參考文獻:

[1] El-Kishky et al., 2014, Scalable Topical PhraseMining from Text Corpora

[2] Liu et al., 2015, Mining Quality Phrases from MassiveText Corpora

[3] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer. DEEP CONTEXTUALIZEDWORD REPRESENTATIONS. ICLR'18

你可能還喜歡

點選下方圖片即可閱讀

關注「阿里技術」

把握前沿技術脈搏