1. 程式人生 > >平安金融壹賬通登頂中文機器閱讀理解CMRC競賽榜單

平安金融壹賬通登頂中文機器閱讀理解CMRC競賽榜單

近日,在第三屆中文機器閱讀理解評測 (The Third Evaluation Workshop on Chinese Machine Reading Comprehension, CMRC 2019)上,平安金融壹賬通旗下人工智慧研究院Gamma Lab憑藉自主研發的中文預訓練語言模型,在資格集和測試集上分別以QAC (Question Accuracy): 90.789%/PAC(Passage Accuracy): 58.2%和QAC: 90.055%/PAC: 57.6%的分數奪得CMRC2019的榜單排名冠軍。

中文機器閱讀理解評測 (The Chinese Machine Reading Comprehension, CMRC)是從2017年開始,由全國計算語言學學術會議(CCL)計劃舉辦評測活動。CMRC作為全國計算語言學學術會議(CCL)的系列評測,至今已經舉辦了三次,是中文機器閱讀理解技術最權威的競賽之一。參加此次比賽的單位分別有金融壹賬通Gamma Lab,百度,哈工大&漢儀字型檔,順豐科技,sixestate等單位組織。金融壹賬通Gamma Lab在最終測試集上QAC和PAC分別大幅領先於第二名4.064%和15.8%。說明金融壹賬通Gamma Lab的中文閱讀理解能力在行業內屬於領先地位。

機器閱讀理解不同於傳統的問答系統,無法通過規則和常識進行來直接回答問題,而是需要模型從文章上下文中尋找線索,進行前後文內容的理解,才能得到準確的答案。因此這項任務也就伴隨著對演算法能力更大的挑戰。

從2017年起,中文閱讀理解開始逐漸受到更大的關注。CMRC的競賽也與時俱進,從填空型,抽取型到現在的句子型任務層層遞進,目的是使得機器能夠更加關注文章全域性的語義資訊,而不是簡單的區域性特徵。

在2018年的BERT問世後,許多閱讀理解任務的STOA結果也被BERT重新整理了。一石激起千層浪,許多相關的語言模型也孕育而生,如BERT-WWM, ENIRE, XLNet,RoBERTa等。這些模型在訓練規模上與日俱增,用於下游任務時的訓練成本也越來越高。

本次競賽中Gamma Lab使用BERT_SCP_SPM同時從2個方向進行了優化,首先,以句子插入為輔助任務代替原來Bert的預測上下句任務。其次,使用sentencepiece來對中文進行分詞以減少文字序列長度以節約視訊記憶體和捕捉長文字資訊。最終所用的新模型以現在預訓練模型中最小的base規模即取得了最好的效能結果。

       Gamma Lab相關人員介紹到,中文機器閱讀理解可以深入運用到多個金融場景,例如智慧客服,該技術可以幫助機器在複雜的金融場景中,準確、智慧的理解客戶表達的意思,選擇最優的解決方案和回答話術。此外,中文機器閱讀理解還可以運用在金融機構後臺經營管理中,如對合同、合約等智慧化分析等。

早在今年年初,金融壹賬通就已經謀劃佈局基於機器閱讀理解技術的商業落地,其自主研發的AskBob智慧搜尋框架,使用了最先進的機器閱讀理解技術,覆蓋了醫療、銀行、保險、投資等各大金融垂直領域,為知識密集型行業提供更高效更智慧的搜尋解決方案,極大提高了從業人員的工作效率。

不僅如此, Gamma Lab還推出了一款智慧音箱——Gamma智慧銷售助手,也搭載了最新的機器閱讀理解技術, 無需任何人工干預,上傳一篇保險文件,即可進行任何問題的語音互動問答。閱讀理解模組只需秒級即可完成文件的理解,問答準確率為91.35%,平均業務時間可縮短30%。

事實上,Gamma Lab自2017年成立以來,已經斬獲國內外多項人工智慧競賽的冠軍,包括OMG國際情緒識別競賽、EmotionNet面部動作單元識別競賽、SemEval對話情緒識別競賽、斯坦福機器閱讀理解SQuAD競賽等。金融壹賬通Gamma Lab擁有超過350位科技人才,致力於研發領先的人工智慧技術。同時,金融壹賬通結合金融豐富的場景,向金融機構提供智慧解決方案,覆蓋基礎資料層、業務應用層、經營管理層,實現金融機構全流