1. 程式人生 > >基於裁判文書與犯罪案例文字挖掘專案

基於裁判文書與犯罪案例文字挖掘專案

LawCrimeMining

Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基於領域語料庫構建與NLP方法的裁判文書與犯罪案例文字挖掘專案
專案地址:https://github.com/liuhuanyong/LawCrimeMining

專案介紹

正邪不兩立,法律與犯罪水火不容,隨著我國法制建設不斷健全,法規日趨完善,人們的法律意識也越來越強.當前,隨著越來越多的法律文字公開,為犯罪案件審理這個方面的挖掘積累了大量的文字內容.因此,通過收集法律與犯罪領域文字,構建起司法領域語料庫,並使用自然語言處理技術進行挖掘,具有重要意義,我們將其稱為法律智慧,引用smp2018司法論壇的發言來說,法律智慧包括以下幾個應用點:

  1. 面向案例文書的判決預測:根據案件的案情描述,預測最終的判決結果。
  2. 拓撲結構預測的判決預測:通過法官的判案邏輯找到子任務之間的依賴關係。
  3. 引入區分性屬性的罪名預測,包括低頻罪名、混淆罪名的相應預測:通過引入顯式的屬性,能對低頻罪名進行基於屬性的判斷,對混淆罪名進行區分;此外還能採用多工學習及注意力機制訓練基於屬性的罪名預測模型。
  4. 基於層次結構的案由預測:通過刑事案由(罪名)和民事案由的層次結構,結合案由本身的文字資訊,採用序列預測及基於案由名稱的注意力機制,訓練相應模型。
  5. 基於法律閱讀理解的判決預測:由於在民事案件中判決結果需要結合原告的具體訴求,可以建立基於閱讀理解機制,模仿「人帶著問題找答案」的閱讀理解行為進行案件判決的預測。

專案結構

本專案由兩個部分組成:
1)司法領域語料庫的構建,這個部分細分為兩個子庫,一個是法律裁判文書,另一個是犯罪案例
2)基於司法領域語料庫的挖掘, 嘗試進行以下實驗:
a) 刑事與民事案件分類
b) 案件語義區域識別
c) 犯罪事實與量刑結果二元抽取
d) 基於犯罪案例的判決預測

指令碼結構

1)script_spider:
anliwang_spider.py:案例館語料採集,案例館中主要有各種案例,用於構建犯罪案例語料庫
sifafwang_spider.py:司法考試網語料採集,該網站中有各類案例,用於構建犯罪案例語料庫
courtlaw_spider.py:最高人民法院裁判文書採集,用於構建裁判文書語料庫
lawlib_spider.py: 法律圖書館網站裁判文書採集,用於構建裁判文書語料庫
2) corpus_lawsuit:
裁判文書語料庫的1000個文字樣例,執行採集指令碼後,可得到108545,量級為十萬的裁判文書
3) corpus_crime:
犯罪案例語料庫的1000個文字樣例,指定採集指令碼後,可得到63451, 量級為6萬的犯罪案例

基於刑法的因果字典抽取

根據中國人民刑法,對其進行因果處理,形成crime_nanme, cause, crime三個欄位的抽取,形成量刑的基礎,示例如下:

{
'crime_name': ['故意傷害罪', '組織出賣人體器官罪'],
'cause': ['故意傷害他人身體的'],
'crime': '三年以下有期徒刑、拘役或者管制'
}
{
'crime_name': ['故意傷害罪', '組織出賣人體器官罪'], 
'cause': ['致人死亡或者以特別殘忍手段致人重傷造成嚴重殘疾的'], 
'crime': '十年以上有期徒刑、無期徒刑或者死刑'
}
{
'crime_name': ['過失致人重傷罪'],
'cause': ['過失傷害他人致人重傷的'],
'crime': '三年以下有期徒刑或者拘役'
}
{
'crime_name': ['強姦罪'], 
'cause': ['以暴力、脅迫或者其他手段強姦婦女的'],
'crime': '三年以上十年以下有期徒刑'
}
{
'crime_name': ['強制猥褻、侮辱罪、猥褻兒童罪'],
'cause': ['以暴力、脅迫或者其他方法強制猥褻他人或者侮辱婦女的'], 
'crime': '五年以下有期徒刑或者拘役'
}
{
'crime_name': ['非法拘禁罪'], 
'cause': ['非法拘禁他人或者以其他方法非法剝奪他人人身自由的'], 
'crime': '三年以下有期徒刑、拘役、管制或者剝奪政治權利'
}
{
'crime_name': ['非法拘禁罪'], 
'cause': ['致人死亡的'], 
'crime': '十年以上有期徒刑'
}

to be continued…

專案地址:https://github.com/liuhuanyong/LawCrimeMining
If any question about the project or me ,see https://liuhuanyong.github.io/