1. 程式人生 > >今天看論文

今天看論文

muc 創新 長度 這一 機器學習 復雜度 owb 今天 核函數

# 實體關系抽取算法研究
信息抽取的分支
非結構化數據->(半)結構化數據
評測:
- 消息理解會議MUC
- 自動內容抽取ACE
- 文本會議分析TAC

TAC-KBP-ESF:關於人物的25種關系屬性,關於組織機構的16種關系屬性
半監督的關系抽取算法:bootstrapping算法

創新點:
1. 觸發詞特征 觸發力
2. 關系模式的表達方法:語義最短依存路徑模式
3. 相似性測度:自底向上的核函數測度
4. 語義約束的bootstrapping模型的構建

## 第一章 緒論
### 1.1 課題研究背景以及意義
#### 1.1.1 課題研究背景
信息檢索IR->信息抽取IE
IE:通過nlp和ml等技術將 **非結構化數據->結構化數據**

** Entity Relation Extraction (ERE) 實體關系抽取** 是IE領域的重要分支:從自然語言文本中尋找並判定實體對(entity pair之間存在的特定關系。

#### 1.1.2 課題研究的意義
1. 知識庫的自動構建
WordNet Freebase
2. 智能信息檢索
3. 對問答系統的技術支持
### 1.2 課題研究現狀
#### 1.2.1 面向結構化/非結構化文本的實體關系抽取
- xml
- 自由文本:語義分析 語義理解
#### 1.2.2 基於規則/機器學習的實體關系抽取
- 有監督:分類問題
- 基於特征向量:關系->特征向量->訓練分類器
- 基於核函數:數據組織形式(實體關系)->用核函數表示關系之間的相似度
- 半監督:基於部分標註的樣本,實現對數據的關系的自動抽取。常用的有bootstrapping。(本文基於bootstrapping)
- 無監督:剛剛起步
### 1.3 論文的主要工作和研究成果
開放式 封閉式 的自動關系抽取:熱點都是半監督的關系抽取
重點是:基於bootstrapping的改進與融合,以及語義約束的bootstrapping
## 第二章 關系抽取算法
IE的三大任務:命名實體識別,關系抽取,事件抽取
### 2.1 關系抽取基礎
#### 2.1.1 實體
- 命名實體 Names Enity NE:USA China Gates
- 代詞實體 Pronoun Enity PE:we he
- 名詞性實體 Nominal Entity NoE:the man the city

實體 ~= 命名實體
命名實體識別:文本->標註額實體的文本
常用的命名實體識別方法有:HMM,CMM,MEM,CRF

#### 2.1.2 實體關系
- 二元實體關系
- 多元實體關系
- 明確關系抽取:通常指的是這一種
- 隱含關系抽取

本文:二元明顯關系抽取
### 2.2 關系抽取算法
現在都用ml了
#### 2.2.1 基於機器學習關系抽取算法一般流程
學習-預測
訓練樣本-測試樣本
1. 預處理 得到純文本格式
2. 文本分析 對文本的表示和特征的選取 對文本進行抽象 (命名實體識別,句法分析,依存分析) 本文用依存樹的特征
3. 關系表達 relation representation
4. 關系抽取模型:分類模型

#### 2.2.2 有監督的關系抽取算法
1. 抽取文本中所有的entity pair
2. 構造為候選關系實例
3. ml方法訓練分類模型
```分類系統:fR
R代表關系
輸入:句子 (包含(e1,e2))的特征
輸出: 1:有關
-1:無關
```
***
- 基於特征向量的關系抽取算法
句子->特征->特征向量->訓練分類器

句法特征:實體及其類型 實體間詞序列及其長度 兩個實體的句法樹路徑
語義特征:兩個實體的依存路徑

大多數使用:svm,最大熵模型,條件隨機場
**特征的選擇是ml算法的關鍵問題**
- 基於核函數的關系抽取算法
用核函數計算關系實例之間的距離
缺點:
1. 需要人工標註樣本
2. 難以擴展到多元關系的抽取中
3. 計算復雜度較高
4. 會產生積累誤差
#### 2.2.3 無監督的關系抽取算法
#### 2.2.4 半監督的關系抽取算法
- bootstrapping
也叫自擴展技術
**種子**
構建種子集->訓練一個指導性分類器(SVM)->對未標註數據進行預測->找到最可靠的N個實例加入到種子集中->重復
典型模型:snowball
- 協同訓練方法
- 標註傳播方法
### 2.3 關系抽取算法常用工具及數據集
#### 2.3.1 關系抽取算法常用數據集
- MUC關系抽取任務數據集
- ACE關系抽取任務數據集
- TAC-KBP數據集
ESF任務:抽取關於PER的25種屬性和ORG的16種屬性
#### 2.3.2 關系抽取算法常用工具
文本分析工具:
- Stanford CoreNLP:對自然語言文本的文本分析,詞性還原,詞性標註,命名實體標註,共指消解,句法分析,依存分析
- 自然語言工具包 Natural Language Toolkit, NLTK:基於python,中文分詞,詞形還原,文本分類
- OpenCCG:java
### 2.4 關系抽取算法評測標準
IR和IE的三項基本評價指標:precision, recall, F measure
- Precision
- Recall
- F measure:綜合考慮Precision和Recall
f=(2PR)/(P+R)
**f接近1比較好**

今天看論文