資訊抽取和關係發現概述

阿新 • • 發佈：2019-02-09

自然語言應用

@(自然語言處理)[自然語言處理|資訊檢索]

自然語言發展歷程

50-60年代，最為人工智慧領域的應用主要是機器翻譯方面尤其是60年代。普遍採用基於原則的方法。
90年代，大規模詞典和真是語料庫的研製，基於語料庫的統計自然語言成為重要方法。[因此學習統計分析是是多麼重要啊]
過去20年，隨著網際網路的普及，為自然語言處理領域提供了強有力的應用牽引和海量的語言資源。自然語言處理和資訊檢索系統結合。統計自然語言受限於訓練集的規模，過擬合問題嚴重，推廣能力不足。
近幾年，深度學習方法，基於分佈學習的詞義和語義很好地效果。Web2.0積累了大量的User Generated Content.為自然語言提供了新的資源和技術創新的源泉。基於知識和基於統計的方法融合受到關注。

資訊抽取

系統並不要求能夠對自然語言文字進行深層理解，而是從中抽取有用資訊，作為自然語言部分理解的一種形式。在過載的資訊中，快速準確獲取資訊的技術手段。

定義

1997：從自然語言文字中抽取指定型別的實體、文字、關係和事件等事實資訊。

評測標準

MUC （message understanding conferences）
實體識別，共指消解，模板關係抽取等
ACE automatic content extraction
2009年變名為TAC ( Text analysis conference )
關係抽取，事件抽取
TAC-KBP ( Knowledge Base Population )
實體連線屬性抽取

命名實體識別

識別1. 人名 2. 機構名 3. 地名 4. 時間 5. 日期 6. 貨幣 7. 百分比

注意問題

人名地名機構名識別難度大，
上下文密切，不同而實體在不同語義下具有不同的實體型別，如：新世界

Wu EMNLP 2005

主要方法

通過分析種子實體在查詢中的上下文，利用模板找到同類別的例項。
構造向量，計算
Ref： Wang ICDM 2007

系統框架

爬取模組 --> 抽取模組 --> 排序模組

評價指標

使用MAP 進行評測

實體消歧

定義

一個實體指稱項對應多個真實世界的實體。確定一個實體指稱對應真實世界的什麼實體。

常見方法

基於聚類
基於連結

基於聚類消歧方法

同一指稱項具有近似的上下文
利用聚類演算法盡心小氣

關鍵問題

選取那些特徵対指稱項進行表示

詞袋模型

利用待消歧詞的實體周邊的詞進行構造向量
利用空間模型來計算兩種實體指稱項的相似度進行聚類
沒有考慮詞的語義資訊

語義特徵

利用SVD挖掘語義特徵

社會化網路

不同的人具有不同的社會，通過社會網路關係挖掘進行消除歧義

維基百科的知識[Han ]

利用實體上下文的維基百科條目對屍體進行向量表示
利用維基百科條目之間的相似度進行計算指稱之間的相似度（解決資料稀疏的問題）

多源異構知識[Han ACL 2010]

僅僅使用wikimadia是有限的，通過結合多種知識庫，形成語義圖進行知識挖掘。

實體消歧：評測-WePS

挑戰

消歧目標難以確定
缺乏實體的顯示錶示

基於連結的消歧

候選實體發現
- 利用wikipedia發現實體
- 利用上下文獲取縮略語候選實體
候選實體連結
類別特徵[Bunescu EACL 2006]
- 實體流行度等特徵
- 傳統的方法僅僅是計算實體指稱項圖實體的相似度，未考慮實體的背景，先驗知識等問題。
結構化資料中的實體連結 [Shen SIGKDD 2012]
社交資料中的實體連結[Shen SIGKDD 2013]

評測標準-TAC-KBP& 總結

實體連結方法主要是如何更有效挖掘實體指稱項資訊，如何更準確地計算溼體質表象和實體概念之間的相似度

實體間關係抽取

定義

自動識別由一堆概念和聯絡這對概念的關係構成的相關三元組

非結構化關係抽取

傳統關係抽取

基於特徵向量：最大熵和支援向量機
獲取有效此詞法句法語義特徵
基於核函式：淺層樹核和依存樹核最短依存樹核等等
挖掘反應語義關係的結構化資訊和計算結構化資訊之間的相似度
基於神經網路
如何設計合理的網路結構，從而捕獲更多的資訊，進而更準確地完成關係的抽取
基於卷積神經網路的關係抽取
判斷句子中實體之間的語義關係

傳統方法問題

錯誤累計
人工設計特徵
通過CNN學習文字語義特徵
不需要人工設計特徵

開放域關係抽取

模板生成–> 實體抽取 –>

1. 開放域關係抽取：從NYT中抽取FreeBase的關係類別（Zeng EMNLP 2015）
2. 基於細粒度實體型別特徵發現的弱監督關係抽取Liu Coling 2014

開放關係的發現

關係發現就是利用知識圖譜中現有的知識推斷未知的知識，就是連結預測
1. 歸納邏輯程式設計
* 符合邏輯寶石精確，表達能力強
* 但是很難在大規模語料庫上進行推廣。
2. 概率圖模型
* 馬爾科夫隨機場
* 概率軟邏輯

資訊抽取和關係發現概述

自然語言應用 @(自然語言處理)[自然語言處理|資訊檢索] 自然語言發展歷程 50-60年代，最為人工智慧領域的應用主要是機器翻譯方面尤其是60年代。普遍採用基於原則的方法。 90年代，大規模詞典和真是語料庫的研製，基於語料庫的統計自然語言成為重要方

資訊抽取——實體關係聯合抽取

目錄簡介實體關係聯合抽取 Model 1: End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures Mode

Scrapy系列教程（3）------Spider（爬蟲核心，定義連結關係和網頁資訊抽取）

Spiders Spider類定義瞭如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進連結)以及如何從網頁的內容中提取結構化資料(爬取item)。換句話說，Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。對spider

淺析深度學習在實體識別和關係抽取中的應用

實體識別作者：蒙康編輯：黃俊嘉命名實體識別1命名實體識

清華大學馮珺：基於強化學習的關係抽取和文字分類 | 實錄·PhD Talk

本文為 11 月 22 日，清華大學計算機系——馮珺博士在第 18 期 PhD Talk 中的直播分享實錄。隨著強化學習在機器人和遊戲 AI 等領域的成功，該方法也引起了越來越多的關注。本期 P

資訊熵、交叉熵與相對熵(KL散度)的關係，還介紹了聯合資訊熵和條件熵、互資訊（資訊增益）的概念

@(關於機器學習的其他)[KL散度][資訊熵][交叉熵] 1、資訊量資訊量用一個資訊所需要的編碼長度來定義,而一個資訊的編碼長度跟其出現的概率呈負相關,因為一個短編碼的代價也是巨大的,因為會放棄所有以其為字首的編碼方式,比如字母”a”用單一個

資訊抽取——關係抽取(一)

目錄簡介關於關係抽取 Pipline模型 Model 1: Relation Classification via Convolutional Deep Neural Network Mo

《Spring Cloud Netflix》 -- 服務註冊和服務發現-Eureka的常用配置

cti project ica 地址 cat 清理 class ict course 一、版本的說明 Angel版本對應Spring Boot 1.2.x，可以使用Spring Boot 1.3.x； Brixton版本對應Spring Boot 1.3.x，可以使用Spr

《Spring Cloud Netflix》-- 服務註冊和服務發現-Eureka的服務認證和集群

cluster word self. app server 同步 not eat wal 一、 Eureka的服務認證 1、服務端添加依賴 <dependency> <groupId>org.springframework.boot&

CPython解釋器的進程和線程概述

工作擁有多個進程 result nbsp 交女朋友蛋糕處理器並且必備的理論基礎： #一操作系統的作用： 1：隱藏醜陋復雜的硬件接口，提供良好的抽象接口 2：管理、調度進程，並且將多個進程對硬件的競爭變得有序 #二多道技術： 1.產

zabbix 自動註冊和自動發現

zabbixzabbix自動註冊zabbix 自動註冊功能用於在自動創建主機和配置監控後，能將服務器自動加入到監控項中，這能夠省去管理員大量手工的錄入操作。增加自定義註冊規則在客戶端agent上配置zabbix_agent.conf:HostMetadata=system.uname創建規則：定義使用元數據，

微服務架構 SpringCloud（二）Eureka（服務註冊和服務發現基礎篇）

col false -c conf gis 功能 pri desc sch 一：Eureka簡介 Eureka是Spring Cloud Netflix的一個子模塊，也是核心模塊之一。用於雲端服務發現，一個基於REST的服務，用於定位服務，以實現雲端中間層服務發現和故障轉移

python進程和線程概述

python進程：優點：同時利用多個CPU，能夠同時進行多個操作缺點；耗費資源（重新開辟內存空間）線程：優點；共享內存，IO操作時，創造並發操作缺點：搶占資源進程不是越多越好，CPU個數=進程個數線程不也不是月多越好，具體案列具體分析；請求上下文

HTML和CSS的概述

渲染網站 lan 層次結構通過元素超文本標記語言結構不能第一節.HTML相關概念常用陌生詞匯： Hyper Txwt 超文本 sheet 表格 Markup Language 標記語言 * HTML和CSS概述 W3C：（萬維網聯盟）目前Web技術領域

python 線程和進程概述

概述線程不用多線程 img 子線程 image bubuko 技術分享計算機中執行任務的最小單元：線程 IO操作利用CPU GIL，全局解釋器鎖 IO密集型：多線程(不用CPU) 計算機密集型（用CPU）進程和線程的目的：提高執行效率 1、單進程單線

Spring技術內幕：設計理念和整體架構概述

spring程序員都很崇拜技術大神，很大一部分是因為他們發現和解決問題的能力，特別是線上出現緊急問題時，總是能夠快速定位和解決。一方面，他們有深厚的技術基礎，對應用的技術知其所以然，另一方面，在采坑的過程中不斷總結，積累了很多經驗。相信大家都使用過Spring，有些人了解它的核心：IOC和AOP，但只是了

VS2010-MFC（文檔、視圖和框架：概述）

position runt mfc href ext 必須 eal 應用指向轉自：http://www.jizhuomi.com/software/221.html 前面幾節講了菜單、工具欄和狀態欄的使用，本節開始將為大家講解文檔、視圖和框架的知識。

通過GCEASY 和 jfr 發現運行時問題

端口 cor ice nbsp easy RoCE 殺死 proc 記錄進入 /dev/shm 目錄 ,gc-xxx-xx 的gc 文件，上次 gceasy 進行分析另外，通過打開飛行記錄器，打開jmc 通過jmx 端口連接上去，並啟用飛行記錄器

zabbix 4.0 客戶端服務器自動註冊和自動發現配置

proc sha auto dbd mar test ext -o zabb 一．Discovery 此種方法是由服務器端發起的，對服務端性能消耗大。把內網地址寫進去創建actions ?選擇Discovery創建自動發發現Linux的Actions，自動添加到指定

建構函式、例項和原型的概念和關係

每個函式都屬於物件，都會有一個屬性叫prototype。這個屬性指向一個物件，我們把他叫做當前函式的原型物件。原型物件下面有個屬性叫constructor.這個屬性指向當前函式。函式又分為普通函式和建構函式。這裡我們說一下建構函式。定義一個函式： function Person(x,

資訊抽取和關係發現概述

自然語言應用

自然語言發展歷程

資訊抽取

定義

評測標準

命名實體識別

注意問題

主要方法

系統框架

評價指標

實體消歧

定義

常見方法

基於聚類消歧方法

關鍵問題

詞袋模型

語義特徵

社會化網路

維基百科的知識[Han ]

多源異構知識[Han ACL 2010]

實體消歧：評測-WePS

挑戰

基於連結的消歧

評測標準-TAC-KBP& 總結

實體間關係抽取

定義

非結構化關係抽取

傳統關係抽取

傳統方法問題

開放域關係抽取

開放關係的發現

相關推薦