Atitit 現代資訊檢索 Atitit 重要章節息檢索建模檢索評價第8章　文字分類 Line 210: 第9章　索引和搜尋第11章　Web檢索第13章　結構化文字檢索目錄 L

阿新 • • 發佈：2018-12-07

Atitit 現代資訊檢索

Atitit 重要章節

息檢索建模

檢索評價

第8章　文字分類

Line 210: 第9章　索引和搜尋

第11章　Web檢索

第13章　結構化文字檢索

　引言
1.1　資訊檢索
1.1.1　資訊檢索的早期發展
1.1.2　圖書館和數字圖書館中的資訊檢索
1.1.3　舞臺中央的資訊檢索
1.2　資訊檢索問題

1.2.1　使用者的任務
1.2.2　資訊檢索與資料檢索
1.3　資訊檢索系統
1.3.1　資訊檢索系統的軟體架構
1.3.2　檢索和排序過程
1.4 Web
1.4.1 Web簡史
1.4.2　電子出版時代
1.4.3 Web如何改變搜尋
1.4.4 Web上的實際問題
1.5　本書的組織結構
1.5.1　本書的重點
1.5.2　本書的內容
1.6　本書的教學資源網站
1.7　文獻討論
第2章　使用者搜尋介面
2.1　介紹
2.2　人們如何搜尋
2.2.1　資訊查詢與探索式搜尋
2.2.2　資訊搜尋的經典模型與動態模型
2.2.3　導航與搜尋
2.2.4　對搜尋過程的觀察
2.3　現今的搜尋介面
2.3.1　啟動搜尋
2.3.2　查詢描述

2.3.3　查詢描述介面
2.3.4　檢索結果顯示
2.3.5　查詢重構
2.3.6　組織搜尋結果
2.4　搜尋介面的視覺化
2.4.1　視覺化布林語法
2.4.2　視覺化查詢結果中的查詢項
2.4.3　視覺化詞語和文件間的關係
2.4.4　文字挖掘的視覺化
2.5　搜尋介面的設計和評價
2.6　趨勢和研究問題
2.7　文獻討論
第3章　資訊檢索建模
3.1　資訊檢索模型
3.1.1　建模和排序
3.1.2　資訊檢索模型描述
3.1.3　資訊檢索模型的分類體系
3.2　經典資訊檢索
3.2.1　基本概念
3.2.2　布林模型
3.2.3　項權重
3.2.4 TF-IDF權重
3.2.5　文件長度歸一化
3.2.6　向量模型
3.2.7　概率模型
3.2.8　經典模型之間的簡單比較
3.3　其他集合論模型
3.3.1　基於集合的模型
3.3.2　擴展布爾模型
3.3.3　模糊集模型
3.4　其他代數模型
3.4.1　廣義向量空間模型
3.4.2　潛在語義索引模型
3.4.3　神經網路模型
3.5　其他概率模型
3.5.1 BM25模型
3.5.2　語言模型
3.5.3　隨機差異模型
3.5.4　貝葉斯網模型
3.6　其他模型
3.6.1　超文字模型
3.6.2　基於Web的模型
3.6.3　結構化文字檢索
3.6.4　多媒體檢索
3.6.5　企業和垂直搜尋
3.7　趨勢和研究問題
3.8　文獻討論
第4章　檢索評價
4.1　介紹
4.2 Cranfield正規化
4.2.1　歷史簡述
4.2.2　參考集
4.3　檢索指標
4.3.1　精度和召回率
4.3.2　單值總結：[email protected]，MAP，MRR，F
4.3.3　面向使用者的指標
4.3.4　折扣累積增益
4.3.5　二元偏好
4.3.6　排序相關性測度
4.4　參考文件集
4.4.1 TREC參考集
4.4.2　其他參考集
4.4.3　其他小規模測試文件集
4.5　基於使用者的評價
4.5.1　實驗室中的人工實驗
4.5.2　並排面板
4.5.3 A/B測試
4.5.4　眾包
4.5.5　使用點選資料的評價
4.6　實踐說明
4.7　趨勢和研究問題
4.8　文獻討論
第5章　相關反饋與查詢擴充套件
5.1　介紹
5.2　反饋方法的框架
5.3　顯式相關反饋
5.3.1　向量模型的相關反饋：Rocchio方法
5.3.2　概率模型的相關反饋
5.3.3　相關反饋的評價
5.4　基於點選的顯式反饋
5.4.1　眼動追蹤和相關性評價
5.4.2　使用者行為
5.4.3　點選作為使用者偏好的指標
5.5　通過區域性分析的隱式反饋
5.5.1　通過區域性聚類的隱式反饋
5.5.2　通過區域性上下文分析的隱式反饋
5.6　通過全域性分析的隱式反饋
5.6.1　基於相似度同義詞典的查詢擴充套件
5.6.2　基於統計同義詞典的查詢擴充套件
5.7　趨勢和研究問題
5.8　文獻討論
第6章　文件：語言及屬性
6.1　介紹
6.2　元資料
6.3　文件格式
6.3.1　文字
6.3.2　多媒體
6.3.3　圖形和虛擬現實
6.4　標記語言
6.4.1 SGML
6.4.2 HTML
6.4.3 XML
6.4.4 RDF
6.4.5 HyTime
6.5　文字屬性
6.5.1　資訊理論
6.5.2　自然語言建模
6.5.3　文字相似度
6.6　文件預處理
6.6.1　文字的詞彙分析
6.6.2　去除禁用詞
6.6.3　詞幹提取
6.6.4　關鍵詞選擇
6.6.5　同義詞典
6.7　組織文件
6.7.1　分類體系法
6.7.2　分眾分類法
6.8　文字壓縮
6.8.1　基本概念
6.8.2　統計方法
6.8.3　統計方法：建模
6.8.4　統計方法：編碼
6.8.5　字典方法
6.8.6　壓縮預處理
6.8.7　文字壓縮技術的比較
6.8.8　結構化文字壓縮
6.9　趨勢和研究問題
6.10　文獻討論
第7章　查詢：語言及屬性
7.1　查詢語言
7.1.1　基於關鍵詞的查詢
7.1.2　非關鍵詞查詢
7.1.3　結構化查詢
7.1.4　查詢協議
7.2　查詢屬性
7.2.1 Web查詢的特徵
7.2.2　使用者搜尋行為
7.2.3　查詢意圖
7.2.4　查詢主題
7.2.5　查詢會話與任務
7.2.6　查詢難度
7.3　趨勢和研究問題
7.4　文獻討論
第8章　文字分類
8.1　介紹
8.2　文字分類的特性描述
8.2.1　機器學習
8.2.2　文字分類問題
8.2.3　文字分類演算法
8.3　無監督演算法
8.3.1　聚類
8.3.2　樸素文字分類
8.4　監督演算法
8.4.1　決策樹
8.4.2 k近鄰分類器
8.4.3 Rocchio分類器
8.4.4　概率樸素貝葉斯文件分類
8.4.5　支援向量機分類器
8.4.6　整合分類器
8.4.7　關於監督演算法的結束語
8.5　特徵選擇或降維
8.5.1　項-類別出現列聯表
8.5.2　索引項文件頻率
8.5.3 TF-IDF權重
8.5.4　互資訊
8.5.5　資訊增益
8.5.6　卡方檢驗
8.5.7　特徵選擇的作用
8.6　評價指標
8.6.1　列聯表
8.6.2　準確率和錯誤率
8.6.3　精度和召回率
8.6.4 F測度和F
8.6.5　交叉檢驗
8.6.6　標準文件集
8.7　類別組織--構建分類體系
8.8　趨勢和研究問題
8.9　文獻討論
第9章　索引和搜尋
9.1　介紹
9.2　倒排索引
9.2.1　基本概念
9.2.2　完全倒排索引
9.2.3　搜尋
9.2.4　排序
9.2.5　構建
9.2.6　壓縮的倒排索引
9.2.7　結構化查詢
9.3　簽名檔案
9.4　字尾樹和字尾陣列
9.4.1　結構：trie樹和字尾樹
9.4.2　簡單字串搜尋
9.4.3　複雜模式的搜尋
9.4.4　構建
9.4.5　壓縮的字尾陣列
9.5　序列搜尋
9.5.1　簡單字串：Horspool
9.5.2　複雜模式：自動機和位並行
9.5.3　更快的位並行演算法
9.5.4　正則表示式
9.5.5　多重模式
9.5.6　近似搜尋
9.5.7　搜尋壓縮文字
9.6　多維索引
9.7　趨勢和研究問題
9.8　文獻討論
第10章　並行與分散式資訊檢索
10.1　介紹
10.2　分散式資訊檢索系統的分類
10.3　資料劃分
10.3.1　文件集劃分
10.3.2　文件集選擇
10.3.3　倒排索引劃分
10.3.4　劃分其他索引
10.4　並行資訊檢索
10.4.1　介紹
10.4.2　在MIMD架構上的並行資訊檢索
10.4.3　在SIMD架構上的並行資訊檢索
10.5　基於叢集的資訊檢索
10.6　分散式資訊檢索
10.6.1　介紹
10.6.2　索引
10.6.3　查詢處理
10.6.4 Web問題
10.7　聯合搜尋
10.8　在對等網路中的檢索
10.9　趨勢和研究問題
10.10　文獻討論
第11章　Web檢索
11.1　介紹
11.2　一個有挑戰性的問題
11.3 Web
11.3.1　特性
11.3.2 Web圖的結構
11.3.3　對Web建模
11.3.4　連結分析
11.4　搜尋引擎架構
11.4.1　基本架構
11.4.2　基於叢集的架構
11.4.3　快取
11.4.4　多級索引
11.4.5　分散式架構
11.5　搜尋引擎排序
11.5.1　排序訊號
11.5.2　基於連結的排序
11.5.3　簡單的排序函式
11.5.4　排序學習
11.5.5　學習排序函式
11.5.6　質量評價
11.5.7 Web垃圾
11.6　管理Web資料
11.6.1　為文件分配識別符號
11.6.2　元資料
11.6.3　壓縮Web圖
11.6.4　處理重複資料
11.7　搜尋引擎使用者互動
11.7.1　搜尋矩形正規化
11.7.2　搜尋引擎結果頁面
11.7.3　培養使用者
11.8　瀏覽
11.8.1　扁平瀏覽
11.8.2　結構導向的瀏覽和Web目錄
11.9　瀏覽之外
11.9.1　超文字和Web
11.9.2　搜尋與瀏覽相結合
11.9.3 Web查詢語言
11.9.4　動態搜尋
11.10　相關問題
11.10.1　計算廣告學
11.10.2 Web挖掘
11.10.3　元搜尋
11.11　趨勢和研究問題
11.11.1　靜態文字資料之外
11.11.2　目前的挑戰
11.12　文獻討論
第12章　Web爬取
12.1　介紹
12.2　網路爬蟲的應用
12.2.1　通用Web搜尋
12.2.2　聚焦爬取
12.2.3 Web刻畫
12.2.4　映象
12.2.5　網站分析
12.3　爬蟲的分類體系
12.4　架構和實現
12.4.1　爬蟲架構
12.4.2　實際問題
12.4.3　並行爬取
12.5　排程演算法
12.5.1　選擇策略
12.5.2　重訪問策略
12.5.3　友好策略
12.5.4　組合策略
12.6　評價
12.6.1　評價網路使用
12.6.2　評價長期排程
12.7　趨勢和研究問題
12.7.1　爬取“暗網”
12.7.2　在網站幫助下的爬取
12.7.3　分散式爬取
12.8　文獻討論
第13章　結構化文字檢索
13.1　介紹
13.2　結構化能力
13.2.1　顯式和隱式結構對比
13.2.2　靜態與動態結構對比
13.2.3　單一層次結構與多層次結構對比
13.3　早期文字檢索模型
13.3.1　基於非覆蓋列表的模型
13.3.2　基於相鄰結點的模型
13.3.3　結構化文字結果排序
13.4 XML檢索
13.4.1 XML檢索中的挑戰
13.4.2　索引策略
13.4.3　排序策略
13.4.4　去除重疊
13.5 XML檢索評價
13.5.1　文件集
13.5.2　主題
13.5.3　檢索任務
13.5.4　相關性
13.5.5　測度
13.6　查詢語言
13.6.1　特性
13.6.2 XML查詢語言分類
13.6.3 XML查詢語言樣例
13.7　趨勢和研究問題
13.8　文獻討論
第14章　多媒體資訊檢索
14.1　介紹
14.1.1　什麼是多媒體
14.1.2　多媒體檢索
14.1.3　文字檢索與多媒體檢索的對比
14.2　挑戰
14.2.1　語義鴻溝
14.2.2　特徵歧義性
14.2.3　機器生成的資料
14.3　基於內容的影象檢索
14.3.1　基於顏色的檢索
14.3.2　紋理
14.3.3　顯著點
14.4　聲音和音樂檢索
14.4.1　指紋識別
14.4.2　語音識別
14.4.3　說話人識別
14.4.4　語音文件檢索
14.4.5　音訊基礎知識
14.5　檢索和瀏覽視訊
14.5.1　視訊摘要
14.5.2　靜態摘要
14.5.3　影象拼接與跳躍劇照
14.5.4　動態摘要
14.5.5　互動式摘要
14.5.6　視覺與聽覺瀏覽對比
14.5.7　摘要評價
14.6　融合模型：合併所有資訊
14.6.1　人臉命名
14.6.2　影象命名
14.6.3　音訊命名
14.6.4　結合音訊與視訊的音-視訊語音識別
14.6.5　結合音訊和視訊的多媒體處理
14.7　分割
14.7.1　視訊分割樣例
14.7.2　視訊分割方案
14.7.3　利用邊緣的視訊分割
14.7.4　語音分割
14.7.5　分割評價
14.8　壓縮和MPEG標準
14.8.1　強度和取樣
14.8.2　顏色
14.8.3　有失真壓縮
14.8.4　無失真壓縮
14.8.5　時間冗餘
14.8.6　運動預測
14.8.7 MPEG標準
14.9　趨勢和研究問題
14.10　文獻討論
第15章　企業搜尋
15.1　介紹
15.1.1　企業搜尋的特點和應用
15.1.2　企業搜尋軟體
15.1.3　工作場所搜尋
15.2　企業搜尋任務
15.2.1　搜尋支援任務的例子
15.2.2　搜尋型別
15.2.3　研究企業搜尋
15.3　企業搜尋系統的結構
15.3.1　收集
15.3.2　提取
15.3.3　索引
15.3.4　文字註釋的索引
15.3.5　查詢處理
15.3.6　搜尋結果的展示
15.3.7　安全模型
15.3.8　聯合/元搜尋
15.4　企業搜尋評價
15.4.1　企業搜尋的公開測試集
15.4.2　企業搜尋內部評價
15.4.3　企業搜尋除錯
15.4.4　所能期待的是什麼
15.5　不滿意的可能原因
15.6　情境化和個性化
15.6.1　情境化的控制和工具
15.6.2　情境化：本地、企業或全球
15.6.3　輪廓的隱私
15.6.4　定義、建立和維護輪廓
15.6.5　使用者建模
15.6.6　隱式評價
15.6.7　資訊過濾
15.6.8　社會化推薦系統
15.7　趨勢和研究問題
15.8　文獻討論
第16章　圖書館系統
16.1　圖書館的資訊環境
16.2　聯機公共檢索目錄
16.2.1 OPAC和書目記錄
16.2.2　來自ILS的資訊檢索
16.2.3　混合圖書館的整合
16.2.4 OPAC和終端使用者
16.2.5 ILS：供應商和產品
16.3　資訊檢索系統與文件資料庫
16.3.1　書目和全文資料庫
16.3.2　資料庫記錄的內容
16.3.3　聯機產業：資料庫供應商
16.3.4　來自文件資料庫的資訊檢索
16.4　組織機構內部的資訊檢索
16.5　趨勢和研究問題
16.6　文獻討論
第17章　數字圖書館
17.1　介紹
17.2　定義數字圖書館
17.3　通用架構
17.4　基本概念
17.4.1　數字物件和館藏
17.4.2　元資料和目錄
17.4.3　資源庫/檔案庫
17.4.4　服務
17.5　社會經濟問題
17.5.1　社會問題
17.5.2　經濟問題
17.6　軟體系統
17.6.1 Greenstone
17.6.2 Eprints
17.6.3 DSpace
17.6.4 Fedora
17.6.5 ODL
17.6.6 5S套件
17.7　數字圖書館案例研究
17.7.1　聯網學位論文數字圖書館
17.7.2　國家科學數字圖書館
17.7.3 ETANA-DL考古數字圖書館
17.8　趨勢和研究問題
17.8.1　評價
17.8.2　整合
17.8.3　其他研究挑戰
17.9　文獻討論
附錄A　開源搜尋引擎
附錄B　作者簡介

《現代資訊檢索（原書第2版）》([美]Ricardo Baeza-Yates，[美]Berthier Ribeiro-Net)【摘要書評試讀】- 京東圖書.html

Atitit 現代資訊檢索 Atitit 重要章節息檢索建模檢索評價第8章　文字分類 Line 210: 第9章　索引和搜尋第11章　Web檢索第13章　結構化文字檢索目錄 L

Atitit 現代資訊檢索 Atitit 重要章節息檢索建模檢索評價第8章　文字分類 Line 210: 第9章　索引和搜尋第11章　Web檢索第13章　結構化文字檢索目錄 Line 1

Matlab非結構化文字讀取+正則化+cell變數命名

Matlab非結構化文字讀取+正則化+eval變數命名 1 任務目標任務目標是將下面這個檔案中的資料讀取進入Matlab工作空間，以cell或者struct的形式儲存： "Summary": {

dz論壇搜尋功能不能用的解決辦法之百度結構化資料提交

dz論壇自帶的搜尋功能比百度站內搜尋或者360搜尋都好用，因為後者的搜尋只有收錄才能搜尋到，所以推薦大家使用dz自帶的搜尋。但是我發現自己的論壇56微信平臺自帶的搜尋功能不能用，輸入內容搜尋會跳出找不到頁面404，而且還自己變成了百度站內搜尋，經過我多方排查

lucene給文字索引和搜尋功能的應用

最近一段時間由於公司需要，模糊搜尋出相似的關鍵詞，所以直接考慮使用了lucene。 lucene允許你往程式中新增搜尋功能，lucene能夠把你從文字中解析出來的資料進行索引和搜尋，lucene不關心資料來源甚至不關心語種，不過你需要把它轉換成文字格式。也就是說你可以

Atitit 儲存方法大總結目錄 1. 儲存方式分類 2 1.1. 按照資料分類為結構化半結構化非結構化 2 1.2. 按照內外部可分類內部儲存和外部儲存持久化 2 1.3. 按照本地遠

Atitit 儲存方法大總結目錄 1. 儲存方式分類 2 1.1. 按照資料分類為結構化半結構化非結構化 2 1.2. 按照內外部可分類內部儲存和外部儲存持久化 2 1.3. 按照本地遠端分類分散式儲存等 2 1.4. 臨時性cach

第13章結構型模式—享元模式

1. 享元模式（Flyweight Pattern）的定義（1）運用共享技術高效地支援大量細粒度的物件　　①物件內部狀態：資料不變且重複出現，這部分不會隨環境變化而改變，是可以共享的。　　②物件外部狀態：資料是變化的，會隨環境變化而改變，是不可以共享的。　　③所謂的享元，就是

Atitit 核心程式碼包括哪些重要部分壓縮分類影象處理部分爬蟲分詞檢索部分多媒體基礎設施程式碼非功能性類庫框架源到源的語言翻譯跨語言整合互操作通訊 算

Atitit 核心程式碼包括哪些重要部分壓縮分類影象處理部分爬蟲分詞檢索部分多媒體基礎設施程式碼非功能性類庫框架源到源的語言翻譯跨語言

第九章:深入搜尋--結構化搜尋

一.精確搜尋,多個精確搜尋 1.term 查詢 term 查詢可以用它處理數字（numbers）、布林值（Booleans）、日期（dates）以及文字（text）. 使用bulk建立檔案文件 POST /my_store/products/_bulk {

文字結構化（資訊抽取）技術調研與綜述

文字結構化技術調研 1. 引言文字資料一般由有序的段落、句子、單詞文字流組成，而這種形式的文字通常是非結構化的，並不是結構化的表格資料，文字的特徵也與噪聲混雜在一起，很難直接提取出特徵，也就沒有辦法將機器學習方法應用在原始的非結構化文字資料中。因此，我們需要一種文字結構化技術，能夠自動化處理非結構

程式設計師面試寶典_第13章_資料結構基礎_排序演算法小結(4)

十、二叉樹排序演算法 [演算法思想]：二叉排序樹（Binary Sort Tree）又稱二叉查詢樹，亦稱二叉搜尋樹。它或者是一棵空樹；或者是具有下列性質的二叉樹：（1）若左子樹不空，則左子樹上所有結點的值均小於它的根結點的值；（2）若右子樹不空，則右子樹上所有結點

第13章　動態資料交換和物件連結與嵌入

剪貼簿　　在Windows作業系統中大量使用剪貼簿使使用者能夠在同一應用程式之中或不同應用程式之間傳輸資料。13．1．1 剪貼簿資料格式　　當用戶選中某些資料並對它進行復制操作時，Windows把這些資料從選中區中讀出並傳送到剪貼簿上：當用戶使用貼上命令時，該資料從

第三章：shell結構化命令 for & while迴圈

for 命令當你需要重複一組命令直至達到某個特定的條件，比處如處理某個目錄下的所有檔案、系統上的所有使用者或是某個文字檔案中的所有行。 for 的基本格式 for var in list

2.4 通用的網頁信息結構化信息提取的方法

ges 標題分析控制我們 beautiful html 官方文檔 txt 我們在抓網頁的時候，希望獲得的是網頁中的有效信息。事實上，直接抓取下來的內容是網頁全部的HTML代碼，代碼中有很多標簽、格式控制等等無效的信息。這一節我們就來講解對於任意一個網頁，我們怎麽提

python編程快速上手之第13章實踐項目參考答案(13.6.1)

encrypted iter close ffi mes python編程實踐項目 reader blog import os,PyPDF2 os.chdir(‘D:\\My Documents‘) for folderName, subfolders, filenam

python編程快速上手之第13章實踐項目參考答案(13.6.2)

nbsp python add sha odi log span import imp #! python3 # encoding: UTF-8 import os import docx from docx import Document from docx.shar

第13章第2講文件讀寫操作

pla margin nbsp tchar img http blog fputs fop #include"stdio.h" main() { FILE *fp; if((fp=fopen("c1.txt","rt"))==NULL) {

第13章事件

以及例子依次屬於 size string 接受 type屬性 log JavaScript 與HTML 之間的交互是通過事件實現的。事件，就是文檔或瀏覽器窗口中發生的一些特定的交互瞬間。可以使用偵聽器（或處理程序）來預訂事件，以便事件發生時執行相應的代碼。這種在傳

MOOC清華《面向對象程序設計》第8章：用代理模式實現延遲初始化

blank ngx cin www. oci 初始化 lanp margin 程序 Z9閃5PFVL衣坑9http://shequ.docin.com/zdfi78227 哦3O8b4z宦塹7http://huiyi.docin.com/dvok6368 W34搜6csiy

MOOC清華《面向對象程序設計》第8章：棧的實現（采用模板實例化）

com mooc html 程序 ndt wot 面向 tar dmz 3lztmo1xf豪已4茲6http://www.zcool.com.cn/collection/ZMTkxNTY1OTI=.html 6桓50勞爻拍62誹喜0栽2http://www.zcool.c

Atitit 現代資訊檢索 Atitit 重要章節 息檢索建模 檢索評價 第8章 文字分類 Line 210: 第9章 索引和搜尋 第11章 Web檢索 第13章 結構化文字檢索 目錄 L

Atitit 重要章節

目錄

相關推薦

Atitit 現代資訊檢索 Atitit 重要章節息檢索建模檢索評價第8章　文字分類 Line 210: 第9章　索引和搜尋第11章　Web檢索第13章　結構化文字檢索目錄 L