Atitit 現代資訊檢索 Atitit 重要章節 息檢索建模 檢索評價 第8章 文字分類 Line 210: 第9章 索引和搜尋 第11章 Web檢索 第13章 結構化文字檢索 目錄 L
阿新 • • 發佈:2018-12-07
Atitit 現代資訊檢索
Atitit 重要章節
息檢索建模
檢索評價
第8章 文字分類
Line 210: 第9章 索引和搜尋
第11章 Web檢索
第13章 結構化文字檢索
目錄
Line 1: 第1章 引言
Line 22: 第2章 使用者搜尋介面
Line 44: 第3章 資訊檢索建模
Line 79: 第4章 檢索評價
Line 104: 第5章 相關反饋與查詢擴充套件
Line 123: 第6章 文件:語言及屬性
Line 160: 第7章 查詢:語言及屬性
Line 175: 第8章 文字分類
Line 210: 第9章 索引和搜尋
Line 238: 第10章 並行與分散式資訊檢索
Line 260: 第11章 Web檢索
Line 307: 第12章 Web爬取
Line 333: 第13章 結構化文字檢索
Line 360: 第14章 多媒體資訊檢索
Line 409: 第15章 企業搜尋
Line 444: 第16章 圖書館系統
Line 460: 第17章 數字圖書館
- 引言
1.1 資訊檢索
1.1.1 資訊檢索的早期發展
1.1.2 圖書館和數字圖書館中的資訊檢索
1.1.3 舞臺中央的資訊檢索
1.2 資訊檢索問題
1.2.1 使用者的任務
1.2.2 資訊檢索與資料檢索
1.3 資訊檢索系統
1.3.1 資訊檢索系統的軟體架構
1.3.2 檢索和排序過程
1.4 Web
1.4.1 Web簡史
1.4.2 電子出版時代
1.4.3 Web如何改變搜尋
1.4.4 Web上的實際問題
1.5 本書的組織結構
1.5.1 本書的重點
1.5.2 本書的內容
1.6 本書的教學資源網站
1.7 文獻討論
第2章 使用者搜尋介面
2.1 介紹
2.2 人們如何搜尋
2.2.1 資訊查詢與探索式搜尋
2.2.2 資訊搜尋的經典模型與動態模型
2.2.3 導航與搜尋
2.2.4 對搜尋過程的觀察
2.3 現今的搜尋介面
2.3.1 啟動搜尋
2.3.2 查詢描述
2.3.3 查詢描述介面
2.3.4 檢索結果顯示
2.3.5 查詢重構
2.3.6 組織搜尋結果
2.4 搜尋介面的視覺化
2.4.1 視覺化布林語法
2.4.2 視覺化查詢結果中的查詢項
2.4.3 視覺化詞語和文件間的關係
2.4.4 文字挖掘的視覺化
2.5 搜尋介面的設計和評價
2.6 趨勢和研究問題
2.7 文獻討論
第3章 資訊檢索建模
3.1 資訊檢索模型
3.1.1 建模和排序
3.1.2 資訊檢索模型描述
3.1.3 資訊檢索模型的分類體系
3.2 經典資訊檢索
3.2.1 基本概念
3.2.2 布林模型
3.2.3 項權重
3.2.4 TF-IDF權重
3.2.5 文件長度歸一化
3.2.6 向量模型
3.2.7 概率模型
3.2.8 經典模型之間的簡單比較
3.3 其他集合論模型
3.3.1 基於集合的模型
3.3.2 擴展布爾模型
3.3.3 模糊集模型
3.4 其他代數模型
3.4.1 廣義向量空間模型
3.4.2 潛在語義索引模型
3.4.3 神經網路模型
3.5 其他概率模型
3.5.1 BM25模型
3.5.2 語言模型
3.5.3 隨機差異模型
3.5.4 貝葉斯網模型
3.6 其他模型
3.6.1 超文字模型
3.6.2 基於Web的模型
3.6.3 結構化文字檢索
3.6.4 多媒體檢索
3.6.5 企業和垂直搜尋
3.7 趨勢和研究問題
3.8 文獻討論
第4章 檢索評價
4.1 介紹
4.2 Cranfield正規化
4.2.1 歷史簡述
4.2.2 參考集
4.3 檢索指標
4.3.1 精度和召回率
4.3.2 單值總結:[email protected],MAP,MRR,F
4.3.3 面向使用者的指標
4.3.4 折扣累積增益
4.3.5 二元偏好
4.3.6 排序相關性測度
4.4 參考文件集
4.4.1 TREC參考集
4.4.2 其他參考集
4.4.3 其他小規模測試文件集
4.5 基於使用者的評價
4.5.1 實驗室中的人工實驗
4.5.2 並排面板
4.5.3 A/B測試
4.5.4 眾包
4.5.5 使用點選資料的評價
4.6 實踐說明
4.7 趨勢和研究問題
4.8 文獻討論
第5章 相關反饋與查詢擴充套件
5.1 介紹
5.2 反饋方法的框架
5.3 顯式相關反饋
5.3.1 向量模型的相關反饋:Rocchio方法
5.3.2 概率模型的相關反饋
5.3.3 相關反饋的評價
5.4 基於點選的顯式反饋
5.4.1 眼動追蹤和相關性評價
5.4.2 使用者行為
5.4.3 點選作為使用者偏好的指標
5.5 通過區域性分析的隱式反饋
5.5.1 通過區域性聚類的隱式反饋
5.5.2 通過區域性上下文分析的隱式反饋
5.6 通過全域性分析的隱式反饋
5.6.1 基於相似度同義詞典的查詢擴充套件
5.6.2 基於統計同義詞典的查詢擴充套件
5.7 趨勢和研究問題
5.8 文獻討論
第6章 文件:語言及屬性
6.1 介紹
6.2 元資料
6.3 文件格式
6.3.1 文字
6.3.2 多媒體
6.3.3 圖形和虛擬現實
6.4 標記語言
6.4.1 SGML
6.4.2 HTML
6.4.3 XML
6.4.4 RDF
6.4.5 HyTime
6.5 文字屬性
6.5.1 資訊理論
6.5.2 自然語言建模
6.5.3 文字相似度
6.6 文件預處理
6.6.1 文字的詞彙分析
6.6.2 去除禁用詞
6.6.3 詞幹提取
6.6.4 關鍵詞選擇
6.6.5 同義詞典
6.7 組織文件
6.7.1 分類體系法
6.7.2 分眾分類法
6.8 文字壓縮
6.8.1 基本概念
6.8.2 統計方法
6.8.3 統計方法:建模
6.8.4 統計方法:編碼
6.8.5 字典方法
6.8.6 壓縮預處理
6.8.7 文字壓縮技術的比較
6.8.8 結構化文字壓縮
6.9 趨勢和研究問題
6.10 文獻討論
第7章 查詢:語言及屬性
7.1 查詢語言
7.1.1 基於關鍵詞的查詢
7.1.2 非關鍵詞查詢
7.1.3 結構化查詢
7.1.4 查詢協議
7.2 查詢屬性
7.2.1 Web查詢的特徵
7.2.2 使用者搜尋行為
7.2.3 查詢意圖
7.2.4 查詢主題
7.2.5 查詢會話與任務
7.2.6 查詢難度
7.3 趨勢和研究問題
7.4 文獻討論
第8章 文字分類
8.1 介紹
8.2 文字分類的特性描述
8.2.1 機器學習
8.2.2 文字分類問題
8.2.3 文字分類演算法
8.3 無監督演算法
8.3.1 聚類
8.3.2 樸素文字分類
8.4 監督演算法
8.4.1 決策樹
8.4.2 k近鄰分類器
8.4.3 Rocchio分類器
8.4.4 概率樸素貝葉斯文件分類
8.4.5 支援向量機分類器
8.4.6 整合分類器
8.4.7 關於監督演算法的結束語
8.5 特徵選擇或降維
8.5.1 項-類別出現列聯表
8.5.2 索引項文件頻率
8.5.3 TF-IDF權重
8.5.4 互資訊
8.5.5 資訊增益
8.5.6 卡方檢驗
8.5.7 特徵選擇的作用
8.6 評價指標
8.6.1 列聯表
8.6.2 準確率和錯誤率
8.6.3 精度和召回率
8.6.4 F測度和F
8.6.5 交叉檢驗
8.6.6 標準文件集
8.7 類別組織--構建分類體系
8.8 趨勢和研究問題
8.9 文獻討論
第9章 索引和搜尋
9.1 介紹
9.2 倒排索引
9.2.1 基本概念
9.2.2 完全倒排索引
9.2.3 搜尋
9.2.4 排序
9.2.5 構建
9.2.6 壓縮的倒排索引
9.2.7 結構化查詢
9.3 簽名檔案
9.4 字尾樹和字尾陣列
9.4.1 結構:trie樹和字尾樹
9.4.2 簡單字串搜尋
9.4.3 複雜模式的搜尋
9.4.4 構建
9.4.5 壓縮的字尾陣列
9.5 序列搜尋
9.5.1 簡單字串:Horspool
9.5.2 複雜模式:自動機和位並行
9.5.3 更快的位並行演算法
9.5.4 正則表示式
9.5.5 多重模式
9.5.6 近似搜尋
9.5.7 搜尋壓縮文字
9.6 多維索引
9.7 趨勢和研究問題
9.8 文獻討論
第10章 並行與分散式資訊檢索
10.1 介紹
10.2 分散式資訊檢索系統的分類
10.3 資料劃分
10.3.1 文件集劃分
10.3.2 文件集選擇
10.3.3 倒排索引劃分
10.3.4 劃分其他索引
10.4 並行資訊檢索
10.4.1 介紹
10.4.2 在MIMD架構上的並行資訊檢索
10.4.3 在SIMD架構上的並行資訊檢索
10.5 基於叢集的資訊檢索
10.6 分散式資訊檢索
10.6.1 介紹
10.6.2 索引
10.6.3 查詢處理
10.6.4 Web問題
10.7 聯合搜尋
10.8 在對等網路中的檢索
10.9 趨勢和研究問題
10.10 文獻討論
第11章 Web檢索
11.1 介紹
11.2 一個有挑戰性的問題
11.3 Web
11.3.1 特性
11.3.2 Web圖的結構
11.3.3 對Web建模
11.3.4 連結分析
11.4 搜尋引擎架構
11.4.1 基本架構
11.4.2 基於叢集的架構
11.4.3 快取
11.4.4 多級索引
11.4.5 分散式架構
11.5 搜尋引擎排序
11.5.1 排序訊號
11.5.2 基於連結的排序
11.5.3 簡單的排序函式
11.5.4 排序學習
11.5.5 學習排序函式
11.5.6 質量評價
11.5.7 Web垃圾
11.6 管理Web資料
11.6.1 為文件分配識別符號
11.6.2 元資料
11.6.3 壓縮Web圖
11.6.4 處理重複資料
11.7 搜尋引擎使用者互動
11.7.1 搜尋矩形正規化
11.7.2 搜尋引擎結果頁面
11.7.3 培養使用者
11.8 瀏覽
11.8.1 扁平瀏覽
11.8.2 結構導向的瀏覽和Web目錄
11.9 瀏覽之外
11.9.1 超文字和Web
11.9.2 搜尋與瀏覽相結合
11.9.3 Web查詢語言
11.9.4 動態搜尋
11.10 相關問題
11.10.1 計算廣告學
11.10.2 Web挖掘
11.10.3 元搜尋
11.11 趨勢和研究問題
11.11.1 靜態文字資料之外
11.11.2 目前的挑戰
11.12 文獻討論
第12章 Web爬取
12.1 介紹
12.2 網路爬蟲的應用
12.2.1 通用Web搜尋
12.2.2 聚焦爬取
12.2.3 Web刻畫
12.2.4 映象
12.2.5 網站分析
12.3 爬蟲的分類體系
12.4 架構和實現
12.4.1 爬蟲架構
12.4.2 實際問題
12.4.3 並行爬取
12.5 排程演算法
12.5.1 選擇策略
12.5.2 重訪問策略
12.5.3 友好策略
12.5.4 組合策略
12.6 評價
12.6.1 評價網路使用
12.6.2 評價長期排程
12.7 趨勢和研究問題
12.7.1 爬取“暗網”
12.7.2 在網站幫助下的爬取
12.7.3 分散式爬取
12.8 文獻討論
第13章 結構化文字檢索
13.1 介紹
13.2 結構化能力
13.2.1 顯式和隱式結構對比
13.2.2 靜態與動態結構對比
13.2.3 單一層次結構與多層次結構對比
13.3 早期文字檢索模型
13.3.1 基於非覆蓋列表的模型
13.3.2 基於相鄰結點的模型
13.3.3 結構化文字結果排序
13.4 XML檢索
13.4.1 XML檢索中的挑戰
13.4.2 索引策略
13.4.3 排序策略
13.4.4 去除重疊
13.5 XML檢索評價
13.5.1 文件集
13.5.2 主題
13.5.3 檢索任務
13.5.4 相關性
13.5.5 測度
13.6 查詢語言
13.6.1 特性
13.6.2 XML查詢語言分類
13.6.3 XML查詢語言樣例
13.7 趨勢和研究問題
13.8 文獻討論
第14章 多媒體資訊檢索
14.1 介紹
14.1.1 什麼是多媒體
14.1.2 多媒體檢索
14.1.3 文字檢索與多媒體檢索的對比
14.2 挑戰
14.2.1 語義鴻溝
14.2.2 特徵歧義性
14.2.3 機器生成的資料
14.3 基於內容的影象檢索
14.3.1 基於顏色的檢索
14.3.2 紋理
14.3.3 顯著點
14.4 聲音和音樂檢索
14.4.1 指紋識別
14.4.2 語音識別
14.4.3 說話人識別
14.4.4 語音文件檢索
14.4.5 音訊基礎知識
14.5 檢索和瀏覽視訊
14.5.1 視訊摘要
14.5.2 靜態摘要
14.5.3 影象拼接與跳躍劇照
14.5.4 動態摘要
14.5.5 互動式摘要
14.5.6 視覺與聽覺瀏覽對比
14.5.7 摘要評價
14.6 融合模型:合併所有資訊
14.6.1 人臉命名
14.6.2 影象命名
14.6.3 音訊命名
14.6.4 結合音訊與視訊的音-視訊語音識別
14.6.5 結合音訊和視訊的多媒體處理
14.7 分割
14.7.1 視訊分割樣例
14.7.2 視訊分割方案
14.7.3 利用邊緣的視訊分割
14.7.4 語音分割
14.7.5 分割評價
14.8 壓縮和MPEG標準
14.8.1 強度和取樣
14.8.2 顏色
14.8.3 有失真壓縮
14.8.4 無失真壓縮
14.8.5 時間冗餘
14.8.6 運動預測
14.8.7 MPEG標準
14.9 趨勢和研究問題
14.10 文獻討論
第15章 企業搜尋
15.1 介紹
15.1.1 企業搜尋的特點和應用
15.1.2 企業搜尋軟體
15.1.3 工作場所搜尋
15.2 企業搜尋任務
15.2.1 搜尋支援任務的例子
15.2.2 搜尋型別
15.2.3 研究企業搜尋
15.3 企業搜尋系統的結構
15.3.1 收集
15.3.2 提取
15.3.3 索引
15.3.4 文字註釋的索引
15.3.5 查詢處理
15.3.6 搜尋結果的展示
15.3.7 安全模型
15.3.8 聯合/元搜尋
15.4 企業搜尋評價
15.4.1 企業搜尋的公開測試集
15.4.2 企業搜尋內部評價
15.4.3 企業搜尋除錯
15.4.4 所能期待的是什麼
15.5 不滿意的可能原因
15.6 情境化和個性化
15.6.1 情境化的控制和工具
15.6.2 情境化:本地、企業或全球
15.6.3 輪廓的隱私
15.6.4 定義、建立和維護輪廓
15.6.5 使用者建模
15.6.6 隱式評價
15.6.7 資訊過濾
15.6.8 社會化推薦系統
15.7 趨勢和研究問題
15.8 文獻討論
第16章 圖書館系統
16.1 圖書館的資訊環境
16.2 聯機公共檢索目錄
16.2.1 OPAC和書目記錄
16.2.2 來自ILS的資訊檢索
16.2.3 混合圖書館的整合
16.2.4 OPAC和終端使用者
16.2.5 ILS:供應商和產品
16.3 資訊檢索系統與文件資料庫
16.3.1 書目和全文資料庫
16.3.2 資料庫記錄的內容
16.3.3 聯機產業:資料庫供應商
16.3.4 來自文件資料庫的資訊檢索
16.4 組織機構內部的資訊檢索
16.5 趨勢和研究問題
16.6 文獻討論
第17章 數字圖書館
17.1 介紹
17.2 定義數字圖書館
17.3 通用架構
17.4 基本概念
17.4.1 數字物件和館藏
17.4.2 元資料和目錄
17.4.3 資源庫/檔案庫
17.4.4 服務
17.5 社會經濟問題
17.5.1 社會問題
17.5.2 經濟問題
17.6 軟體系統
17.6.1 Greenstone
17.6.2 Eprints
17.6.3 DSpace
17.6.4 Fedora
17.6.5 ODL
17.6.6 5S套件
17.7 數字圖書館案例研究
17.7.1 聯網學位論文數字圖書館
17.7.2 國家科學數字圖書館
17.7.3 ETANA-DL考古數字圖書館
17.8 趨勢和研究問題
17.8.1 評價
17.8.2 整合
17.8.3 其他研究挑戰
17.9 文獻討論
附錄A 開源搜尋引擎
附錄B 作者簡介
《現代資訊檢索(原書第2版)》([美]Ricardo Baeza-Yates,[美]Berthier Ribeiro-Net)【摘要 書評 試讀】- 京東圖書.html