1. 程式人生 > >這就是搜尋引擎-筆試5-檢索模型與搜尋排序

這就是搜尋引擎-筆試5-檢索模型與搜尋排序

檢索模型與搜尋排序最重要的兩個因素,使用者查詢與網頁相關性,網頁連結情況檢索模型:使用者查詢與網頁相關性布林模型,向量空間模型,概率模型,語言模型,機器學習排序演算法布林模型:資料基礎是集合論,搜尋結果過於粗糙,無法量化搜尋詞與文件之前的相關性向量空間模型:把文件看做是由T維特徵組成的一個向量,最常用的是以單詞作為特徵,實際應用中,文件的維度相當高(成千上萬)將查詢和文件之間的內容相似性作為相關性的替代計算相似性,使用COSINE,計算查詢詞特徵權值與文件中每個特徵權值向量的點積特徵權重:由詞頻Tf,逆文件頻率IDF確定詞頻TfWtf=a+(1-a)*Tf/Max(Tf)a取0.4效果較好逆文件頻率因子
:文件集合範圍的一種全域性因子,特徵單詞之間的相對重要性有研究者進一步分析認為:IDF代表了單詞帶有的資訊量的多少(熵),其值越高,說明其資訊含量越多,越有價值IDFk=log(N/nk)N代表文件集合中總共有多少個文件,nk代表特徵單詞k在其中多少個文件中出現過Weight_word=Tf*IDF,特徵權值越大,越可能是好的指示詞查詢詞在某個文件中的詞頻越高,在其他文件中出現的詞頻越低,這個詞的權值越高向量空間模型是經驗型的模型,靠直覺和經驗不斷摸索完善,缺乏明確的理論指導改進方向概率排序原理:給定一個使用者查詢,如果搜尋系統能夠在搜尋結果排序時按照文件和使用者需求的相關性由高到低排序,那麼這個搜尋系統的準確性是最優的。將P(D|R)/P(D|NR)大小進行降序排列,得到搜尋相關性排序二元獨立模型
二元假設:一遍文件在由特徵進行表示的時候,以特徵“出現”和“不出現”兩種情況來表示詞彙獨立假:文件中出現任意一個詞在文件的分佈概率不依賴於其他單詞是否出現BMI模型:基於二元假設推導而出,對於單詞特徵,只考慮是否在文件中出現過,而了考慮單詞的權值P(D|R)/P(D|NR) = pi(1-si)/si(1-pi)log( pi(1-si)/si(1-pi) )pi代表第i個單詞在相關文件集合內出現的概率,在二元假設下,可以用包含這個單詞的相關文件個數ri除以相關文件總數R來估算,pi=ri/Rsi代表第i個詞在不相關文件集合內出現的概率,可以用包含這個單詞的不相關文件個數ni-ri,除以不相關文件總數(N-R)來估算,si=(ni-ri)/(N-R)加上平滑處理log((ri+0.5)/(R-ri+0.5)/(ni-ri+0.5)/((N-R)-(ni-ri)+0.5))其含義:對於同時出現在使用者查詢Q和文件D中的單詞,累加每個單詞的估值,其和就是文件D和查詢相關性度量值BM25模型
在BIM模型的基礎上,考慮了單詞在查詢中的權值及單詞在文件中的權值,擬合出綜合上述考慮因素的公式,並通過引入一些經驗引數BM25模型是目前最成功的內容排序模型http://hi.csdn.net/attachment/201011/30/0_12911307384w69.gif

k1,k2,K均為經驗設定的引數,fi是詞項在文件中的頻率,qfi是詞項在查詢中的頻率。

K1通常為1.2,通常為0-1000

K的形式較為複雜

K=http://hi.csdn.net/attachment/201011/30/0_1291130766F92C.gif 

上式中,dl表示文件的長度,avdl表示文件的平均長度,b通常取0.75BM25F模型:是典型的BM25改進演算法將文件內容切換成不同的部分,為不同的部分賦予不同的權重語言模型方法:借鑑語音識別領域採用的語言模型技術,將語言模型和資訊檢索相互融合為每個文件建立一個語言模型,語言模型代表了單詞或者單詞序列在文件中的分佈情況對於查詢中的單詞來說,每個單詞都對應一個抽取概率,將這些單詞的抽取概率相乘就是文件生成查詢的總體概率一般採用資料平滑方式解決資料稀疏問題使用者提交查詢Q,文件集合內所有文件都計算生成Q的概率,然後按照生成概率值由大到小排序,就是搜尋結果HMM,隱馬爾科夫語言模型、相關模型、翻譯模型是在基本語言模型的改進語言模型檢索方法效果略優於精調引數的向量空間模型,與BM25等概率模型效果相當通過理論推導,可以得出:語言模型檢索方法的排序公司符合概率模型的概率排序原理,類似向量空間模型Tf*IDF機器學習排序為何興起較晚:1、其他模型和方法,考慮的因素較少,人工進行公式擬合完全可行,效果尚可2、機器學習需要大量訓練資料,使用者點選記錄可以當做機器學習方法訓練資料的一個替代品機器學習排序系統的4個步驟:人工標註訓練資料:使用者點選記錄來模擬人工打分機制文件特徵抽取:查詢詞在文件中的詞頻、查詢詞的IDF資訊,網頁入鏈數量,網頁出鏈數量,網頁PageRank值,網頁URL長度,查詢詞的Proximity值(文件中多大的視窗內可以出現所有查詢詞)學習分類函式在實際搜尋系統中採用機器學習模型機器學習方法1、單文件方法對單獨的一篇文件轉換為特徵向量,機器學習系統根據從訓練資料中學習到的分類或迴歸函式對文件打分,打分結果為最後得分在訓練過程中,當打分大於一定的閾值,為相關文件,否則為不相關文件。2、文件對方法通過訓練,對文件順序關係是否合理進行判斷,判斷兩個文件的得分使用SVM,BOOST,神經網路,都可以做為學習方法缺點,只考慮了兩個文件對的相對先後順序,卻沒有考慮文件出現的搜尋列表中的位置不同的查詢,相關文件數量差異很大,對機器學習系統的效果造成評價困難3、文件列表方法將每個查詢對應的所有搜尋結果列表作為一個訓練例項通過搜尋結果排列組合的概率分佈,訓練評分函式搜尋質量評價標準:對於搜尋引擎更加關注精確率精確率:本次搜尋結果中相關文件所佔本次搜尋返回的所有文件的比例招回率:本次搜尋結果中相關文件佔整個集合中所有相關文件的比例[email protected]指標:在搜尋結果排名最先前的頭10個文件中有多大比例是相關的MAP:AP兼顧了排在前列的相關性和系統招架率,MAP多組查詢的AP平均值 posted on 2013-11-04 12:56 胡滿超 閱讀(340) 評論(0)  編輯 收藏 引用 所屬分類: 搜尋引擎