1. 程式人生 > >這就是搜尋引擎-筆試4-索引壓縮

這就是搜尋引擎-筆試4-索引壓縮

詞典壓縮:減小詞典的記憶體佔用好的壓縮演算法:壓縮率,壓縮速度,解壓速度(最重要)一元編碼
10
210
3110
41110
511110
Elias Gamma:x=2^e+de+1:一元編碼d:二元編碼Elias Delta:x=2^e+de+1:再使用Elias Gamma編碼一次d:二元編碼Golomb & Rice因子1=(X-1)/b,因子1+1,一元編碼因子2=(X-1) mod b,使用二元編碼,編碼寬度在log(b)Golomb: b=0.69*Avg(序列平均值)Rice:2的整數次冪,所有小於Avg中最接近Avg的數值變長壓縮演算法SimpleXSimple9: 32位位元位,4個位元為管理資料儲存區,28個位元壓縮資料儲存區Simple9的28位有9種表示形式Simple16
: 28位有16種表示形式,並且通過非當項完全固定長度,解決資料區有浪費位的情況PForDelta:目前解壓速度最快的一種倒排檔案壓縮演算法1,對待編碼的連續K個數值(一般為128),確定10%的大數數值,根據70%小數確定奪取的位元寬度,確定整個序列2,對原始資料遍歷,將大數放置到尾端,並轉換成連結串列結構的序列3、將所有數字壓縮到佇列中文件編號重排序網頁的文件ID+單詞詞頻資訊,文件ID使用D-Gap進行編碼將內容越相似的網頁,在編排文件號時越相鄰海量資料文字聚類速度較慢,將URL相似的網頁聚合在一起,假設同一個網站的很多頁面表達的主題內容是近似的靜態索引裁剪:主動拋棄一部分不重要的資訊(索引項)來達到資料壓縮的效果以單詞為中心的索引裁剪
:判斷單詞與文件的相似性,每個詞典中的單詞,其對應的倒排排列中至少保留K個索引項,還要保留若干富餘專案實驗證明,如果首先對所有索引項的原始得分減去得分最低索引項的得分,再採取(對K個項進行折扣,乘一個折扣因子,得出閾值a,剩下的大於a保留)方法進行裁剪,效果會大大提升因為索引項得分分差相關不大,比較集中在某個區間,所以減掉得分最低項以文件為中心的索引裁剪:更為常用在建立索引之前進行資料預處理,把與文件主題表達不相關的單詞拋棄,如停用詞 posted on 2013-11-04 12:56 胡滿超 閱讀(368) 評論(0)  編輯 收藏 引用 所屬分類: 搜尋引擎