1. 程式人生 > >簡易蜘蛛池網站開發

簡易蜘蛛池網站開發

logs 頁面 正則 strong 可能 世界 搜索 詳細 目錄

蜘蛛池的原理,以下內容摘自網上。

技術分享

一般網頁上都會存在超鏈接,而超鏈接會將互聯網上的大多數網頁連接起來,形成一個類似蜘蛛網的結構。而蜘蛛的一項工作就是沿著超鏈接去盡可能多的爬行尚未爬過的頁面。換個說法:相當於人為的制造了一張不斷變大的網,把蜘蛛困在裏面,讓它不斷的爬行網站內的頁面。

開始吧,第一步找資料

先說下過去的經歷,如果沒有記錯,這是第三次查蜘蛛池的資料了。每次都有異想不到的收獲,想起剛接觸時,看的雲裏霧裏。第二次,直接買源碼,根據代碼來理解,從此學會了世界上最好的語言(PHP)。與此同時把手上的CMS也改成了寄生蟲變態單細胞版(隨便取的名字,表達一下)。

主要在數據和展示做了修改。數據方面就是把小說按500字截取,保存到CMS的資訊表。首頁每次訪問時在1000多條記錄裏隨機提取20條(告訴蜘蛛,網站有更新),詳細頁面展示時內容還會再一次打亂(這點有些多余,後面收錄受影響原因可能出自這裏)。

這次也不例外,習慣的在百度看前三四頁的內容,這次搜索前十的內容就已經符合我的口味,加上先前經驗,快速定位,並且把要點作了筆記。

  第二步,實踐

  在某八平臺做過一陣子,多數是PHP的雜事,順便也讓我入了門,同時也發現PHP的世界還是很精彩。只有半桶水也要擼出來。

  主要用到的了SNOOP類和readability類,常用的函數如替換,截取和正則等了。還有一個重要的偽靜態,因為我沒有創建實質的story目錄,我需要對story目錄訪問時進行重定向來滿足我的要求,不然,我得在story目錄下填坑。

  首頁和詳細頁面的內容經過獲取,加工,再加工後就展示出來了。先上網站(http://www.relon.net.cn/),在大神面前獻醜了。

  第三步,等結果

  看了作者的網站,雙手就開始發癢了。大體功能已經仿出來,並且已經上線,置入統計代碼,作者說他網站日引2w IP,想想還是有點小激動。

  原計劃是把寄生蟲站改了,對來訪的IP做判斷,如果是搜索引擎,我就在訪問的頁面加入蜘蛛未爬過的內容。

  蜘蛛池的精髓“把蜘蛛困在裏面,讓它不斷的爬行網站內的頁面”,現階段網站沒有實現去困住蜘蛛,我太善良了,不幹壞事。後面還是會繼續把這個坑(困蜘蛛)填上,達到池子的效果。

簡易蜘蛛池網站開發