1. 程式人生 > >如何讓網站更容易被搜尋引擎搜到

如何讓網站更容易被搜尋引擎搜到

要想讓你的網站和搜尋引擎相處融洽,並讓使用者儘可能準確地獲得所需資訊,在設計頁面時掌握一些與搜尋引擎有關的基本技巧還是非常必要的。不論是通過商業軟體建立的網站內部的搜尋引擎還是一些公共的搜尋引擎(比如Google),其實它們的基本規則都是一樣的。本文介紹如何讓你的網站更容易被搜尋引擎檢索到,你將學會一些基本的控制搜尋結果的方法,另外還有確保網站頁面能夠被搜尋引擎檢索到並能讓使用者獲得更準確的檢索結果的技術。 用Meta標記控制搜尋結果 要控制搜尋引擎的結果,不論是內部搜尋引擎還是外部搜尋引擎,最基本的方法就是給頁面寫入名稱屬性為ROBOT 的Meta標記,其內容還應該包括INDEX 或者NO INDEX,以及FOLLOW 或者NO FOLLOW。這些簡單的標記會告訴搜尋引擎該如何處理這個頁面。不論是內部還是外部搜尋引擎,都會按照META標籤的指示來處理這個頁面,如下所示: INDEX表示將該頁面加入搜尋引擎的搜尋列表中,而NO INDEX則表示不把該頁加入搜尋引擎列表。這是最關鍵的一個引數,如果選擇了NO INDEX,那麼在搜尋結果中就不會出現該頁。比如:在一個電子商務網站,對於停產的產品頁面,如果將ROBOT Meta標籤設定為NO INDEX,則在網站的搜尋結果中就不會搜尋到這個產品的頁面,而你仍然需要把這些老的產品放在目錄中,這樣需要該產品資訊的使用者可以從產品分類中查閱到相關資訊,這就避免了一般使用者搜尋出一大堆老舊產品頁面。那些較新的產品,可以設定為INDEX,以便搜尋引擎可以將其顯示在搜尋結果中。 FOLLOW項表示搜尋引擎要跟蹤頁面中的其它超級連結,而NO FOLLOW則告訴搜尋引擎不跟蹤頁面裡的連結。如果你的頁面中有一些其它網站的連結,可以將頁面設定為NO FOLLOW,這樣你網站內部的搜尋引擎就不會在搜尋結果中列出其它網站的內容。比如在網站論壇的頁面中,你就應該設定為NO FOLLOW,以免搜尋引擎跟隨帖子內的連結進入其它網站。而另一種情況,假如你打算建立了一個全是其它網站連結的頁面,那麼則應該將其設定為NO INDEX, FOLLOW,這樣搜尋引擎就會跟隨頁面中的連結進行搜尋,而不會把這個頁面本身列在搜尋結果中。 建立索引列表提高搜尋能力 建立一個具有良好搜尋能力的網站最大的問題是如何讓搜尋索引知道哪些頁面該列入搜尋範圍。通常,搜尋引擎會首先定位在網站的首頁,然後根據網頁中的連結遍歷整個網站的頁面。這對於那些使用A HREF標籤作為連結標誌的網站來說確實有效,但是如今很多網站都採用了基於JavaScript的連結形式。由此引發的問題是,搜尋引擎找不到頁面中的連結,因此無法遍歷整個網站的頁面,造成搜尋列表只能找到位於首頁的幾個標準形式的連結。 這種情況的解決方法很簡單,就是在網站中建立一個頁面,它包含所有你希望可以被搜尋到的頁面連結。如果這是一個電子商務網站,那麼這個頁面可能包含網站內所有產品頁面的連結,如果是一個社群,那麼這個頁面可以包含所有討論頁面的連結。編寫這樣的頁面也不需要什麼特殊的指令碼語言,完全是純HTML頁面,其中的內容基本上全部是用來表示連結的A HREF標籤。它的作用只有一個,就是讓搜尋引擎快速找到網站內所有希望被搜尋到的頁面。 有時候當網站本身沒有站點索引時,這個技術可以起到站點索引的效果。另外,通過伺服器的檔案系統或者通過IIS虛擬目錄,你也可以建立一個類似的列表檔案,這樣的列表有可能包含站點下的所有檔案。因此它可能會令搜尋引擎搜尋到站點下一些很久以前的孤立頁面或檔案。 不論如何,這樣的一個搜尋索引(search crawler)啟始頁應該具有META ROBOT標籤,並告訴搜尋引擎追蹤該頁內的所有連結但並不將該頁面列入搜尋結果。上面我們提到,這樣的頁面應該寫成NO INDEX, FOLLOW,這樣搜尋引擎才可以按我們希望的方式遍歷整個網站。 對於一些搜尋引擎,尤其是內部網站的搜尋引擎,可以直接將站點索引列表指定給搜尋引擎。但是更多情況下,我們無法為搜尋引擎指定頁面索引。在這種情況下,只需要在首頁建立一個標準連結,指向這個索引頁就可以了。由於我們希望的是搜尋引擎可以跟隨這個索引中的連結進行搜尋,因此沒必要為首頁上的這個連結新增任何可顯示的文字內容。比如將下面這樣的語句新增在首頁即可: 消除頁面中的干擾 在保證搜尋引擎可以檢索到全部頁面後,我們要做的就是精簡搜尋結果,讓使用者獲得最有價值的資訊。第一步就是消除頁面中會分散搜尋引擎注意力的專案。舉個例子來說,導航選單對於搜尋引擎來說基本沒有用處,因為它們會出現在每個頁面中,並且包含的內容完全相同。另一方面,客戶可能並不能很精確的給出所要查詢內容的關鍵詞,而是僅僅給出一個模糊的詞,這個詞可能出現在網站的導航選單裡,也給搜尋定位帶來了麻煩。 不過要解決這些問題也不是沒有辦法。當搜尋引擎訪問一個網站時,它首先會檢查該網站的根域下是否有一個叫做robots.txt的純文字檔案,robot包含一個User-Agent(使用者代理)字串行,用於限定搜尋引擎對其網站的訪問範圍,即告訴搜尋引擎網站中哪些檔案是允許它進行檢索的。因此當搜尋引擎發來請求時,則可以遮蔽掉頁面中的選單以及廣告等與網頁內容無關的資訊。 通過這種機制,搜尋引擎搜尋到的內容都是與使用者的需求緊密聯絡的,不會檢索到與核心內容無關的資訊,也不會將導航選單中的關鍵字也列出在搜尋結果中。 為頁面新增正確標題 要優化搜尋引擎的效能,還需要注意為頁面新增正確的標題。大部分搜尋引擎會在搜尋結果中列出頁面標題。同樣,在META標籤中使用KEYWORDS引數也可以在搜尋結果中提高相應關鍵字的排名。