1. 程式人生 > 實用技巧 >Screaming Frog SEO Spider的11個鮮為人知的功能

Screaming Frog SEO Spider的11個鮮為人知的功能

Screaming Frog SEO Spider已經推出好久,歷經多次更新,很多使用者都在使用,作為其中一個使用者,你對Screaming Frog SEO Spider的瞭解有多少呢?Screaming Frog SEO Spider的11個鮮為人知的功能你用過幾個?下面我們一起來看看吧。

1)以相同的順序匯出列表

如果您已將網址列表上傳到SEO Spider中,執行了抓取並希望以上傳時的順序匯出它們,請使用“上傳”和“開始”按鈕旁邊的“匯出”按鈕在使用者介面的頂部。

否則,儀表板上的標準匯出按鈕將根據首先抓取的內容以及內部的標準化方式按順序匯出URL(在通常不採用廣度優先的蜘蛛模式的多執行緒抓取工具中,URL看起來非常隨機) )。

匯出中的資料將以完全相同的順序進行,幷包括原始上傳檔案中的所有確切URL,包括重複項,規範化或執行的任何修正。

2)抓取在Google Analytics(分析)和Search Console中發現的新網址

如果您通過API連線到Google Analytics(分析)或Search Console,預設情況下,發現的所有新URL不會自動新增到佇列中並進行爬網。載入了URL,將資料與爬網中的URL進行了匹配,並且任何孤立URL(僅在GA或GSC中發現的URL)都可以通過“孤立頁面”報告匯出獲得。

如果您希望將自動發現的所有URL新增到佇列中,對其進行爬網並在介面中檢視它們,只需啟用“對在Google Analytics /搜尋控制檯中發現的新URL進行爬網”配置。

可在“配置> API訪問”下,然後在“ Google Analytics(分析)”或“ Google Search Console”(Google搜尋控制檯)及其各自的“常規”標籤下使用。

這意味著發現的新URL將出現在介面中,而孤立頁面將出現在Analytics(分析)和Search Console標籤中的相應過濾器下方(執行抓取分析之後)。

3)切換到資料庫儲存模式

SEO Spider傳統上使用RAM來儲存資料,這使它能夠快速,靈活地針對幾乎所有機器規格進行爬網。但是,它對於爬網大型網站不是很可擴充套件。因此,去年年初我們推出了首個可配置的混合儲存引擎,該引擎使SEO Spider能夠以前所未有的規模針對任何桌面應用程式進行爬網,同時保留相同的熟悉的實時報告和可用性。

因此,如果您需要使用桌面搜尋器來搜尋數百萬個URL,您確實可以。您也不需要繼續增加RAM即可,而改用資料庫儲存。使用者可以通過在介面中選擇“資料庫儲存模式”來選擇儲存到磁碟(通過“配置”>“系統”>“儲存”)。

資料庫儲存石

這意味著SEO Spider將在RAM中儲存儘可能多的資料(取決於使用者分配),並將其餘資料儲存到磁碟。實際上,對於所有使用SSD(或速度更快的驅動器)的使用者,我們都建議將其作為預設設定,因為它既快速又使用更少的RAM。

4)檢索後請求Google Analytics(分析),Search Console和連結資料

如果您已經執行了爬網,卻忘記了連線到Google Analytics(分析),Search Console或外部連結指標提供商,那麼就不用擔心了。您可以在抓取後連線到其中任何一個,然後單擊“ API”選項卡底部漂亮隱藏的“請求API資料”按鈕。

或者,也可以在“配置> API訪問”主選單中使用“請求API資料”。

這意味著將資料從相應的API中提取出來,並與已經抓取的URL進行匹配。

5)禁用HSTS以檢視“真實”重定向狀態程式碼

HTTP嚴格傳輸安全性(HSTS)是一種標準,Web伺服器可以通過該標準向客戶端宣告只能通過HTTPS訪問它。預設情況下,SEO Spider將遵循HSTS,如果在爬網過程中由伺服器宣告並發現內部HTTP連結,系統將報告狀態為307的狀態程式碼,其狀態為“ HSTS策略”,重定向型別為“ HSTS策略”。報告HSTS設定在稽核安全性時非常有用,307響應程式碼提供了一種發現不安全連結的簡便方法。

與通常的重定向不同,此重定向實際上不是由Web伺服器傳送的,它是在內部(通過瀏覽器和SEO Spider)翻轉的,它僅請求HTTPS版本而不是HTTP URL(因為所有請求都必須為HTTPS)。但是,報告的狀態碼為307,因為您必須為HSTS設定到期時間。這就是為什麼它是一個臨時重定向。

儘管HSTS宣告所有請求都應通過HTTPS進行,但仍然需要站點範圍的HTTP-> HTTPS重定向。這是因為除非通過HTTPS傳送,否則將忽略Strict-Transport-Security標頭。因此,如果第一次訪問您的站點不是通過HTTPS,您仍然需要將該初始重定向到HTTPS來傳遞Strict-Transport-Security標頭。

因此,如果您要稽核已啟用HSTS的HTTP到HTTPS遷移,則需要檢查就位的基礎“真實”站點範圍重定向狀態程式碼(並確定它是否為301重定向)。因此,您可以通過取消選中SEO Spider的“配置>蜘蛛>高階”下的“尊重HSTS策略”配置來選擇禁用HSTS策略。

這意味著SEO Spider將完全忽略HSTS並報告底層的重定向和狀態程式碼。當您知道所有HSTS設定正確後,您可以切換回尊重HSTS,而SEO Spider只會再次請求URL的安全版本。查閱我們的SEO指南以搜尋HSTS。

6)同時比較並執行抓取

目前,您無法直接在SEO Spider中比較抓取。但是,您可以開啟軟體的多個例項,並執行多個爬網,或同時比較爬網。

在Windows上,這就像通過快捷方式再次開啟軟體一樣簡單。對於macOS,要開啟SEO Spider的其他例項,請開啟終端並輸入以下命令:

開啟-n / Applications / Screaming \ Frog \ SEO \ Spider.app/

現在,您可以執行多個爬網,或同時比較多個爬網。

7)抓取任何Web表單,登入區域和旁路Bot保護

SEO Spider長期以來一直支援基於基本和摘要標準的身份驗證,通常用於安全訪問開發伺服器和登臺站點。但是,SEO Spider還可以使用其內建的Chromium瀏覽器登入到任何需要Cookie的Web表單。

可以在“配置>身份驗證>基於表單”下找到此精美功能,您可以在其中載入幾乎所有受密碼保護的網站,Intranet或Web應用程式,並進行登入和爬網。例如,如果您確實想破壞(或改善)您的團隊,則可以登入並爬上您寶貴的幻想足球。

此功能非常強大,因為它提供了一種在SEO Spider中設定cookie的方法,因此它還可以用於諸如繞過geo IP重定向或站點使用帶有reCAPTCHA的殭屍保護之類的情況。

您可以僅將頁面載入到內建瀏覽器中,確認您不是機器人,然後爬網。如果您在最初進行預抓取時載入頁面,則可能甚至看不到驗證碼,並且會向其傳送所需的Cookie。顯然,您也應該獲得該網站的許可。

但是,強大的功能會負責任地發揮作用,因此請謹慎使用此功能。

在測試過程中,以“管理員”身份登入時,我們讓SEO Spider在我們的測試站點上鬆了下來,很有趣。我們讓它爬行了半個小時;當時,它為該網站安裝並設定了新主題,安裝了108個外掛並激活了其中的8個,刪除了一些帖子,並且通常情況一團糟。

考慮到這一點,請閱讀我們負責任地檢索受密碼保護的網站的指南。

8)使用JavaScript呈現模式抓取(和刪除)URL片段

(請注意–下述行為已更改。預設情況下,在任何模式下都不對片段進行爬網。要爬網片段(無論模式如何),請通過“配置>蜘蛛>高階”啟用“爬網片段識別符號”)

有時,在稽核網站時,使用帶有片段(/頁面名稱/#this-is-a-fragment)的URL進行爬網很有用,並且預設情況下,SEO Spider將以JavaScript呈現模式對它們進行爬網。

您可以在下面檢視使用它們的常見問題解答。

儘管這可能有所幫助,但搜尋引擎顯然會忽略該片段中的任何內容,並在沒有該片段的情況下對URL進行爬網和索引。因此,通常您可能希望使用URL重寫中的“正則表示式替換”功能來切換此行為。只需在提交的“正則表示式”中包含#。*,並將“替換”欄位保留為空白即可。

這意味著它們將以與預設的純HTML文字模式相同的方式進行爬網和索引而不會產生碎片。

9)利用“爬網分析”獲得連結得分,更多資料(和資料洞察)

儘管上面討論的某些功能已經有一段時間可用了,但``爬網分析''功能是在9月底(2018年)的10版中釋出的。

SEO Spider在執行時分析和報告資料,在爬網過程中會填充指標,選項卡和過濾器。但是,作為內部PageRank計算的“連結分數”和少量過濾器需要在爬網結束時(或至少在爬網已暫停的情況下)進行計算。

需要“抓取分析”的13個專案的完整列表可以在SEO Spider頂級選單的“抓取分析>配置”下看到,並在下面檢視。

以上所有內容均為各自標籤下的過濾器,“連結得分”是一種指標,在“內部”標籤中顯示為一列。

在右側的“概述”視窗窗格中,需要進行“爬網分析”的過濾器標有“需要進行爬網分析”,以進一步說明。特別是“站點地圖”過濾器,大多數情況下需要進行抓取後分析。

它們在主視窗窗格中也標記為“您需要對此選項卡執行爬網分析才能填充此過濾器”。

通過在“配置”下的相應“在爬網結束時自動分析”複選框打勾,可以在爬網結束時自動執行此分析,也可以由使用者手動執行。

要執行爬網分析,只需單擊“爬網分析>開始”。

抓取分析執行時,您會看到“分析”進度條,其中包含完成百分比。在此期間,SEO Spider可以繼續正常使用。

爬網分析完成後,標有“需要進行爬網分析”的空過濾器將填充許多可愛的有見地的資料。

“連結得分”指標顯示在“內部”標籤中,並根據其內部連結計算頁面的相對值。

為了簡單起見,這使用從最小到最大的相對0-100點比例,這使您可以確定在哪些地方可以改進關鍵頁面的內部連結。當使用其他內部連結資料(例如,連結數,唯一連結數和到頁面的連結百分比(從整個網站))時,它可能特別強大。

10)儲存HTML和渲染的HTML以幫助除錯

我們偶爾會收到使用者的支援查詢,報告說缺少頁面標題,描述,規範或頁面內容,這些內容似乎沒有被SEO Spider所獲取,但可以在瀏覽器中以及檢視HTML原始碼時看到。

通常,這被認為是某種錯誤,但是大多數情況下,它取決於使用者代理,accept-language標頭,是否響應瀏覽器而不是SEO Spider的請求。 cookie被接受,或者如果伺服器處於負載狀態(例如)。

因此,進行自我診斷和調查的一種簡單方法是,通過選擇將伺服器返回的HTML儲存在響應中,來確切地看到SEO Spider可以看到的內容。

通過導航到“配置>蜘蛛>高階”,您可以選擇儲存原始HTML和渲染的HTML來檢查DOM(在JavaScript渲染模式下)。

檢索到URL後,可以在下部視窗的“檢視原始碼”選項卡中檢視返回到SEO Spider檢索頁面時的確切HTML。

通過檢視返回的HTML,您可以除錯問題,然後使用其他使用者代理進行調整,或者接受Cookie等。例如,您將看到缺少的頁面標題,然後能夠確定其丟失的條件。

此功能是一種非常有效的方法,可以快速診斷問題,並更好地瞭解SEO Spider能夠看到和抓取的內容。

11)通過CLI使用儲存的配置檔案

在最新的SEO Spider版本10中,我們引入了命令列介面。SEO Spider可以通過命令列進行操作,包括啟動,儲存和匯出,並且您可以使用–help檢視可用的完整引數。

但是,並非所有配置選項都可用,因為如果您考慮全部可用,則會有數百個引數。因此,訣竅是將儲存的配置檔案用於更高階的方案。

開啟SEO Spider GUI,選擇您的選項,無論是基本配置還是自定義搜尋,提取等更高階的功能,然後儲存配置檔案。

要儲存配置檔案,請單擊“檔案>另存為”並調整檔名(最好是描述性的!)。

然後,您可以提供config引數來設定命令列爬網的配置配置檔案(並在將來使用)。

--config“ C:\ Users \您的名稱\ Crawls \ super-awesome.seospiderconfig”

這確實打開了通過命令列使用SEO Spider的可能性。