揭穿網站爬網、索引和 XML 站點地圖背後的 3 個常見誤區

已發表: 2018-03-07

我們中的許多人錯誤地認為，啟動配備 XML 站點地圖的網站會自動獲取其所有頁面的抓取和索引。

在這方面，一些神話和誤解逐漸形成。最常見的是：

谷歌會自動抓取所有網站並且速度很快。
抓取網站時，Google 會跟踪所有鏈接並訪問其所有頁面，並立即將它們全部包含在索引中。
添加 XML 站點地圖是讓所有站點頁面都被抓取和索引的最佳方式。

可悲的是，將您的網站納入 Google 的索引是一項更複雜的任務。繼續閱讀以更好地了解抓取和索引過程的工作原理，以及 XML 站點地圖在其中扮演的角色。

在我們開始揭穿上述神話之前，讓我們學習一些基本的 SEO 概念：

爬行是搜索引擎實現的一種活動，用於跟踪和收集來自整個 Web 的 URL。

索引是爬行之後的過程。基本上，它是關於解析和存儲稍後在為搜索引擎查詢提供結果時使用的 Web 數據。搜索引擎索引是存儲所有收集到的 Web 數據以供進一步使用的地方。

抓取排名是 Google 分配給您的網站及其頁面的值。目前尚不清楚搜索引擎如何計算該指標。谷歌多次確認索引頻率與排名無關，因此網站排名權威與其抓取排名沒有直接關係。

新聞網站、內容有價值的網站以及定期更新的網站更有可能被定期抓取。

抓取預算是搜索引擎分配給網站的抓取資源的數量。通常，Google 會根據您的網站 Crawl Rank 計算此金額。

爬網深度是谷歌在瀏覽網站時向下鑽取的程度。

抓取優先級是分配給網站頁面的序號，表示其在抓取方面的重要性。

現在，了解了該過程的所有基礎知識，讓我們了解 XML 站點地圖背後的 3 個神話，即爬取和索引編制破滅！

誤區 1. Google 會自動抓取所有網站，而且速度很快。
外賣
誤區 2. 添加 XML 站點地圖是讓所有站點頁面都被抓取和索引的最佳方式。
外賣
誤區 3. XML 站點地圖可以解決所有抓取和索引問題。
外賣

誤區 1. Google 會自動抓取所有網站，而且速度很快。

谷歌聲稱，在收集網絡數據方面，它是敏捷和靈活的。

但說實話，因為目前網絡上有數以萬億計的頁面，從技術上講，搜索引擎無法快速抓取所有頁面。

選擇要為其分配抓取預算的網站

智能谷歌算法（又名抓取預算）分配搜索引擎資源並決定哪些網站值得抓取，哪些不值得抓取。

通常，Google 會優先考慮符合設定要求的可信網站，並作為定義其他網站如何衡量的基礎。

因此，如果您有一個剛出爐的網站，或者一個內容被抓取、重複或稀薄的網站，那麼它被正確抓取的機會非常小。

也可能影響分配抓取預算的重要因素是：

網站規模，
它的總體健康狀況（這組指標取決於您在每個頁面上可能出現的錯誤數量），
以及入站和內部鏈接的數量。

要增加獲得抓取預算的機會，請確保您的網站滿足上述所有 Google 要求，並優化其抓取效率（請參閱本文的下一部分）。

預測爬行時間表

Google 並未公佈其抓取 Web URL 的計劃。此外，很難猜測搜索引擎訪問某些網站的周期性。

可能對於一個站點，它可能每天至少執行一次爬網，而對於其他一些站點，每月訪問一次甚至更少。

爬行的周期性取決於：
網站內容的質量，
網站提供的信息的新穎性和相關性，
以及搜索引擎認為網站 URL 的重要性或受歡迎程度。

考慮到這些因素，您可以嘗試預測 Google 訪問您網站的頻率。

外部/內部鏈接和 XML 站點地圖的作用

作為路徑，Googlebots 使用鏈接將網站頁面和網站相互連接起來。因此，搜索引擎可以訪問 Web 上存在的數万億個相互關聯的頁面。

搜索引擎可以從任何頁面開始掃描您的網站，而不必從主頁開始。爬行進入點的選擇取決於入站鏈接的來源。比如說，你的一些產品頁面有很多來自不同網站的鏈接。谷歌連接這些點並在第一輪訪問這些受歡迎的頁面。

XML 站點地圖是構建經過深思熟慮的站點結構的絕佳工具。此外，它還可以使網站爬取過程更具針對性和智能化。

基本上，站點地圖是包含所有站點鏈接的樞紐。包含在其中的每個鏈接都可以配備一些額外的信息：最後更新日期、更新頻率、它與站點上其他 URL 的關係等。

所有這些都為 Googlebots 提供了詳細的網站抓取路線圖，並使抓取更加知情。此外，所有主要搜索引擎都會優先考慮站點地圖中列出的 URL。

總而言之，要讓您的網站頁面出現在 Googlebot 的雷達上，您需要建立一個內容豐富的網站並優化其內部鏈接結構。

外賣

• Google 不會自動抓取您的所有網站。
• 網站爬取的周期取決於網站及其頁面的重要性或受歡迎程度。
• 更新內容使 Google 更頻繁地訪問網站。
• 不符合搜索引擎要求的網站不太可能被正確抓取。
• 沒有內部/外部鏈接的網站和網站頁面通常會被搜索引擎機器人忽略。
• 添加 XML 站點地圖可以改進網站爬取過程並使其更加智能。

誤區 2. 添加 XML 站點地圖是讓所有站點頁面都被抓取和索引的最佳方式。

每個網站所有者都希望 Googlebot 訪問所有重要的網站頁面（除了那些隱藏在索引中的頁面），並立即探索新的和更新的內容。

但是，搜索引擎對網站抓取優先級有自己的看法。

在檢查網站及其內容時，Google 使用一組稱為抓取預算的算法。基本上，它允許搜索引擎掃描網站頁面，同時精明地使用自己的資源。

檢查網站抓取預算

很容易弄清楚您的網站是如何被抓取的，以及您是否有任何抓取預算問題。

你只需要：

計算您網站和 XML 站點地圖中的頁面數，
訪問 Google Search Console，跳轉到 Crawl -> Crawl Stats 部分，查看每天在您的網站上抓取多少頁面，
將您的網站頁面總數除以每天抓取的頁面數。

如果您獲得的數量大於 10（您網站上的網頁數量是 Google 每天抓取的網頁數量的 10 倍），我們有一個壞消息要告訴您：您的網站存在抓取問題。

但是在學習如何修復它們之前，您需要了解另一個概念，即……

爬行深度

爬取深度是谷歌不斷探索網站到一定程度的程度。

通常，主頁被認為是 1 級，點擊 1 次的頁面是 2 級，依此類推。

深層頁面的 Pagerank 較低（或根本沒有），並且不太可能被 Googlebot 抓取。通常，搜索引擎的挖掘深度不會超過 4 級。

在理想情況下，特定頁面應該距離主頁或主要站點類別 1-4 次點擊。該頁面的路徑越長，搜索引擎需要分配的資源就越多。

如果在一個網站上，谷歌估計路徑太長，它會停止進一步的抓取。

優化爬網深度和預算

為防止 Googlebot 變慢，優化您的網站抓取預算和深度，您需要：

修復所有404、JS等頁面錯誤；

過多的頁面錯誤會顯著降低 Google 爬蟲的速度。要查找所有主要站點錯誤，請登錄您的 Google（Bing、Yandex）網站管理員工具面板並按照此處給出的所有說明進行操作。

優化分頁；

如果您的分頁列表太長，或者您的分頁方案不允許點擊列表中的幾個頁面，搜索引擎爬蟲可能會停止挖掘這麼多頁面。

此外，如果每個此類頁面的項目很少，則可以將其視為內容稀薄的頁面，並且不會被爬取。

檢查導航過濾器；

一些導航方案可能帶有多個生成新頁面的過濾器（例如，通過分層導航過濾的頁面）。儘管此類頁面可能具有自然流量潛力，但它們也可能在搜索引擎爬蟲上產生不必要的負載。

解決此問題的最佳方法是將系統鏈接限製到過濾列表。理想情況下，您應該最多使用 1-2 個過濾器。例如，如果您的商店有 3 個 LN 過濾器（顏色/尺寸/性別），您應該只允許系統地組合 2 個過濾器（例如，顏色-尺寸、性別-尺寸）。如果您需要添加更多過濾器的組合，您應該手動添加它們的鏈接。

優化 URL 中的跟踪參數；

各種 URL 跟踪參數（例如 '?source=thispage'）可以為爬蟲創建陷阱，因為它們會生成大量新 URL。此問題通常出現在具有“類似產品”或“相關故事”塊的頁面中，其中這些參數用於跟踪用戶的行為。

在這種情況下，為了優化爬取效率，建議在 URL 末尾添加“#”後面的跟踪信息。這樣，這樣的 URL 將保持不變。此外，還可以將帶有跟踪參數的 URL 重定向到相同的 URL，但不進行跟踪。

刪除過多的 301 重定向；

比如說，你有一大塊鏈接到的 URL 沒有尾部斜杠。當搜索引擎機器人訪問此類頁面時，它會被重定向到帶有斜杠的版本。

因此，機器人必須做兩倍於它應該做的事情，最終它可以放棄並停止爬行。為避免這種情況，只要在更改 URL 時嘗試更新站點內的所有鏈接。

抓取優先級

如上所述，谷歌優先抓取網站。所以難怪它對爬網網站中的頁面做同樣的事情。

對於大多數網站來說，爬取優先級最高的頁面是首頁。

但是，如前所述，在某些情況下，這也可能是最受歡迎的類別或訪問量最大的產品頁面。要查找 Googlebot 抓取次數較多的網頁，只需查看您的服務器日誌即可。

儘管 Google 並未正式宣布可能影響網站頁面抓取優先級的因素有：

包含在 XML 站點地圖中（並為最重要的頁面添加優先級標籤*），
入站鏈接的數量，
內部鏈接的數量，
頁面受歡迎程度（訪問次數），
網頁排名。

但是，即使您已經為搜索引擎機器人抓取您的網站掃清了道路，他們仍然可能會忽略它。繼續閱讀以了解原因。

為了更好地了解抓取優先級，請觀看 Gary Illyes 的這個虛擬主題演講。

談到 XML 站點地圖中的優先級標籤，它們可以手動添加，也可以藉助站點所基於的平台的內置功能添加。此外，一些平台支持簡化流程的第三方 XML 站點地圖擴展/應用程序。
使用 XML 站點地圖優先級標記，您可以將以下值分配給不同類別的站點頁面：

0.0-0.3 到實用頁面、過時的內容和任何次要的頁面，
0.4-0.7 到您的博客文章、常見問題解答和知識頁面、次要的類別和子類別頁面，以及
0.8-1.0 到您的主要網站類別、關鍵登錄頁面和主頁。

外賣

• Google 對抓取過程的優先級有自己的看法。
• 應該進入搜索引擎索引的頁面應該距離主頁、主要站點類別或最受歡迎的站點頁面 1-4 次點擊。
• 為防止Googlebot 變慢並優化您的網站抓取預算和抓取深度，您應該查找並修復404、JS 和其他頁面錯誤，優化網站分頁和導航過濾器，去除過多的301 重定向並優化URL 中的跟踪參數。
• 為了提高重要站點頁面的抓取優先級，確保它們包含在 XML 站點地圖中（帶有優先級標籤）並與其他站點頁面良好鏈接，具有來自其他相關和權威網站的鏈接。

誤區 3. XML 站點地圖可以解決所有抓取和索引問題。

XML 站點地圖雖然是一種很好的通信工具，可以提醒 Google 您的站點 URL 和訪問它們的方式，但不能保證您的站點會被搜索引擎機器人訪問（更不用說將所有站點頁麵包含到索引中） .

此外，您應該了解站點地圖不會幫助您提高網站排名。即使一個頁面被抓取並包含在搜索引擎索引中，其排名性能也取決於大量其他因素（內部和外部鏈接、內容、網站質量等）。

但是，如果使用得當，XML 站點地圖可以顯著提高您的站點抓取效率。以下是有關如何最大限度地發揮該工具的 SEO 潛力的一些建議。

始終如一

創建站點地圖時，請記住它將用作 Google 爬蟲的路線圖。因此，重要的是不要通過提供錯誤的方向來誤導搜索引擎。

例如，您可能偶爾會在您的 XML 站點地圖中包含一些實用程序頁面（聯繫我們或 TOS 頁面、登錄頁面、恢復丟失的密碼頁面、共享內容頁面等）。

這些頁面通常使用 noindex robots 元標記從索引中隱藏或在 robots.txt 文件中被禁止。

因此，將它們包含在 XML 站點地圖中只會混淆 Googlebot，這可能會對收集有關您網站的信息的過程產生負面影響。

定期更新

Web 上的大多數網站幾乎每天都在變化。尤其是電子商務網站，其產品和類別經常在網站內外進行洗牌。

為了讓 Google 消息靈通，您需要使您的 XML 站點地圖保持最新。

某些平台（Magento、Shopify）要么具有允許您定期更新 XML 站點地圖的內置功能，要么支持一些能夠執行此任務的第三方解決方案。

例如，在 Magento 2 中，您可以設置站點地圖更新周期的周期性。當您在平台的配置設置中定義它時，您會向爬蟲發出信號，告知您的網站頁面會以特定時間間隔（每小時、每週、每月）更新，並且您的網站需要再次抓取。

單擊此處了解更多信息。

但請記住，雖然設置站點地圖更新的優先級和頻率會有所幫助，但它們可能無法趕上真正的變化，有時也無法提供真實的畫面。

這就是為什麼要確保您的站點地圖反映了最近所做的所有更改。

細分網站內容並設置正確的抓取優先級

谷歌正在努力衡量網站的整體質量，只展示最好和最相關的網站。

但正如經常發生的那樣，並非所有網站都是平等的並且能夠提供真正的價值。

比如說，一個網站可能有 1000 個頁面，其中只有 50 個是“A”級。其他的要么純粹是功能性的，要么有過時的內容，要么根本沒有內容。

如果谷歌開始探索這樣一個網站，它可能會認為它是非常垃圾，因為低價值、垃圾郵件或過時頁面的比例很高。

這就是為什麼在創建 XML 站點地圖時，建議對網站內容進行分段並將搜索引擎機器人僅引導到有價值的站點區域。

您可能還記得，分配給 XML 站點地圖中最重要站點頁面的優先級標籤也可以提供很大幫助。

外賣

• 創建站點地圖時，請確保您不包含使用 noindex robots 元標記或在 robots.txt 文件中被禁止的頁面隱藏在索引中的頁面。
• 更改網站結構和內容後立即更新 XML 站點地圖（手動或自動）。
• 細分您的網站內容，以在站點地圖中僅包含“A”級頁面。
• 設置不同頁麵類型的抓取優先級。

基本上就是這樣。

對這個話題有話要說嗎？請隨時在下面的評論部分分享您對抓取、索引或站點地圖的看法。