如何為 SEO 配置 Magento 2 robots.txt 文件

已發表: 2021-01-21

目錄

SEO 是您商店成功的重要因素,正確配置的 robots.txt 對使搜索引擎爬蟲的工作更輕鬆做出了不小的貢獻。

什麼是 robots.txt?

簡而言之,robots.txt 是一個文件,它指示搜索引擎爬蟲他們可以或不能爬取什麼。 如果您的根目錄中沒有 robots.txt,搜索引擎抓取工具會在您的商店中抓取所有可以抓取的內容,其中包括您不希望搜索引擎抓取工具浪費其抓取預算的重複或不重要的頁面。 robots.txt 應該能夠解決這個問題。

注意:robots.txt 文件不應用於向 Google 隱藏您的網頁。 為此,您應該使用noindex元標記。

Magento 2 中的默認 robots.txt 指令

默認情況下,Magento 生成的 robots.txt 文件只包含網絡爬蟲的一些基本指令。

 # Magento 提供的默認指令
用戶代理: *
禁止:/lib/
禁止:/*.php$
禁止:/pkginfo/
禁止:/report/
禁止:/var/
禁止:/目錄/
不允許:/客戶/
禁止:/sendfriend/
禁止:/review/
不允許:/*SID=

要生成這些默認說明,請在 Magento 後端的 Search Engine Robots 配置中點擊Reset to Defaults按鈕。

重置為默認 robots.txt 說明

為什麼需要在 Magento 2 中製作自定義 robots.txt 指令

雖然 Magento 提供的默認 robots.txt 指令對於告訴爬蟲避免爬取系統內部使用的某些文件是必要的,但對於大多數 Magento 商店來說,它們還遠遠不夠。

搜索引擎機器人只有有限的資源用於抓取網頁。 對於具有數千甚至數百萬 URL 的站點(這比您想像的更常見),您需要優先考慮需要爬取的內容類型(使用 sitemap.xml)並禁止不相關的被抓取的頁面(帶有 robots.txt)。 後一部分是通過禁止在您的 robots.txt 中抓取重複、不相關和不必要的頁面來完成的。

robots.txt 指令的基本格式

robots.txt 中的說明以連貫的方式排列,對非技術用戶友好:

 # 規則1
用戶代理:Googlebot
禁止:/nogooglebot/

# 規則 2
用戶代理: *
允許: /

站點地圖:https://www.example.com/sitemap.xml
  • User-agent :表示該規則所針對的特定爬蟲。 一些常見的用戶代理是GooglebotGooglebot-ImageMediapartners-GoogleGooglebot-Video等。有關常見爬蟲的廣泛列表,請參閱 Google 爬蟲概述。
  • Allow & Disallow :指定指定爬蟲可以或不能訪問的路徑。 例如, Allow: /表示爬蟲可以不受限制地訪問整個站點。
  • Sitemap :指示您商店的站點地圖的路徑。 站點地圖是一種告訴搜索引擎爬蟲優先考慮哪些內容的方法,而 robots.txt 中的其餘內容則告訴爬蟲可以或不能爬取哪些內容。

同樣在 robots.txt 中,您可以使用多個通配符作為路徑值,例如:

  • * :當放入user-agent時,星號 (*) 指的是所有訪問該網站的搜索引擎爬蟲(AdsBot 爬蟲除外)。 在Allow / Disallow指令中使用時,它表示任何有效字符的 0 個或多個實例(例如, Allow: /example*.css匹配/example.css以及/example12345.css )。
  • $ :指定 URL 的結尾。 例如, Disallow: /*.php$將阻止所有以.php結尾的文件
  • # :指定評論的開始,爬蟲將忽略。

注意:除了 sitemap.xml 路徑,robots.txt 中的路徑總是相對的,這意味著您不能使用完整的 URL(例如 https://simicart.com/nogooglebot/)來指定路徑。

在 Magento 2 中配置 robots.txt

要訪問 robots.txt 文件編輯器,請在 Magento 2 管理員中:

第 1 步:轉到內容>設計>配置

第 2 步:編輯第一行中的全局配置

編輯全局設計配置

第 3 步:在搜索引擎機器人部分,編輯自定義說明

編輯 robots.txt 文件的自定義指令

推薦 robots.txt 說明

這是我們推薦的說明,應該適合一般需求。 當然,每個商店都不同,您可能需要調整或添加更多規則以獲得最佳結果。

 用戶代理: *

# 默認指令:
禁止:/lib/
禁止:/*.php$
禁止:/pkginfo/
禁止:/report/
禁止:/var/
禁止:/目錄/
不允許:/客戶/
禁止:/sendfriend/
禁止:/review/
不允許:/*SID=

# 禁止根目錄中的常見 Magento 文件:
禁止:/cron.php
禁止:/cron.sh
禁止:/error_log
禁止:/install.php
不允許:/LICENSE.html
不允許:/LICENSE.txt
禁止:/LICENSE_AFL.txt
禁止:/STATUS.txt

# 禁止用戶帳戶 & 結帳頁面:
禁止:/checkout/
禁止:/onestepcheckout/
不允許:/客戶/
禁止:/客戶/帳戶/
禁止:/customer/account/login/

# 禁止目錄搜索頁面:
禁止:/catalogsearch/
禁止:/catalog/product_compare/
禁止:/catalog/category/view/
不允許:/catalog/product/view/

# 禁止 URL 過濾器搜索
禁止:/*?dir*
禁止:/*?dir=desc
禁止:/*?dir=asc
禁止:/*?limit=all
禁止:/*?mode*

# 禁止 CMS 目錄:
禁止:/app/
禁止:/bin/
禁止:/dev/
禁止:/lib/
禁止:/phpserver/
禁止:/pub/

# 禁止重複內容:
禁止:/標籤/
禁止:/review/
不允許:/*?*product_list_mode=
不允許:/*?*product_list_order=
禁止:/*?*product_list_limit=
禁止:/*?*product_list_dir=

# 服務器設置
# 禁止服務器上的一般技術目錄和文件
禁止:/cgi-bin/
禁止:/cleanup.php
禁止:/apc.php
禁止:/memcache.php
禁止:/phpinfo.php

# 禁止版本控製文件夾和其他
禁止:/*.git
禁止:/*.CVS
禁止:/*.Zip$
禁止:/*.Svn$
禁止:/*.Idea$
禁止:/*.Sql$
禁止:/*.Tgz$

站點地圖:https://www.example.com/sitemap.xml

結論

創建 robots.txt 文件只是 Magento SEO 清單中的眾多步驟之一,並且為搜索引擎正確優化 Magento 商店對於大多數商店所有者來說肯定不是一件容易的事。 如果您不想處理這個問題,我們可以為您處理一切。 在 SimiCart,我們提供 SEO 和速度優化服務,保證為您的商店提供最佳結果。

學到更多