Comment configurer le fichier robots.txt de Magento 2 pour le référencement

Publié: 2021-01-21

Table des matières

Le référencement est un facteur important pour le succès de votre boutique, et un fichier robots.txt correctement configuré contribue largement à faciliter le travail des robots des moteurs de recherche.

Qu'est-ce que robots.txt ?

En un mot, robots.txt est un fichier qui indique aux robots des moteurs de recherche ce qu'ils peuvent ou ne peuvent pas explorer. Sans robots.txt dans votre répertoire racine, les robots des moteurs de recherche traversant votre boutique exploreront tout ce qu'ils peuvent, et cela inclut les pages dupliquées ou sans importance sur lesquelles vous ne voulez pas que les robots des moteurs de recherche gaspillent leur budget d'exploration. Un robots.txt devrait pouvoir résoudre ce problème.

Remarque : Le fichier robots.txt ne doit pas être utilisé pour masquer vos pages Web à Google. Vous devriez plutôt utiliser la balise meta noindex à cette fin.

Instructions robots.txt par défaut dans Magento 2

Par défaut, le fichier robots.txt généré par Magento ne contient que quelques instructions de base pour le robot d'exploration Web.

 # Instructions par défaut fournies par Magento
Agent utilisateur: *
Interdire : /lib/
Interdire : /*.php$
Interdire : /pkginfo/
Interdire : /signaler/
Interdire : /var/
Interdire : /catalogue/
Interdire : /client/
Interdire : /sendfriend/
Interdire : /revoir/
Interdire : /*SID=

Pour générer ces instructions par défaut, cliquez sur le bouton Reset to Defaults dans la configuration de Search Engine Robots dans votre backend Magento.

Rétablir les instructions par défaut du fichier robots.txt

Pourquoi vous devez créer des instructions robots.txt personnalisées dans Magento 2

Alors que les instructions robots.txt par défaut fournies par Magento sont nécessaires pour indiquer aux robots d'exploration d'éviter d'explorer certains fichiers utilisés en interne par le système, elles ne sont pas suffisantes pour la plupart des magasins Magento.

Les robots des moteurs de recherche ne disposent que d'une quantité limitée de ressources pour explorer les pages Web. Pour un site avec des milliers, voire des millions d'URL à explorer (ce qui est plus courant que vous ne le pensez), vous devrez hiérarchiser le type de contenu à explorer (avec un sitemap.xml) et interdire les contenus non pertinents. pages d'être explorées (avec un robots.txt). La dernière partie est effectuée en interdisant l'exploration des pages dupliquées, non pertinentes et inutiles dans votre robots.txt.

Format de base des directives robots.txt

Les instructions dans le fichier robots.txt sont présentées de manière cohérente, conviviale pour les utilisateurs non techniques :

 # Règle 1
Agent utilisateur : Googlebot
Interdire : /nogooglebot/

# Règle 2
Agent utilisateur: *
Permettre: /

Plan du site : https://www.example.com/sitemap.xml

User-agent : indique le crawler spécifique auquel la règle est destinée. Certains agents utilisateurs courants sont Googlebot , Googlebot-Image , Mediapartners-Google , Googlebot-Video , etc. Pour une liste complète des robots d'exploration courants, consultez Présentation des robots d'exploration Google.

Allow et Disallow : spécifiez les chemins auxquels le ou les robots d'exploration désignés peuvent ou ne peuvent pas accéder. Par exemple, Allow: / signifie que le robot d'exploration peut accéder à l'ensemble du site sans restriction.

Sitemap du site : indique le chemin vers le plan du site de votre boutique. Le plan du site est un moyen d'indiquer aux robots des moteurs de recherche quel contenu prioriser, tandis que le reste du contenu dans robots.txt indique aux robots quel contenu ils peuvent ou ne peuvent pas explorer.

Toujours dans robots.txt, vous pouvez utiliser plusieurs caractères génériques pour les valeurs de chemin telles que :

* : Lorsqu'il est placé dans user-agent , l'astérisque (*) fait référence à tous les robots des moteurs de recherche (à l'exception des robots AdsBot) qui visitent le site. Lorsqu'il est utilisé dans les directives Allow / Disallow , cela signifie 0 ou plusieurs instances de tout caractère valide (par exemple, Allow: /example*.css correspond à /exemple.css et également à /exemple12345.css ).
$ : désigne la fin d'une URL. Par exemple, Disallow: /*.php$ bloquera tous les fichiers qui se terminent par .php
# : désigne le début d'un commentaire, que les crawlers ignoreront.

Remarque : à l'exception du chemin sitemap.xml, les chemins dans robots.txt sont toujours relatifs , ce qui signifie que vous ne pouvez pas utiliser d'URL complètes (par exemple, https://simicart.com/nogooglebot/) pour spécifier des chemins.

Configurer robots.txt dans Magento 2

Pour accéder à l'éditeur de fichier robots.txt, dans votre admin Magento 2 :

Étape 1 : Allez dans Contenu > Conception > Configuration

Étape 2 : Modifier la configuration globale dans la première ligne

Modifier la configuration de conception globale

Étape 3 : Dans la section Search Engine Robots, modifiez les instructions personnalisées

Modifier les instructions personnalisées du fichier robots.txt

Instructions robots.txt recommandées

Voici nos instructions recommandées qui devraient répondre aux besoins généraux. Bien sûr, chaque magasin est différent et vous devrez peut-être modifier ou ajouter quelques règles supplémentaires pour obtenir les meilleurs résultats.

 Agent utilisateur: *

# Consignes par défaut :
Interdire : /lib/
Interdire : /*.php$
Interdire : /pkginfo/
Interdire : /signaler/
Interdire : /var/
Interdire : /catalogue/
Interdire : /client/
Interdire : /sendfriend/
Interdire : /revoir/
Interdire : /*SID=

# Interdire les fichiers Magento communs dans le répertoire racine :
Interdire : /cron.php
Interdire : /cron.sh
Interdire : /error_log
Interdire : /install.php
Interdire : /LICENSE.html
Interdire : /LICENSE.txt
Interdire : /LICENSE_AFL.txt
Interdire : /STATUS.txt

# Interdire le compte utilisateur &amp; Pages de paiement :
Interdire : /checkout/
Interdire : /onestepcheckout/
Interdire : /client/
Interdire : /client/compte/
Interdire : /client/compte/connexion/

# Interdire les pages de recherche de catalogue :
Interdire : /catalogsearch/
Interdire : /catalog/product_compare/
Interdire : /catalog/category/view/
Interdire : /catalog/product/view/

# Interdire les recherches de filtres d'URL
Interdire : /*?dir*
Interdire : /*?dir=desc
Interdire : /*?dir=asc
Interdire : /*?limit=all
Interdire : /*?mode*

# Interdire les répertoires CMS :
Interdire : /app/
Interdire : /bin/
Interdire : /dev/
Interdire : /lib/
Interdire : /phpserver/
Interdire : /pub/

# Interdire le contenu dupliqué :
Interdire : /tag/
Interdire : /revoir/
Interdire : /*?*product_list_mode=
Interdire : /*?*product_list_order=
Interdire : /*?*product_list_limit=
Interdire : /*?*product_list_dir=

# Paramètres du serveur
# Interdire les répertoires techniques généraux et les fichiers sur un serveur
Interdire : /cgi-bin/
Interdire : /cleanup.php
Interdire : /apc.php
Interdire : /memcache.php
Interdire : /phpinfo.php

# Interdire les dossiers de contrôle de version et autres
Interdire : /*.git
Interdire : /*.CVS
Interdire : /*.Zip$
Interdire : /*.Svn$
Interdire : /*.Idea$
Interdire : /*.Sql$
Interdire : /*.Tgz$

Plan du site : https://www.example.com/sitemap.xml

Conclusion

La création d'un fichier robots.txt n'est qu'une des nombreuses étapes de la liste de contrôle SEO de Magento - et optimiser correctement une boutique Magento pour les moteurs de recherche n'est certainement pas une tâche facile pour la plupart des propriétaires de boutiques. Si vous ne souhaitez pas vous en occuper, nous pouvons nous occuper de tout pour vous. Chez SimiCart, nous fournissons des services de référencement et d'optimisation de la vitesse qui garantissent les meilleurs résultats pour votre magasin.

APPRENDRE ENCORE PLUS