Come configurare il file robots.txt di Magento 2 per SEO

Pubblicato: 2021-01-21

Sommario

La SEO è un fattore importante per il successo del tuo negozio e un robots.txt correttamente configurato contribuisce non poco a rendere più facile il lavoro dei crawler dei motori di ricerca.

Cos'è robots.txt?

In poche parole, robots.txt è un file che istruisce i crawler dei motori di ricerca su ciò che possono o non possono eseguire la scansione. Senza un robots.txt nella tua directory principale, i crawler dei motori di ricerca che arrivano nel tuo negozio eseguiranno la scansione di tutto ciò che possono, e questo include pagine duplicate o non importanti su cui non vuoi che i crawler dei motori di ricerca sprechino il loro budget di scansione. Un robots.txt dovrebbe essere in grado di risolvere questo problema.

Nota : il file robots.txt non deve essere utilizzato per nascondere le tue pagine web a Google. Dovresti invece usare il meta tag noindex per questo scopo.

Istruzioni predefinite robots.txt in Magento 2

Per impostazione predefinita, il file robots.txt generato da Magento contiene solo alcune istruzioni di base per il web crawler.

 # Istruzioni predefinite fornite da Magento
User-agent: *
Non consentire: /lib/
Non consentire: /*.php$
Non consentire: /pkginfo/
Non consentire: /report/
Non consentire: /var/
Non consentire: /catalog/
Non consentire: /cliente/
Non consentire: /sendfriend/
Non consentire: /recensione/
Non consentire: /*SID=

Per generare queste istruzioni predefinite, premi il pulsante Ripristina impostazioni predefinite nella configurazione dei robot dei motori di ricerca nel tuo back-end Magento.

Ripristina le istruzioni predefinite di robots.txt

Perché è necessario creare istruzioni robots.txt personalizzate in Magento 2

Sebbene le istruzioni robots.txt predefinite fornite da Magento siano necessarie per dire ai crawler di evitare di eseguire la scansione di determinati file utilizzati internamente dal sistema, non sono sufficienti per la maggior parte dei negozi Magento.

I robot dei motori di ricerca hanno solo una quantità limitata di risorse per la scansione delle pagine web. Affinché un sito con migliaia o addirittura milioni di URL da scansionare (che è più comune di quanto si pensi), dovrai dare la priorità al tipo di contenuto che deve essere scansionato (con un sitemap.xml) e disattivare l'accesso irrilevante pagine dalla scansione (con un robots.txt). L'ultima parte viene eseguita impedendo la scansione di pagine duplicate, irrilevanti e non necessarie nel tuo robots.txt.

Formato base delle direttive robots.txt

Le istruzioni nel robots.txt sono disposte in modo coerente, amichevole per gli utenti non tecnici:

 # Regola 1
User-agent: Googlebot
Non consentire: /nogooglebot/

# Regola 2
User-agent: *
Permettere: /

Mappa del sito: https://www.example.com/sitemap.xml
  • User-agent : indica il crawler specifico a cui si riferisce la regola. Alcuni programmi utente comuni sono Googlebot , Googlebot-Image , Mediapartners-Google , Googlebot-Video e così via. Per un elenco completo di crawler comuni, vedere Panoramica dei crawler di Google.
  • Allow e non Disallow : specifica i percorsi a cui i crawler designati possono o non possono accedere. Ad esempio, Allow: / significa che il crawler può accedere all'intero sito senza restrizioni.
  • Sitemap del sito: indica il percorso della mappa del sito per il tuo negozio. La Sitemap è un modo per indicare ai crawler dei motori di ricerca a quali contenuti dare la priorità, mentre il resto del contenuto in robots.txt indica ai crawler quali contenuti possono o non possono scansionare.

Anche in robots.txt, puoi utilizzare diversi caratteri jolly per i valori di percorso come:

  • * : Quando inserito in user-agent , l'asterisco (*) si riferisce a tutti i crawler dei motori di ricerca (ad eccezione dei crawler di AdsBot) che visitano il sito. Quando viene utilizzato nelle direttive Allow / Disallow , significa 0 o più istanze di qualsiasi carattere valido (ad esempio, Allow: /example*.css corrisponde a /example.css e anche /example12345.css ).
  • $ : indica la fine di un URL. Ad esempio, Disallow: /*.php$ bloccherà tutti i file che terminano con .php
  • # : indica l'inizio di un commento, che i crawler ignoreranno.

Nota : ad eccezione del percorso sitemap.xml, i percorsi in robots.txt sono sempre relativi , il che significa che non puoi utilizzare URL completi (ad es. https://simicart.com/nogooglebot/) per specificare i percorsi.

Configurazione di robots.txt in Magento 2

Per accedere all'editor di file robots.txt, nel tuo amministratore di Magento 2:

Passaggio 1 : vai su Contenuto > Design > Configurazione

Passaggio 2 : modifica la configurazione globale nella prima riga

Modifica la configurazione del progetto globale

Passaggio 3 : nella sezione Robot dei motori di ricerca, modifica le istruzioni personalizzate

Modifica le istruzioni personalizzate del file robots.txt

Istruzioni consigliate per robots.txt

Ecco le nostre istruzioni consigliate che dovrebbero soddisfare le esigenze generali. Naturalmente, ogni negozio è diverso e potrebbe essere necessario modificare o aggiungere qualche regola in più per ottenere i migliori risultati.

 User-agent: *

# Istruzioni predefinite:
Non consentire: /lib/
Non consentire: /*.php$
Non consentire: /pkginfo/
Non consentire: /report/
Non consentire: /var/
Non consentire: /catalog/
Non consentire: /cliente/
Non consentire: /sendfriend/
Non consentire: /recensione/
Non consentire: /*SID=

# Non consentire file Magento comuni nella directory principale:
Non consentire: /cron.php
Non consentire: /cron.sh
Non consentire: /error_log
Non consentire: /install.php
Non consentire: /LICENZA.html
Non consentire: /LICENZA.txt
Non consentire: /LICENSE_AFL.txt
Non consentire: /STATUS.txt

# Non consentire account utente & Pagine di pagamento:
Non consentire: /checkout/
Non consentire: /onestepcheckout/
Non consentire: /cliente/
Non consentire: /cliente/account/
Non consentire: /cliente/account/login/

# Non consentire pagine di ricerca nel catalogo:
Non consentire: /catalogsearch/
Non consentire: /catalog/product_compare/
Non consentire: /catalog/categoria/visualizza/
Non consentire: /catalog/product/view/

# Non consentire ricerche con filtro URL
Non consentire: /*?dir*
Non consentire: /*?dir=desc
Non consentire: /*?dir=asc
Non consentire: /*?limit=tutto
Non consentire: /*?modalità*

# Non consentire directory CMS:
Non consentire: /app/
Non consentire: /bin/
Non consentire: /dev/
Non consentire: /lib/
Non consentire: /phpserver/
Non consentire: /pub/

# Non consentire contenuto duplicato:
Non consentire: /tag/
Non consentire: /recensione/
Non consentire: /*?*product_list_mode=
Non consentire: /*?*product_list_order=
Non consentire: /*?*product_list_limit=
Non consentire: /*?*product_list_dir=

# Impostazioni del server
# Non consentire directory e file tecnici generali su un server
Non consentire: /cgi-bin/
Non consentire: /cleanup.php
Non consentire: /apc.php
Non consentire: /memcache.php
Non consentire: /phpinfo.php

# Non consentire cartelle di controllo della versione e altro
Non consentire: /*.git
Non consentire: /*.CVS
Non consentire: /*.Zip$
Non consentire: /*.Svn$
Non consentire: /*.Idea$
Non consentire: /*.Sql$
Non consentire: /*.Tgz$

Mappa del sito: https://www.example.com/sitemap.xml

Conclusione

La creazione di un file robots.txt è solo uno dei tanti passaggi nell'elenco di controllo SEO di Magento e ottimizzare correttamente un negozio Magento per i motori di ricerca non è sicuramente un compito facile per la maggior parte dei proprietari di negozi. Se non ti senti a voler affrontare questo, possiamo occuparci di tutto noi per te. Qui a SimiCart, forniamo servizi di SEO e ottimizzazione della velocità che garantiscono i migliori risultati per il tuo negozio.

PER SAPERNE DI PIÙ