Cómo configurar el archivo robots.txt de Magento 2 para SEO

Publicado: 2021-01-21

Tabla de contenido

El SEO es un factor importante para el éxito de su tienda, y un archivo robots.txt configurado correctamente contribuye en gran medida a facilitar el trabajo de los rastreadores de los motores de búsqueda.

¿Qué es robots.txt?

En pocas palabras, robots.txt es un archivo que instruye a los rastreadores de motores de búsqueda sobre lo que pueden o no rastrear. Sin un archivo robots.txt en su directorio raíz, los rastreadores de motores de búsqueda que se encuentren en su tienda rastrearán todo lo que puedan, y esto incluye páginas duplicadas o sin importancia en las que no desea que los rastreadores desperdicien su presupuesto de rastreo. Un archivo robots.txt debería poder abordar esto.

Nota : el archivo robots.txt no debe usarse para ocultar sus páginas web de Google. En su lugar, debe usar la etiqueta meta noindex para este propósito.

Instrucciones predeterminadas de robots.txt en Magento 2

De forma predeterminada, el archivo robots.txt generado por Magento contiene solo algunas instrucciones básicas para el rastreador web.

 # Instrucciones predeterminadas proporcionadas por Magento
Agente de usuario: *
No permitir: /lib/
No permitir: /*.php$
No permitir: /pkginfo/
No permitir: /informe/
No permitir: /var/
No permitir: /catálogo/
No permitir: /cliente/
No permitir: /enviaramigo/
No permitir: /reseña/
No permitir: /*SID=

Para generar estas instrucciones predeterminadas, presione el botón Restablecer valores predeterminados en la configuración de Search Engine Robots en su backend de Magento.

Restablecer las instrucciones predeterminadas de robots.txt

Por qué necesita crear instrucciones personalizadas de robots.txt en Magento 2

Si bien las instrucciones predeterminadas de robots.txt proporcionadas por Magento son necesarias para decirles a los rastreadores que eviten rastrear ciertos archivos que el sistema usa internamente, no son suficientes para la mayoría de las tiendas de Magento.

Los robots de los motores de búsqueda solo tienen una cantidad finita de recursos para rastrear páginas web. Para un sitio con miles o incluso millones de URL para rastrear (que es más común de lo que piensa), deberá priorizar el tipo de contenido que se debe rastrear (con un sitemap.xml) y rechazar contenido irrelevante. las páginas sean rastreadas (con un archivo robots.txt). La última parte se realiza impidiendo que se rastreen páginas duplicadas, irrelevantes e innecesarias en su archivo robots.txt.

Formato básico de las directivas robots.txt

Las instrucciones en robots.txt se presentan de manera coherente, fácil de usar para usuarios no técnicos:

 # Regla 1
Agente de usuario: robot de Google
No permitir: /nogooglebot/

# Regla 2
Agente de usuario: *
Permitir: /

Mapa del sitio: https://www.example.com/sitemap.xml
  • User-agent : indica el rastreador específico para el que es la regla. Algunos agentes de usuario comunes son Googlebot , Googlebot-Image , Mediapartners-Google , Googlebot-Video , etc. Para obtener una lista extensa de rastreadores comunes, consulte Descripción general de los rastreadores de Google.
  • Allow y Disallow permitir: especifique las rutas a las que los rastreadores designados pueden o no acceder. Por ejemplo, Allow: / significa que el rastreador puede acceder a todo el sitio sin restricciones.
  • Sitemap : indica la ruta al sitemap de tu tienda. El mapa del sitio es una forma de decirle a los rastreadores de motores de búsqueda qué contenido priorizar, mientras que el resto del contenido en robots.txt les dice a los rastreadores qué contenido pueden o no rastrear.

También en robots.txt, puede usar varios comodines para valores de ruta como:

  • * : cuando se coloca en user-agent , el asterisco (*) hace referencia a todos los rastreadores de motores de búsqueda (excepto los rastreadores de AdsBot) que visitan el sitio. Cuando se usa en las directivas Allow / Disallow , significa 0 o más instancias de cualquier carácter válido (por ejemplo, Allow: /example*.css coincide con /example.css y también /example12345.css ).
  • $ : designa el final de una URL. Por ejemplo, Disallow: /*.php$ bloqueará todos los archivos que terminen en .php
  • # : designa el comienzo de un comentario, que los rastreadores ignorarán.

Nota : a excepción de la ruta sitemap.xml, las rutas en robots.txt siempre son relativas , lo que significa que no puede usar URL completas (p. ej., https://simicart.com/nogooglebot/) para especificar rutas.

Configuración de robots.txt en Magento 2

Para acceder al editor de archivos robots.txt, en su administrador de Magento 2:

Paso 1 : Vaya a Contenido > Diseño > Configuración

Paso 2 : edite la configuración global en la primera fila

Editar configuración de diseño global

Paso 3 : en la sección Robots de motores de búsqueda, edite las instrucciones personalizadas

Editar instrucciones personalizadas del archivo robots.txt

Instrucciones recomendadas de robots.txt

Aquí están nuestras instrucciones recomendadas que deben ajustarse a las necesidades generales. Por supuesto, cada tienda es diferente y es posible que deba modificar o agregar algunas reglas más para obtener los mejores resultados.

 Agente de usuario: *

# Instrucciones predeterminadas:
No permitir: /lib/
No permitir: /*.php$
No permitir: /pkginfo/
No permitir: /informe/
No permitir: /var/
No permitir: /catálogo/
No permitir: /cliente/
No permitir: /enviaramigo/
No permitir: /reseña/
No permitir: /*SID=

# No permitir archivos comunes de Magento en el directorio raíz:
No permitir: /cron.php
No permitir: /cron.sh
No permitir: /error_log
No permitir: /install.php
No permitir: /LICENCIA.html
No permitir: /LICENCIA.txt
No permitir: /LICENSE_AFL.txt
No permitir: /ESTADO.txt

# Deshabilitar cuenta de usuario & Páginas de pago:
No permitir: /pagar/
No permitir: /onestepcheckout/
No permitir: /cliente/
No permitir: /cliente/cuenta/
No permitir: /cliente/cuenta/inicio de sesión/

# No permitir páginas de búsqueda de catálogo:
No permitir: /búsqueda de catálogo/
No permitir: /catalog/product_compare/
No permitir: /catálogo/categoría/vista/
No permitir: /catálogo/producto/ver/

# No permitir búsquedas de filtro de URL
No permitir: /?dir*
No permitir: //?dir=desc
No permitir: //?dir=asc
No permitir: //?limit=all
No permitir: /?modo*

# No permitir directorios CMS:
No permitir: /aplicación/
No permitir: /bin/
No permitir: /dev/
No permitir: /lib/
No permitir: /servidorphp/
No permitir: /pub/

# No permitir contenido duplicado:
No permitir: /etiqueta/
No permitir: /reseña/
No permitir: /?*product_list_mode=
No permitir: /?*product_list_order=
No permitir: /?*product_list_limit=
No permitir: /?*product_list_dir=

# Configuración del servidor
# No permitir directorios y archivos técnicos generales en un servidor
No permitir: /cgi-bin/
No permitir: /cleanup.php
No permitir: /apc.php
No permitir: /memcache.php
No permitir: /phpinfo.php

# No permitir carpetas de control de versiones y otros
No permitir: /*.git
No permitir: /*.CVS
No permitir: /*.Zip$
No permitir: /*.Svn$
No permitir: /*.Idea$
No permitir: /*.Sql$
No permitir: /*.Tgz$

Mapa del sitio: https://www.example.com/sitemap.xml

Conclusión

Crear un archivo robots.txt es solo uno de los muchos pasos en la lista de verificación de Magento SEO, y optimizar adecuadamente una tienda Magento para los motores de búsqueda no es una tarea fácil para la mayoría de los propietarios de tiendas. Si no desea ocuparse de esto, podemos encargarnos de todo por usted. Aquí en SimiCart, brindamos servicios de optimización de velocidad y SEO que garantizan los mejores resultados para su tienda.

APRENDE MÁS