Comment gérer le fichier robots.txt d'un site E-commerce ?

Accueil » Comment gérer le fichier robots.txt d’un site E-commerce ?
SEO

"Bonjour,

Je suis stagiaire et ma tutrice responsable e-commerce se retrouve embêtée :

Elle a bloqué des Url dans l’indexation, mais malgré tout certaines sont passées (celles avec filtre par exemple). Est ce qu’elles génèrent du trafic ? Comment faire pour les supprimer ? Je ne sais pas si je suis très claire…

Bonne journée !

Rozenn"

Pour étudier la question de l'indexation / non indexation des url's et de la gestion des filtres / facettes, il faut apprendre à gérer efficacement le fichier robots.txt d'un site E-commerce.

Il est visible à l'adresse suivante : votre-site.fr/robots.txt. Voici par exemple un extrait de celui de laposte.fr, pas très clair pour un humain, mais nous ne sommes pas le public ;).

1/ Comment gérer le fichier robots.txt de son site ?


Gérer le fichier robots.txt d'un site e-commerce est crucial pour s'assurer que les moteurs de recherche indexent correctement votre site tout en excluant les sections que vous ne souhaitez pas être publiques. Voici quelques conseils sur la manière de gérer ce fichier :

  1. Comprendre le rôle du robots.txt : Ce fichier indique aux robots des moteurs de recherche (comme Googlebot) quelles parties de votre site ils peuvent et ne peuvent pas crawler et indexer.
  2. Spécifier les agents utilisateurs : Vous pouvez cibler tous les robots (User-agent: *) ou spécifier des robots individuels (User-agent: Googlebot) pour des instructions détaillées.
  3. Exclure les pages sensibles : Utilisez la directive Disallow: pour empêcher les robots de crawler certaines parties de votre site. Par exemple, Disallow: /checkout/ empêchera les moteurs de recherche d'indexer vos pages de paiement.
  4. Autoriser l'indexation de contenu important : À l'inverse, la directive Allow: peut être utilisée pour s'assurer que les moteurs de recherche peuvent accéder à des sections importantes de votre site, même si une règle Disallow: plus large existe.
  5. S'occuper des ressources statiques : Il peut être judicieux d'autoriser les moteurs de recherche à accéder à vos fichiers CSS et JavaScript pour qu'ils puissent mieux interpréter et indexer votre contenu.
  6. Mise à jour régulière : Mettez à jour régulièrement votre robots.txt, surtout si vous modifiez la structure de votre site e-commerce ou ajoutez de nouvelles sections importantes.
  7. Tester votre robots.txt : Utilisez des outils comme Google Search Console pour tester l'efficacité de votre fichier robots.txt et vous assurer qu'il n'exclut pas de contenu important de l'indexation.
  8. Attention à la syntaxe : Une petite erreur dans le fichier robots.txt peut avoir de grandes conséquences sur l'indexation de votre site. Assurez-vous que la syntaxe est correcte.
  9. Considérer le fichier robots.txt comme public : Tout ce qui est inclus dans votre robots.txt est accessible publiquement. Ne l'utilisez pas pour cacher des informations ou des sections sensibles.
  10. Ne pas surdépendre du robots.txt pour la sécurité : Alors que le robots.txt peut empêcher les moteurs de recherche d'indexer certaines pages, cela ne les rend pas inaccessibles. Utilisez des méthodes de protection plus robustes pour les données sensibles.

En appliquant ces conseils, vous pouvez efficacement gérer votre fichier robots.txt pour améliorer l'indexation de votre site e-commerce tout en protégeant le contenu que vous ne souhaitez pas exposer.

2/ Comment optimiser la navigation à facettes d'un site E-commerce avec le fichier robots.txt ?

Un article de référence sur MOZ : https://moz.com/blog/faceted-navigation-intro

Optimiser la navigation à facettes d'un site e-commerce avec le fichier robots.txt est essentiel pour éviter le contenu dupliqué et améliorer l'efficacité du crawl par les moteurs de recherche. Voici quelques conseils sur comment y parvenir :

  1. Empêcher l'indexation des URL de navigation à facettes : Utilisez le fichier robots.txt pour empêcher les moteurs de recherche d'indexer les URL générées par la navigation à facettes. Par exemple, si la navigation à facettes génère des URL avec des paramètres comme ?color=red, vous pouvez ajouter une ligne Disallow: /*?color= dans votre robots.txt.
  2. Utiliser les balises meta noindex : Bien que le robots.txt puisse empêcher le crawl des pages, il ne garantit pas que les pages déjà crawlées ne seront pas indexées. Pour renforcer la non-indexation, utilisez la balise meta noindex sur les pages générées par la navigation à facettes.
  3. Implémenter l'attribut rel="nofollow" : Sur les liens générés par la navigation à facettes, l'utilisation de rel="nofollow" peut indiquer aux moteurs de recherche de ne pas suivre ces liens, ce qui aide à prévenir le crawl et l'indexation excessifs.
  4. Gérer les paramètres d'URL dans Google Search Console : Utilisez Google Search Console pour indiquer à Google comment traiter les paramètres d'URL générés par la navigation à facettes. Cela peut aider à contrôler le crawl et l'indexation de ces URL.
  5. Créer un plan de site intelligent : Assurez-vous que votre plan de site n'inclut pas les URL générées par la navigation à facettes. Cela aide à diriger les moteurs de recherche vers le contenu que vous souhaitez indexer.
  6. Tester les modifications : Après avoir mis à jour votre robots.txt, utilisez un outil de test de fichier robots.txt pour vous assurer que les directives sont correctement interprétées par les moteurs de recherche.

En suivant ces étapes, vous pouvez optimiser la navigation à facettes pour améliorer l'expérience utilisateur et l'efficacité du crawl, tout en évitant le contenu dupliqué et les problèmes d'indexation. Cependant, gardez à l'esprit que les modifications apportées au fichier robots.txt doivent être effectuées avec soin pour éviter de bloquer accidentellement du contenu important.

Une question à poser ? Besoin d'aide pour votre site ? C'est par ici :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Besoin d'aide pour développer votre business en ligne ?