« Bonjour,
Je suis stagiaire et ma tutrice responsable e-commerce se retrouve embêtée :
Elle a bloqué des Url dans l’indexation, mais malgré tout certaines sont passées (celles avec filtre par exemple). Est ce qu’elles génèrent du trafic ? Comment faire pour les supprimer ? Je ne sais pas si je suis très claire…
Bonne journée !
Rozenn »
Pour étudier la question de l’indexation / non indexation des url’s et de la gestion des filtres / facettes, il faut apprendre à gérer efficacement le fichier robots.txt d’un site E-commerce.
Il est visible à l’adresse suivante : votre-site.fr/robots.txt. Voici par exemple un extrait de celui de laposte.fr, pas très clair pour un humain, mais nous ne sommes pas le public ;).

1/ Comment gérer le fichier robots.txt de son site ?
Gérer le fichier robots.txt
d’un site e-commerce est crucial pour s’assurer que les moteurs de recherche indexent correctement votre site tout en excluant les sections que vous ne souhaitez pas être publiques. Voici quelques conseils sur la manière de gérer ce fichier :
- Comprendre le rôle du
robots.txt
: Ce fichier indique aux robots des moteurs de recherche (comme Googlebot) quelles parties de votre site ils peuvent et ne peuvent pas crawler et indexer. - Spécifier les agents utilisateurs : Vous pouvez cibler tous les robots (
User-agent: *
) ou spécifier des robots individuels (User-agent: Googlebot
) pour des instructions détaillées. - Exclure les pages sensibles : Utilisez la directive
Disallow:
pour empêcher les robots de crawler certaines parties de votre site. Par exemple,Disallow: /checkout/
empêchera les moteurs de recherche d’indexer vos pages de paiement. - Autoriser l’indexation de contenu important : À l’inverse, la directive
Allow:
peut être utilisée pour s’assurer que les moteurs de recherche peuvent accéder à des sections importantes de votre site, même si une règleDisallow:
plus large existe. - S’occuper des ressources statiques : Il peut être judicieux d’autoriser les moteurs de recherche à accéder à vos fichiers CSS et JavaScript pour qu’ils puissent mieux interpréter et indexer votre contenu.
- Mise à jour régulière : Mettez à jour régulièrement votre
robots.txt
, surtout si vous modifiez la structure de votre site e-commerce ou ajoutez de nouvelles sections importantes. - Tester votre
robots.txt
: Utilisez des outils comme Google Search Console pour tester l’efficacité de votre fichierrobots.txt
et vous assurer qu’il n’exclut pas de contenu important de l’indexation. - Attention à la syntaxe : Une petite erreur dans le fichier
robots.txt
peut avoir de grandes conséquences sur l’indexation de votre site. Assurez-vous que la syntaxe est correcte. - Considérer le fichier
robots.txt
comme public : Tout ce qui est inclus dans votrerobots.txt
est accessible publiquement. Ne l’utilisez pas pour cacher des informations ou des sections sensibles. - Ne pas surdépendre du
robots.txt
pour la sécurité : Alors que lerobots.txt
peut empêcher les moteurs de recherche d’indexer certaines pages, cela ne les rend pas inaccessibles. Utilisez des méthodes de protection plus robustes pour les données sensibles.
En appliquant ces conseils, vous pouvez efficacement gérer votre fichier robots.txt
pour améliorer l’indexation de votre site e-commerce tout en protégeant le contenu que vous ne souhaitez pas exposer.
2/ Comment optimiser la navigation à facettes d’un site E-commerce avec le fichier robots.txt ?

Un article de référence sur MOZ : https://moz.com/blog/faceted-navigation-intro
Optimiser la navigation à facettes d’un site e-commerce avec le fichier robots.txt est essentiel pour éviter le contenu dupliqué et améliorer l’efficacité du crawl par les moteurs de recherche. Voici quelques conseils sur comment y parvenir :
- Empêcher l’indexation des URL de navigation à facettes : Utilisez le fichier
robots.txt
pour empêcher les moteurs de recherche d’indexer les URL générées par la navigation à facettes. Par exemple, si la navigation à facettes génère des URL avec des paramètres comme?color=red
, vous pouvez ajouter une ligneDisallow: /*?color=
dans votrerobots.txt
. - Utiliser les balises meta
noindex
: Bien que lerobots.txt
puisse empêcher le crawl des pages, il ne garantit pas que les pages déjà crawlées ne seront pas indexées. Pour renforcer la non-indexation, utilisez la balise metanoindex
sur les pages générées par la navigation à facettes. - Implémenter l’attribut
rel="nofollow"
: Sur les liens générés par la navigation à facettes, l’utilisation derel="nofollow"
peut indiquer aux moteurs de recherche de ne pas suivre ces liens, ce qui aide à prévenir le crawl et l’indexation excessifs. - Gérer les paramètres d’URL dans Google Search Console : Utilisez Google Search Console pour indiquer à Google comment traiter les paramètres d’URL générés par la navigation à facettes. Cela peut aider à contrôler le crawl et l’indexation de ces URL.
- Créer un plan de site intelligent : Assurez-vous que votre plan de site n’inclut pas les URL générées par la navigation à facettes. Cela aide à diriger les moteurs de recherche vers le contenu que vous souhaitez indexer.
- Tester les modifications : Après avoir mis à jour votre
robots.txt
, utilisez un outil de test de fichierrobots.txt
pour vous assurer que les directives sont correctement interprétées par les moteurs de recherche.
En suivant ces étapes, vous pouvez optimiser la navigation à facettes pour améliorer l’expérience utilisateur et l’efficacité du crawl, tout en évitant le contenu dupliqué et les problèmes d’indexation. Cependant, gardez à l’esprit que les modifications apportées au fichier robots.txt
doivent être effectuées avec soin pour éviter de bloquer accidentellement du contenu important.
Une question à poser ? Besoin d’aide pour votre site ? C’est par ici :
Passionné par le référencement depuis 2012, j'ai démarré le SEO en travaillant sur la levée des pénalités Pingouin / Panda puis sur des E-commerces.
Comment fonctionne le blog ?
La plupart des articles sont issus de questions adressées par e-mail. N'hésitez pas à poser la vôtre ~~
Besoin d'aide pour un projet web ?
Voyons si nous pouvons être complémentaires. Devis gratuit sous 24h par e-mail.