robots.txt est l'un des fichiers les plus simples d'un site Web, mais c'est aussi l'un des plus faciles à gâcher. Un seul personnage à sa place peut faire des ravages sur votre référencement et empêcher les moteurs de recherche d'accéder à du contenu important sur votre site.C'est pourquoi les erreurs de configuration de
robots.txt sont extrêmement courantes, même parmi les professionnels expérimentés du référencement.Le fichier robots.txt en quelques mots
Un fichier robots.txt contient des directives pour les moteurs de recherche que vous pouvez utiliser pour empêcher les moteurs de recherche d’explorer certaines parties de votre site.
En implémentant le
robots.txt, gardez les conseils suivants à l’esprit :
- Attention lorsque vous modifiez le robots.txt: ce fichier peut potentiellement rendre inaccessible de vastes sections de votre site.
- Le fichier robots.txt doit préférablement être placé à la racine de votre site => par exemple: https://www.exemple.fr/robots.txt.
- Le fichier robots.txt n’est valide que pour le domaine dans lequel il réside, y compris le protocole (http ou https).
- Les différents moteurs de recherche interprètent les directives différemment. Par défaut, la première directive correspondante est appliquée. Mais avec Google et Bing, la précision règne.
- Évitez autant que possible d’utiliser la directive crawl-delay pour les moteurs de recherche.
Voici le format de base du fichier :
Code : Tout sélectionner
Sitemap: [URL location of sitemap]
User-agent: [bot identifier]
[directive 1]
[directive 2]
[directive ...]
User-agent: [another bot identifier]
[directive 1]
[directive 2]
[directive ...]Explorons ces deux composants plus en détail.
User-agents
Chaque moteur de recherche s'identifie avec un agent utilisateur différent. Vous pouvez définir des instructions personnalisées pour chacun d'entre eux dans votre fichier robots.txt. Il existe des centaines d'agents utilisateurs, mais en voici quelques-uns utiles pour le référencement :
- Google : Googlebot
- Google Images : Googlebot-Image
- Bing : Bingbot
- Yahoo : Slurp
- Baidu : Baiduspider
- DuckDuckGo : DuckDuckBot
Par exemple, supposons que vous souhaitiez empêcher tous les robots, à l'exception de Googlebot, d'explorer votre site.
Voici comment procéder :
Code : Tout sélectionner
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /L'exception à cette règle est lorsque vous déclarez le même agent utilisateur plus d'une fois. Dans ce cas, toutes les directives pertinentes sont combinées et suivies.
Important :
Les robots d'exploration ne suivent que les règles déclarées sous le ou les agents utilisateurs qui s'appliquent le plus précisément à eux. C'est pourquoi le fichier robots.txt ci-dessus empêche tous les robots, à l'exception de Googlebot (et d'autres robots Google), d'explorer le site. Googlebot ignore la déclaration moins spécifique de l'agent utilisateur. Directives
Les directives sont des règles que vous voulez que les agents utilisateurs déclarés suivent.
Directives prises en charge
Voici les directives actuellement prises en charge par Google, ainsi que leurs utilisations.
Refuser - Disallow -
Utilisez cette directive pour indiquer aux moteurs de recherche de ne pas accéder aux fichiers et aux pages qui relèvent d'un chemin spécifique. Par exemple, si vous souhaitez empêcher tous les moteurs de recherche d'accéder à votre blog et à tous ses articles, votre fichier robots.txt pourrait ressembler à ceci :
Code : Tout sélectionner
User-agent: *
Disallow: /blogUtilisez cette directive pour permettre aux moteurs de recherche d'explorer un sous-répertoire ou une page, même dans un répertoire autrement interdit. Par exemple, si vous souhaitez empêcher les moteurs de recherche d'accéder à tous les articles de votre blog sauf un, votre fichier robots.txt pourrait ressembler à ceci :
Code : Tout sélectionner
User-agent: *
Disallow: /blog
Allow: /blog/allowed-post/blog/autre-article
/blog/encore-un-autre-article
/blog/téléchargez-moi.pdf
Google et Bing prennent en charge cette directive.
Robots.txt pour le référencement : le guide ultime => https://www.contentkingapp.com/academy/robotstxt/
