Robots.txt et SEO

Message par **gironi** » sam. 7 janv. 2023 11:29

Le fichier robots.txt est l'un des fichiers les plus simples d'un site Web, mais c'est aussi l'un des plus faciles à gâcher. Un seul personnage à sa place peut faire des ravages sur votre référencement et empêcher les moteurs de recherche d'accéder à du contenu important sur votre site.
C'est pourquoi les erreurs de configuration derobots.txt sont extrêmement courantes, même parmi les professionnels expérimentés du référencement.

Le fichier robots.txt en quelques mots

Un fichier robots.txt contient des directives pour les moteurs de recherche que vous pouvez utiliser pour empêcher les moteurs de recherche d’explorer certaines parties de votre site.

En implémentant le robots.txt, gardez les conseils suivants à l’esprit :

Attention lorsque vous modifiez le robots.txt: ce fichier peut potentiellement rendre inaccessible de vastes sections de votre site.
Le fichier robots.txt doit préférablement être placé à la racine de votre site => par exemple: https://www.exemple.fr/robots.txt.
Le fichier robots.txt n’est valide que pour le domaine dans lequel il réside, y compris le protocole (http ou https).
Les différents moteurs de recherche interprètent les directives différemment. Par défaut, la première directive correspondante est appliquée. Mais avec Google et Bing, la précision règne.
Évitez autant que possible d’utiliser la directive crawl-delay pour les moteurs de recherche.

À quoi ressemble un fichier robots.txt ?

Voici le format de base du fichier :

Code : Tout sélectionner

Sitemap: [URL location of sitemap]

User-agent: [bot identifier]
[directive 1]
[directive 2]
[directive ...]

User-agent: [another bot identifier]
[directive 1]
[directive 2]
[directive ...]

Si vous n'avez jamais vu l'un de ces fichiers auparavant, cela peut sembler intimidant. Cependant, la syntaxe est assez simple. En bref, vous affectez des règles aux robots en indiquant leur agent utilisateur - User-agent - suivi de directives - directive.

Explorons ces deux composants plus en détail.

User-agents

Chaque moteur de recherche s'identifie avec un agent utilisateur différent. Vous pouvez définir des instructions personnalisées pour chacun d'entre eux dans votre fichier robots.txt. Il existe des centaines d'agents utilisateurs, mais en voici quelques-uns utiles pour le référencement :

Google : Googlebot
Google Images : Googlebot-Image
Bing : Bingbot
Yahoo : Slurp
Baidu : Baiduspider
DuckDuckGo : DuckDuckBot

Vous pouvez également utiliser le caractère générique étoile (*) pour attribuer des directives à tous les agents utilisateurs.

Par exemple, supposons que vous souhaitiez empêcher tous les robots, à l'exception de Googlebot, d'explorer votre site.
Voici comment procéder :

Code : Tout sélectionner

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Sachez que votre fichier robots.txt peut inclure des directives pour autant d'agents utilisateurs que vous le souhaitez. Cela dit, chaque fois que vous déclarez un nouvel agent utilisateur, il agit comme une table rase. En d'autres termes, si vous ajoutez des directives pour plusieurs agents utilisateurs, les directives déclarées pour le premier agent utilisateur ne s'appliquent pas au deuxième, troisième ou quatrième, et ainsi de suite.

L'exception à cette règle est lorsque vous déclarez le même agent utilisateur plus d'une fois. Dans ce cas, toutes les directives pertinentes sont combinées et suivies.
Important :
Les robots d'exploration ne suivent que les règles déclarées sous le ou les agents utilisateurs qui s'appliquent le plus précisément à eux. C'est pourquoi le fichier robots.txt ci-dessus empêche tous les robots, à l'exception de Googlebot (et d'autres robots Google), d'explorer le site. Googlebot ignore la déclaration moins spécifique de l'agent utilisateur. Directives

Les directives sont des règles que vous voulez que les agents utilisateurs déclarés suivent.

Directives prises en charge
Voici les directives actuellement prises en charge par Google, ainsi que leurs utilisations.

Refuser - Disallow -
Utilisez cette directive pour indiquer aux moteurs de recherche de ne pas accéder aux fichiers et aux pages qui relèvent d'un chemin spécifique. Par exemple, si vous souhaitez empêcher tous les moteurs de recherche d'accéder à votre blog et à tous ses articles, votre fichier robots.txt pourrait ressembler à ceci :

Code : Tout sélectionner

User-agent: *
Disallow: /blog

Permettre - Allow-
Utilisez cette directive pour permettre aux moteurs de recherche d'explorer un sous-répertoire ou une page, même dans un répertoire autrement interdit. Par exemple, si vous souhaitez empêcher les moteurs de recherche d'accéder à tous les articles de votre blog sauf un, votre fichier robots.txt pourrait ressembler à ceci :

Code : Tout sélectionner

User-agent: *
Disallow: /blog
Allow: /blog/allowed-post

Dans cet exemple, les moteurs de recherche peuvent accéder à /blog/allowed-post. Mais ils ne peuvent pas accéder :

/blog/autre-article
/blog/encore-un-autre-article
/blog/téléchargez-moi.pdf

Google et Bing prennent en charge cette directive.

Robots.txt pour le référencement : le guide ultime => https://www.contentkingapp.com/academy/robotstxt/

Message par **esther** » dim. 21 mai 2023 07:16

Voici un article à lire sur les bons et mauvais robots: https://webmaster67.fr/les-bon-et-mauva ... -internet/

Gironi Forum

Info Robots.txt et SEO

Robots.txt et SEO

Robots.txt et SEO