Que faut-il savoir sur le fichier robots txt ?

Vous souhaitez que des pages de votre site soient indexées par les robots des moteurs de recherche, et vous ne voulez pas que d’autres apparaissent dans les SERP ? L’utilisation d’un fichier robots.txt est alors nécessaire. Savez-vous ce qu’est un fichier robots.txt et quelle est son utilité ? Comment créer un fichier robots.txt google ? Pourquoi utiliser le robots.txt disallow all ? Cet article vous explique tout.

Quelle est la définition de robots.txt ?

Placé sur votre serveur web, un fichier robots.txt est un fichier dont le rôle est d’indiquer aux robots web ou robots des moteurs de recherche les fichiers de votre site qu’ils peuvent ou non explorer. Bien qu’un fichier robots.txt ne soit qu’un simple fichier texte, il est très important pour votre référencement.

Un fichier robots.txt n’est pas obligatoire pour votre site web. Dans ce cas, les robots peuvent analyser toutes les URL qui se trouvent sur votre site. Néanmoins, sachez que quand les robots des moteurs de recherche arrivent sur votre site, la première chose qu’ils font, c’est de regarder ce qu’il y a dans le fichier robots.txt de votre site. Ainsi, la création d’un tel fichier est conseillée, car :

  • Grâce à sa présence, votre site ne sera pas surchargé de demandes.
  • Un fichier robots.txt bien rédigé et bien utilisé est un plus pour le classement de votre site.
  • Grâce aux instructions inscrites dans ce fichier, les robots savent ce qu’ils doivent ou ne doivent pas faire.

Quelle est l’utilité du fichier robots.txt ?

Si le fichier robots.txt n’est pas présent sur votre site, toutes les URL qui s’y trouvent seront crawlées par les robots. Ce fichier est nécessaire pour les raisons suivantes :

  • Il permet d’éviter que des pages de votre site ne soient pas indexées.
  • Il permet d’interdire à certains robots l’exploration de votre site.
  • Il interdit l’exploration de certaines pages de votre site à seulement certains robots.
  • Il indique aux moteurs l’endroit où se trouve le fichier sitemap de votre site internet.
  • Il évite que des contenus dupliqués ne soient indexés par les crawlers.
  • Il permet d’économiser le budget de crawl.

Attention, ce fichier ne peut pas être utilisé pour empêcher qu’une ou plusieurs de vos pages n’apparaissent dans les SERP. Ainsi, l’indexation de certaines pages par Google est toujours potentiellement possible.

Comment créer un fichier robots.txt de Google ?

Si vous avez des zones dans votre site que vous ne voulez pas voir dans les résultats de recherche de Google ou d’autres moteurs de recherche, vous devez vous servir d’un fichier robots.txt. Voici comment faire pour le créer.

Où mettre le fichier robots.txt ?

Votre site ne doit contenir qu’un seul fichier robots.txt qui est placé à la racine de votre site web. Vous pouvez vérifier sa présence en tapant http://www.adressedevotresite.com/robots.txt dans la barre d’adresse de votre navigateur. Si le fichier est présent, il sera affiché. Sinon, vous verrez une erreur 404. Le nom du fichier « robots.txt » doit être écrit en minuscules.

Vous avez trois possibilités pour la création du fichier robots.txt :

  • Le générer si vous utilisez des CMS,
  • Le créer manuellement,
  • Le créer grâce à des générateurs de fichiers robots.txt en ligne.

Fichier robots.txt : la syntaxe

Pour créer un fichier robots.txt, il ne vous faut qu’un simple traitement de texte comme Notepad ou Blocnote. Les instructions doivent être simples à lire car :

  • Un robots.txt compliqué favorise le risque d’erreur, ce qui peut être néfaste pour le référencement de vos pages publiques.
  • Des expressions compliquées ne seront pas interprétées correctement par certains spiders.

Une règle inscrite dans le robots.txt comprend toujours trois points :

  • Le destinataire de la règle ou User-agent. Cela peut être un seul ou tous les robots.
  • Le fichier ou répertoire que l’agent n’est pas autorisé à accéder : Disallow.
  • Le fichier ou répertoire que l’agent peut explorer : Allow.

Voici un exemple de fichier robots.txt :

User-agent : * signifie que tous les robots sont concernés.

Disallow : /intranet/ pour interdire que le dossier intranet ne soit exploré.

Allow : / : le reste est autorisé.

Robots.txt : disallow all

Il se peut que vous souhaitiez que la totalité de votre site soit interdite à tous les moteurs de recherche. Pour cela, votre fichier robots.txt ne comportera que les lignes suivantes :

User-agent : *

Disallow : /

Vous pouvez recourir à cette instruction dans plusieurs cas, par exemple lors de la phase de développement de votre site. Notez toutefois que seuls les robots bienveillants vont respecter cette règle. En outre, même si cette règle figure dans votre robots.txt, l’indexation par Google des pages et répertoires de votre site est toujours possible.