Fichier robots.txt

Fichier robots.txt pour les moteur de recherche

Descriptif :
les grands moteurs scrutent inlassablement nuit et jour le web à la recherche de nouveaux sites afin de les indexer. Bien sûr, ils visiteront les innombrables nouveautés qu'on leur propose tous les jours mais ils rechercheront aussi ceux qui n'ont pas demandé leur inscription. Or, pour diverses raisons, il se peut que vous ne souhaitiez pas que votre site soit indexé et que son contenu soit dévoilé au public internaute. C'est là qu'intervient le fichier robots.txt qui contiendra les interdictions de visites entières ou partielles que vous y aurez indiquées. En effet, les moteurs de recherche utilisent un robot, dénommé spider (araignée) ou crawler, qui, lorsqu'il scrute un site nouveau ou un site proposé, va chercher en premier lieu ce fichier qui doit se trouver à la racine du site. Si le vôtre s'appelle http://www.monsite.com/, le spider examinera en premier lieu http://www.monsite.com/robots.txt. S'il ne le trouve pas, il visitera et indexera éventuellement toutes les pages. S'il le trouve, le spider se conformera aux interdictions éventuelles.

Examinons maintenant le fichier robots.txt. Dans ce fichier, vous déterminez les droits d'accès de votre site aux robots. Toutes les combinaisons sont possibles. Vous pouvez limiter l'accès à un moteur en particulier, ou à tous, ou tous les laisser examiner vos fichiers. Vous pouvez aussi interdire l'accès d'un répertoire, d'une ou plusieurs pages pour chacun d'eux.

La réalisation, l'écriture du fichier robots.txt, se fait à l'aide du plus simple éditeur de texte comme NotePad ; de cette façon, pas de rajout sauvage de codes invisibles. La syntaxe en est simple. La première ligne doit spécifier quels sont les moteurs autorisés :
User-agent: indique le nom du ou des moteurs autorisés à examiner le site.
User-agent: * indique que tous les moteurs sont autorisés à examiner le site.

User-agent: nom_du_robot indique le nom du robot du moteur.
Disallow: interdit soit un robot, un dossier, un fichier.
# indique une remarque non prise en compte par les robots.
/ / indique ce qui est interdit au robot entre ces signes.
|      |   une ligne vide indique une nouvelle commande.

Prenons un exemple simple :
User-agent:  * Permet à tous les robots de visiter le site
Disallow:  /cgi-bin/ Interdit à tous les robots de visiter le dossier cgi-bin
Disallow:  /page.htm Interdit à tous les robots d'indexer la page page.htm
Disallow:  /perso/page.htm Interdit à tous les robots d'indexer la page page.htm qui se trouve dans le dossier perso

 

Autres exemples :
User-agent:  ArchitextSpider Précise le nom du robot. Ici, celui d'Exite.
Disallow:  / Interdit au robot d'Exite la visite du site
Une ligne vide indique aux robots une nouvelle commande
User-agent:  * Tous les robots sauf ArchitextSpider peuvent visiter le site
Disallow:  /page.htm Interdit à tous les robots d'indexer la page page.htm
Une ligne vide indique aux robots une nouvelle commande
User-agent:  Scooter/1.0 Présice le nom du robot. Ici, celui d'Altavista.
Disallow:  /private/ Interdit au robot d'Altavista de visiter le dossier /private/
Disallow:  /perso/page.htm Interdit au robot d'Altavista de visiter la page page.htm contenue dans le dossier /perso/
Une ligne vide indique aux robots une nouvelle commande
# remarque Ligne non prise en compte par les robots mais qui vous servant de pense-bête.

 

User-agent:  * Tous les robots sont concernés
Disallow: / Tous le fichiers et dossiers sont interdits (à tous les robots)

- Il n'y a pas d'équivalant à Disallow  (non autorisé) qui serait en anglais Allow. Tout ce qui n'est pas marqué Disallow est considéré comme autorisé sauf dans le cas ci-dessous.

User-agent:  ArchitextSpider Précise le nom du robot. Ici, celui d'Exite.
User-agent: Scooter/1.0 Précise le nom du robot. Ici, celui d'Altavista
Allow: /perso/page.htm Permet aux 2 robots de visiter la page page.htm dans le dossier /perso/
Disallow: /perso Interdit aux 2 robots le dossier /perso sauf la page contenue et spécifié au-dessus.

Remarque :
- Respectez la casse (majuscule, minuscule) des ordres et de vos fichiers Disallow et non disallow - Mon_dossier et non mon_dossier - maPage.htm et non mapage.htm - Scooter/1.0 et non scooter/1.0.
- L'écriture des ordres est
Disallow : (sans espace entre Disallow et :), un espace entre : et la suite.
-
Attention, certains spiders ne respectent pas le protocole imposés par le fichier robots.txt. Si vous ne souhaitez pas que votre site soit visité par certains spiders, vous devez en protéger l'accés par le fichier .htaccess.

Le complément indispensable du fichier robots.txt sont les balises meta de l'en tête <head> des pages HTML. Il faudra les renseigner obligatoirement.

L'une d'entre-elles se présente sous la forme : <meta name="robots" content="X, Y">
Dans laquelle
X sera au choix index - ou - noindex
Dans laquelle Y sera au choix follow - ou - nofollow
index : le robot indexe la page
noindex : le robot n'indexe pas la page
follow : le robot suit tous les liens qu'il trouvera sur la page.
nofollow : le robot ne suit aucun lien présent dans la page.

On peut donc combiner toutes les possibilités :
<
meta name="robots" content="index, follow">
<
metaname="robots" content="index, nofollow">
<metaname="robots" content="noindex, follow"
>
<metaname="robots" content="noindex, nofollow"
>

On peut remplacer
noindex, nofollow par none
On peut remplacer index, follow par all



Renseignez ensuite la balise <meta name="revisit-after" content="XX days" > ou XX indiquera au spider le nombre de jours avant qu'il ne revienne visiter votre site. Mettez 30 à moins que vous ne traitiez d'actualité journalière, il n'est pas nécessaire d'écourter ce chiffre, les robots n'en tenant pas compte systématiquement.

Enfin, il faudra renseigner la balise <meta name="expires" content="never"> dans laquelle never (jamais) indique la durée de vie de votre page. Là aussi, vous pouvez laisser cette balise telle quelle à moins que vous ne préfériez mettre une date. En ce cas vous devrez l'écrire avec la synthaxe anglo-saxonne :
<
meta name="expires" content="Sun, 07 Aug 2005 08:21:57 GMT"> : cette page ne sera plus disponible le dimanche 7 août 2005 à 8 heures 21, 57 secondes GMT

Accueil | Affiliation  | Ajouter un site | Contacter