|
Fichier robots.txt pour les moteur de recherche
Descriptif :
les grands moteurs scrutent inlassablement nuit et jour le web à la recherche de
nouveaux sites afin de les indexer. Bien sûr, ils visiteront les innombrables
nouveautés qu'on leur propose tous les jours mais ils rechercheront aussi ceux
qui n'ont pas demandé leur inscription. Or, pour diverses raisons, il se peut
que vous ne souhaitiez pas que votre site soit indexé et que son contenu soit
dévoilé au public internaute. C'est là qu'intervient le fichier
robots.txt qui contiendra les interdictions de visites entières ou partielles que vous y aurez indiquées. En effet, les moteurs de recherche
utilisent un robot, dénommé spider (araignée) ou crawler, qui,
lorsqu'il scrute un site nouveau ou un site proposé, va chercher en premier lieu
ce fichier qui doit se trouver à la racine du site. Si le vôtre s'appelle
http://www.monsite.com/, le spider examinera
en premier lieu http://www.monsite.com/robots.txt. S'il ne le trouve
pas, il visitera et indexera éventuellement toutes les pages. S'il
le trouve, le spider se conformera aux interdictions éventuelles.
Examinons maintenant le fichier
robots.txt. Dans ce fichier, vous déterminez les droits d'accès de
votre site aux robots. Toutes les combinaisons sont possibles. Vous pouvez
limiter l'accès à un moteur en particulier, ou à tous, ou tous les laisser
examiner vos fichiers. Vous pouvez aussi interdire l'accès d'un répertoire,
d'une ou plusieurs pages pour chacun d'eux.
La réalisation, l'écriture du fichier robots.txt, se fait
à l'aide du plus simple éditeur de texte comme NotePad ; de
cette façon, pas de rajout sauvage de codes invisibles. La syntaxe en est
simple. La première ligne doit spécifier quels sont les moteurs autorisés :
User-agent: indique le nom du ou des moteurs
autorisés à examiner le site.
User-agent: * indique que tous les moteurs sont autorisés à
examiner le site.
User-agent: nom_du_robot indique le nom du robot du moteur.
Disallow: interdit soit
un robot, un dossier, un fichier.
# indique une remarque non prise en compte par les robots.
/ / indique ce qui est interdit au robot entre ces
signes.
| | une ligne vide indique une nouvelle commande.
| Prenons un exemple simple : |
|
|
| User-agent: * |
|
Permet à tous les robots de visiter le site |
| Disallow: /cgi-bin/ |
|
Interdit à tous les robots de visiter le dossier
cgi-bin |
| Disallow: /page.htm |
|
Interdit à tous les robots d'indexer la page page.htm |
| Disallow: /perso/page.htm |
|
Interdit à tous les robots d'indexer la page page.htm
qui se trouve dans le dossier perso |
| Autres exemples : |
|
|
| User-agent:
ArchitextSpider |
|
Précise le nom du robot. Ici, celui d'Exite. |
| Disallow: / |
|
Interdit au robot d'Exite la visite du site |
|
|
Une ligne vide indique aux robots une nouvelle commande |
| User-agent: * |
|
Tous les robots sauf ArchitextSpider peuvent visiter
le site |
| Disallow: /page.htm |
|
Interdit à tous les robots d'indexer la page page.htm |
|
|
Une ligne vide indique aux robots une nouvelle commande |
| User-agent: Scooter/1.0 |
|
Présice le nom du robot. Ici, celui d'Altavista. |
| Disallow: /private/ |
|
Interdit au robot d'Altavista de visiter le dossier
/private/ |
| Disallow: /perso/page.htm |
|
Interdit au robot d'Altavista de visiter la page page.htm
contenue dans le dossier /perso/ |
|
|
Une ligne vide indique aux robots une nouvelle commande |
| # remarque |
|
Ligne non prise en compte par les robots mais qui vous servant de
pense-bête. |
| User-agent: * |
|
Tous les robots sont concernés |
| Disallow: / |
|
Tous le fichiers et dossiers sont interdits (à tous les
robots) |
- Il n'y a pas d'équivalant à Disallow (non autorisé)
qui serait en anglais Allow. Tout ce qui n'est pas marqué
Disallow est considéré comme autorisé sauf dans le cas
ci-dessous.
| User-agent:
ArchitextSpider |
|
Précise le nom du robot. Ici, celui d'Exite. |
| User-agent: Scooter/1.0 |
|
Précise le nom du robot. Ici, celui d'Altavista |
| Allow: /perso/page.htm |
|
Permet aux 2 robots de visiter la page page.htm dans
le dossier /perso/ |
| Disallow: /perso |
|
Interdit aux 2 robots le dossier /perso sauf la page
contenue et spécifié au-dessus. |
Remarque :
- Respectez la casse (majuscule, minuscule) des ordres et de vos
fichiers Disallow et non disallow - Mon_dossier et non mon_dossier - maPage.htm et non mapage.htm -
Scooter/1.0 et non scooter/1.0.
- L'écriture des ordres est Disallow : (sans
espace entre Disallow et
:), un espace entre : et la suite.
- Attention, certains spiders ne respectent pas le protocole imposés par le fichier robots.txt. Si vous ne souhaitez pas que votre site
soit visité par certains spiders, vous devez en protéger l'accés par le fichier
.htaccess.
Le complément indispensable du fichier
robots.txt sont les balises meta de l'en tête <head> des pages HTML. Il
faudra les renseigner obligatoirement.
L'une d'entre-elles se présente sous la forme : <meta name="robots" content="X, Y">
Dans laquelle X sera au choix
index - ou - noindex
Dans laquelle Y sera au choix follow - ou -
nofollow
index : le robot indexe la page
noindex : le robot n'indexe pas la page
follow : le robot suit tous les liens qu'il trouvera sur la page.
nofollow : le robot ne suit aucun lien présent dans la page.
On peut donc combiner toutes les possibilités :
<meta name="robots" content="index, follow">
<metaname="robots" content="index, nofollow">
<metaname="robots" content="noindex, follow">
<metaname="robots" content="noindex, nofollow">
On peut remplacer
noindex, nofollow par none
On peut remplacer
index, follow par all
Renseignez ensuite la balise <meta name="revisit-after" content="XX days"
> ou
XX indiquera au spider le nombre de
jours avant qu'il ne revienne visiter votre site. Mettez 30 à
moins que vous ne traitiez d'actualité journalière, il n'est pas nécessaire
d'écourter ce chiffre, les robots n'en tenant pas compte systématiquement.
Enfin, il faudra renseigner la balise <meta name="expires" content="never"> dans
laquelle never (jamais) indique la durée de vie de
votre page. Là aussi, vous pouvez laisser cette balise telle quelle à moins que
vous ne préfériez mettre une date. En ce cas vous devrez l'écrire avec la
synthaxe anglo-saxonne :
<meta name="expires" content="Sun, 07 Aug 2005 08:21:57
GMT"> : cette page ne sera plus
disponible le dimanche 7 août 2005 à 8 heures 21, 57 secondes GMT
|