Fichier robots.txt
Vous vous souvenez sans doute de la balise META robots qui indique aux robots d'indexation comment il faut se comporter face à la page Web courante. Cette balise agit sur les pages d'une manière individuelle et il faut la déclarer sur toutes les pages au cas où on veut spécifier une valeur autre que celle par défaut (qui est all ou index,follow).
Le
fichier robots.txt est un fichier texte qui permet d'indiquer aux robots d'indexation comment se comporter sur l'intégralité du site Web. Il doit être placé dans la racine de celui-ci et contient des directives simples.
Le contenu du fichier robots.txt ressemble à ceci:
User-Agent: Nom_du_robot
Disallow :
Disallow: /chemin_vers_la_page_à_ne_pas_indexer
User-Agent: *
Disallow: /
- User-Agent: indique le nom du robot d'indexation. Pour désigner celui de Google on met Googlebot. Si on met l'astérisque (*) cela signifie tous les robots d'indexation.
- Disallow: permet de spécifier le chemin vers la page dont on ne souhaite pas l'indexation par le moteur de recherche spécifié dans User-Agent. Une valeur vide signifie aucune page. le slash (/) signifie toutes les pages à partir de la racine.
Protocole Sitemaps et fichier sitemap
Comme on l'a déjà vu dans ce cours, les robots des moteurs de recherche scrutent le Web pour indexer le contenu des pages rencontrées. Pour passer d'une page à une autre, ils se servent de liens hypertextes. Donc, si dans un premier temps le moteur de recherche a indexé seulement votre page d'accueil (suite à une inscription dans son index ou à partir d'un site référent), alors il finira par indexer toutes vos pages en suivant les liens qui y figurent. Or, si une une page se trouve isolée (qui n'a aucun lien vers elle), elle ne sera pas indexée à moins de soumettre son URL manuellement au moteur de recherche.
Protocole Sitemaps
Le
protocole Sitemaps a été mis en point par Google, Yahoo et Microsoft afin de permettre aux Webmasters de désigner, en une seule fois, les URL des pages qui sont prêtes à l'indexation par les moteurs de recherche. Par conséquent, même si votre site ne dispose pas d'assez de liens qui relient les pages entre elles, le protocole Sitemaps permet de pallier ce problème et invite le robot à indexer l'ensemble des pages listées dans le fichier sitemap.
Fichier sitemap
Le
fichier sitemap permet d'implémenter le protocole Sitemaps par le Webmaster. Il s'agit d'un fichier XML de forme simple qui liste l'ensemble des URL des pages à indexer par les moteurs de recherche.
Le contenu du fichier sitemap ressemble à ceci:
<?xml version="1.0" encoding="UTF-8" ?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.chiny.me/index.php</loc>
</url>
<url>
<loc>http://www.chiny.me/cours.php</loc>
</url>
<url>
<loc>http://www.chiny.me/auteur.php</loc>
</url>
</urlset>
Voici la liste des balises utilisées dans le fichier XML sitemap:
- urlset: permet de définir la version du strandard sitemap utilisé.
- url: regroupe les informations concernant l'URL de la page à indexer.
- loc: précise l'URL complet de la page à indexer.
- lastmod: indique la date de la dernière mise à jour de la page décrite par l'URL. Cette entrée est optionnelle.
- changefreq: indique la fréquence des mises à jour sur la page décrite par l'URL. Elle peut avoir des valeurs comme Weekly, Daily, monthly... Elle sert de guide au robot pour estimer la fréquence de ses visites à la page. Cette entrée est optionnelle.
Indiquer l'emplacement du fichier sitemap aux robots d'indexation
A fin de rendre accessible le fichier sitemap aux robots d'indexation, il faut déclarer son entrée sur le fichier
robots.txt.
Par exemple, si le fichier sitemap s'appelle "sitemap.xml" et est placé dans le dossier "/SEO", alors il faut ajouter ces lignes dans le fichier robots.txt:
User-agent: *
Sitemap: http://www.monsiteweb.tld/SEO/sitemap.xml
Il est également possible d'indiquer l'emplacement du fichier sitemap à travers la plateforme
Search Console de Google. Dans ce cas là, le robot d'indexation du moteur de recherche peut s'y rendre directement sans avoir besoin d'indiquer son emplacement dans le fichier robots.txt.