Tout possesseur d’un site internet qui se chargera de référencer son site auprès des moteurs de recherche passera par-là tôt ou tard : créer un sitemap
Un sitemap qu’est-ce que c’est ?
Un sitemap est un fichier au format XML (.xml) comprenant une liste d’URLs de votre site internet, il permet de signaler aux moteurs de recherche les URLs de votre site que vous jugez importantes et qu’ils doivent indexer en priorité !
Car lorsque les robots des moteurs de recherche procèdent au crawl, ils explorent votre site en partant de la racine du site, autrement dit la page d’accueil.
Les robots explorent la page d’accueil et accèdent ensuite à tous les liens présents sur celui-ci au fur à mesure pour les découvrir et les indexer continuant ainsi de suite à accéder aux liens des nouvelles pages qu’ils explorent.
Il faut noter que cette procédure se passe dans un temps limité attribué à votre site appelé le « Crawl Budget » par conséquent votre site n’est pas entièrement visité et indexé par les moteurs de recherche.
Afin de s’assurer que les URLs que nous souhaitons soient indexées, on remplit alors un sitemap sur lequel on dit aux moteurs de recherche « visite d’abord ces liens pour les indexer avant le reste ».
De cette manière, nous sommes donc assurés que si le crawler manque de temps, il aura pris en compte ce que nous souhaitions.
En prime, vous pourrez indiquer sur votre sitemap les dates des dernières modifications effectuées sur le lien indiqué ainsi qu’une estimation de date des futures modifications, cela permet aux moteurs de recherche de savoir qu’ils doivent de nouveau explorer la page pour prendre en compte les modifications ajoutées.
Cela permet également d’indiquer aux moteurs de recherche d’indexer des URLs non présentes dans le maillage interne et qui ne seraient donc pas trouvées par le robot même si généralement il y a toujours au moins un lien pointant vers une page.
Attention toutefois de ne pas tenter de « tricher » en indiquant de fausses modifications dans les sitemaps, elles seraient rapidement repérées et vous vous retrouveriez pénalisé dans votre référencement.
Bien entendu, le sitemap sera inutile si l’on ajoute tous les liens du site sur celui-ci, les moteurs de recherche ne verraient pas d’intérêt à passer par celui-ci plutôt que par la méthode « traditionnelle » en passant par la racine du site et en l’explorant au fur à mesure.
Votre sitemap peut contenir jusqu’à 50 000 URLs.
Contenu d’un sitemap
Dans un sitemap, toute sorte de contenu peut être indiqué en tant qu’URL, ça peut être des vidéos, des images et du HTML, chacun sera ainsi indexé dans la section qui lui est due.
Les informations rentrées dans le sitemap sont indiquées à l’aide de balise comme tout langage puisque nous rappelons que le sitemap est rédigé en format XML.
Petite précisions, toutes les balises ouvertes doivent être ensuite fermées, il y aura un exemple
Les balises obligatoires :
- <?xml version= »1.0″ encoding= »UTF-8″?> : cette balise est la seule que vous n’aurez pas besoin de refermer et doit être placée comme première ligne de votre fichier, celle-ci sert à préciser qu’il s’agit d’un document xml et l’encodage choisi qui doit impérativement être UTF-8
- <urlset> : Cette balise indique le début et la fin du sitemap, toutes les autres balises devront être placées à l’intérieur de celle-ci, il faudra indiquer à l’ouverture de la balise un lien vers le protocole utilisé ce qui donne la ligne suivante <urlset xmlns= »http://www.sitemaps.org/schemas/sitemap/0.9″>, le lien change très rarement.
- <url> : Cette balise sert à délimiter les informations d’un lien, toutes les informations d’un lien seront situés dedans, pour l’ajout d’un nouveau lien il faudra la fermer et ouvrir une autre balise url
- <loc> : Il s’agit de l’URL pour laquelle on souhaite un indexation de la part des moteurs de recherche.
Balises facultatives :
- <lastmod> : Sert à préciser la date de la dernière modification du lien avec le format AAAA—MM-JJ
- <changefreq> : il s’agit de la fréquence à laquelle vous estimez que votre page sera modifiée pour indiquer aux robots quand il faudra revenir même s’ils ne respectent pas toujours le rythme. Les indicateurs acceptés sont always (toujours), hourly (chaque heure), daily (tous les jours), weekly (toutes les semaines), monthly (chaque mois), yearly (chaque année) et never (jamais).
- <priority> : Comme son nom l’indique, cette balise sert à indiquer les liens de votre site que vous jugez les plus important à indexer, cela permets aux robots de savoir par quels liens commencer lorsqu’ils visitent votre site. La valeur de cette balise se situe entre 0,0 et 1,0 dont 1,0 représente la priorité maximale.
Exemple de Sitemap
<?xml version= »1.0″ encoding= »UTF-8″?>
<urlset xmlns= »http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>https://www.webprospection.com/</loc>
<lastmod>2014-02-24</lastmod>
<changefreq>never</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.webprospection.com/conseils-webmarketing/</loc>
<priority>0.8</priority>
</url>
</urlset>
Dans l’exemple ci-dessus, on démarre avec l’indication du type de document qui est xml et l’encodage qui doit être UTF-8.
Pour la suite on précise le début du sitemap avec la balise urlset dans laquelle on précise le standard de sitemap à l’aide du lien précédé par xmlns.
Nous avons mis seulement 2 urls, vous pouvez le voir aux deux balises url présentes, pour rappel avant l’ouverture d’une nouvelle balise url, il est nécessaire de fermer la balise de la précédente url.
Dans le premier lien on peut observer que nous avons indiqué notre page d’accueil webprospection avec la balise loc, suivi de la date de la derniere modification au 24 février 2014, nous précisons une fréquence fixée à «never » car il n’est pas prévu qu’elle soit modifiée pour le moment.
Pour terminer sur ce lien, une priorité de 1.0 est fixée, ce qui est la priorité maximale, cela sera donc le premier lien visité par les robots.
Pour le second lien portant sur les conseils marketing et l’inscription à la newsletter, nous avons juste précisé une priorité de 0.8, il sera donc le deuxième lien de la liste visitée puisqu’il n’y a pas d’autres liens avec une priorité supérieure.
Pour ce second lien nous n’avons pas précisé la dernière modification et la fréquence de modification puisque nous le rappelons ces deux balises sont facultatives et servent uniquement à apporter une information supplémentaire aux robots.
On n’oublie pas de fermer la balise urlset à la fin pour préciser que notre sitemap se termine là.
Où placer son sitemap ?
Le sitemap n’est pas à placer au hasard puisqu’il prendra en compte uniquement les URLs enfants de la section où il est placé.
Par exemple dans le cas d’un sitemap placé à l’adresse http://monsite.com/blog /, le sitemap pourra prendre en compte uniquement les URLs comprenant au moins http://monsite.com/blog :
http://monsite.com/blog/economie fonctionnera puisque la section économie est une url enfant de blog.
Tandis que si l’on inscrit l’url http://monsite.com/a-propos/, elle ne fonctionnera pas parce que celle-ci n’est pas située dans la section où se trouve le sitemap.
C’est pour cela qu’il est conseillé de placer un sitemap à la racine du site (http://monsite.com/sitemap.xml) afin de s’assurer que tous les liens soient accessibles.
Bien entendu, il n’est pas possible d’indiquer l’URL d’un autre site que celui sur lequel se trouve le sitemap, si votre sitemap est placé sur http://monsite.com/ vous ne pourrez pas ajouter l’url http://monautresite.com/.
Indiquer son sitemap aux moteurs de recherche
Pour signaler votre sitemap aux moteurs de recherche, il est nécessaire de passer par les formulaires permettant de signaler votre volonté d’être indexé.
Bien que le format XML peut paraître barbare aux premiers abords, le nombre limité de balises à utiliser pour signaler ses URLs permet de rapidement prendre en main la création d’un sitemap et sera pour vous un jeu d’enfant.
Laissez un commentaire