jeudi 12 mai 2022

Qu'est-ce qu'un sitemap XML ? En ai-je besoin ?

Qu'est-ce qu'un sitemap XML ?


Un plan de site XML est une liste structurée de toutes les pages d'un site Web disponibles pour être explorées par les moteurs de recherche. Le plan du site XML n'est pas destiné à être visualisé par les utilisateurs car il est écrit dans un format lisible par machine. Il est utilisé sous la forme d'un fichier XML contenant des données balisées par des balises. XML signifie « langage de balisage extensible » - un format de fichier accepté pour être utilisé pour les sitemaps.

Les robots des moteurs de recherche peuvent trouver vos pages de deux manières :
  1. En visitant tous les liens trouvés sur une page et en répétant cela pour chaque page visitée
  2. En visitant les pages répertoriées dans le plan du site



Un sitemap est complémentaire à l'exploration normale du Web. Cependant, la première option ne fonctionne pas toujours. Par exemple, les moteurs de recherche ne pourront pas trouver et indexer une page qui n'est liée à aucune autre page. C'est un cas où un sitemap vient à la rescousse.


Quels types de sitemaps XML connaissons-nous ?


Plan du site URL - c'est ce que la plupart des gens appellent "plan du site XML". Il répertorie les URL des pages de votre site Web.

Index des plans du site – un « plan du site des plans du site ». Il répertorie tous vos sitemaps si vous en avez plusieurs. Par exemple, vous pouvez avoir différents plans de site pour les articles et les pages (communs avec les sites Web WordPress) ou plusieurs plans de site si l'un d'eux dépasse la limite de taille. Vous aurez également besoin de plusieurs sitemaps si vous dépassez la limite de taille ou de nombre d'URL.

Plan du site multimédia - vous pouvez créer un plan du site séparé pour vos images et vidéos ou vous pouvez les inclure dans votre plan du site URL normal.


Ai-je besoin d'un sitemap XML ?


La grande chose est que vous ne pouvez que bénéficier d'un sitemap. Il n'y a aucun risque à en avoir un.

Google affirme que "dans la plupart des cas, votre site bénéficiera d'un sitemap et vous ne serez jamais pénalisé pour en avoir un".

Mais la mise en œuvre d'un sitemap vaut-elle le travail supplémentaire ?


Un blog avec des centaines de pages bien structurées avec un bon maillage interne ne verra probablement aucune différence dans le nombre de pages indexées , car toutes ont probablement été indexées avant même d'avoir un sitemap.

Quels sites Web doivent absolument utiliser un sitemap ?

Les énormes sites Web


Si vous avez un site Web avec des milliers de pages (par exemple une boutique en ligne), il est bon d'informer les moteurs de recherche de toutes vos URL disponibles pour l'exploration. Pour rendre l'exploration plus efficace (ce qui est particulièrement important pour les grands sites Web), vous devez inclure les dernières métadonnées mises à jour dans le sitemap.

Sites Web avec des pages mal interconnectées


Si vous savez que votre site Web a des liens internes médiocres et que certaines pages peuvent être "orphelines" sans aucun lien interne ou externe, il est bon d'avoir un plan du site pour informer les moteurs de recherche de leur existence.

Nouveaux sites Web sans backlinks


Si vous venez de créer un blog et que votre domaine est toujours introuvable dans le SERP, le moyen le plus simple d'attirer l'attention des robots est de soumettre votre site Web et votre sitemap XML à Google Search Console et aux outils Bing Webmaster.

Il y a plus dans le sitemap que d'être indexé par les moteurs de recherche.

Par exemple, un sitemap peut accélérer l'ensemble du processus d'exploration. Comment? 
Il peut contenir des informations supplémentaires importantes pour chaque URL.


Quelles informations un sitemap peut-il contenir ?


Les sitemaps peuvent (mais ne doivent pas nécessairement) contenir des informations précieuses (métadonnées) pour les moteurs de recherche. Les métadonnées de sitemap les plus courantes sont :

1. Date de la dernière mise à jour de la page (attribut lastmod)

C'est l'une des informations les plus précieuses pour les moteurs de recherche. Au lieu de parcourir la page et de vérifier si quelque chose a changé (et donc de dépenser des ressources précieuses et du temps CPU), il peut simplement vérifier le dernier champ mis à jour dans le plan du site et faire le calcul simple :


Crawler : la dernière fois que j'ai exploré cette page, c'était le 1er mars 2019. Le plan du site m'indique que la page a été mise à jour pour la dernière fois le 14 février 2019. Je n'ai pas à perdre mon temps à explorer et à indexer cette page inchangée et je vais plutôt passer mon temps à parcourir des pages qui ont changé depuis ma dernière visite.

C'est une situation gagnant-gagnant. Votre page sera explorée plus tôt et les moteurs de recherche économiseront des ressources qui seraient autrement consacrées à l'exploration et à la comparaison de vos pages. En conséquence, les moteurs de recherche disposent d'un index plus récent des sites Web.

Vous pensez peut-être : "D'accord, je vais donc créer un script pour mettre à jour tous les attributs lastmod de mon sitemap à une nouvelle date tous les jours et mon site sera toujours super frais dans Google." Ne fais pas ça, ça ne servira à rien.

Google n'utilise l'attribut lastmod que lorsqu'il est utilisé correctement.

« Lorsque nous pouvons dire qu'il est utilisé correctement, c'est un signal utile. L'un des problèmes que je vois souvent est que les sites utilisent la date/heure à laquelle le sitemap a été généré comme date de dernière modification pour toutes les pages du fichier sitemap - ce n'est pas utile. John Mueller a expliqué dans ce fil Reddit .

"Les sitemaps peuvent aider les webmasters à relever deux défis actuels : tenir Google informé de toutes vos nouvelles pages Web ou mises à jour et augmenter la couverture de vos pages Web dans l'index Google." – Blog Google

Donc, pour récapituler, un crawler peut donner la priorité à l'exploration de pages fraîchement mises à jour, et ne pas dépenser de ressources pour réexplorer des pages inchangées (par exemple, la page de politique de confidentialité).

2. À quelle fréquence une page est-elle mise à jour (attribut changefreq)

Celui-ci est délicat. Au début, cela semble être juste une autre information pour les moteurs de recherche pour améliorer leur optimisation de l'exploration. Mais n'est-ce pas un peu redondant ?

Oui c'est le cas! En réalité, la date de la dernière mise à jour est un bien meilleur indicateur si un site Web doit être réexploré. C'est pourquoi tous les principaux moteurs de recherche ignorent cet attribut.

3. Quelle est l'importance d'une page (attribut de priorité)

D'autres moteurs de recherche peuvent toujours utiliser l'attribut de priorité, mais les détails supplémentaires ne sont pas connus. Voici les 3 utilisations les plus probables de l'attribut prioritaire :
  1. Les pages hautement prioritaires peuvent être explorées plus souvent
  2. Si deux pages correspondent à la même requête, la page avec une priorité plus élevée peut être celle affichée dans les résultats de la recherche
  3. Si un site Web est nouveau, les pages de priorité plus élevée peuvent être indexées en premier

Une bien meilleure façon de calculer la priorité de chaque page de votre site Web consiste à examiner les liens internes. Les pages avec les liens internes les plus (et les plus importants) sont probablement les plus importantes. C'est pourquoi Google ignore complètement l'attribut de priorité.

4. Présence d'une version linguistique alternative


Déclarer des alternatives hreflang directement dans le code de chaque page peut être pénible pour les sites Web comportant des milliers de pages. Heureusement, vous pouvez déclarer toutes vos mutations linguistiques dans un seul fichier sitemap XML. Pour plus de détails, consultez le guide officiel hreflang du sitemap de Google.


Exigences relatives au fichier de plan de site XML

Un plan de site peut être soit une liste d'URL en texte brut (non recommandé), soit utiliser le protocole de plan de site et utiliser des balises XML (la meilleure façon de le faire). Il doit être encodé en UTF-8 et peut être compressé au format gzip (fortement recommandé).

La taille maximale du fichier est de 50 Mo (compressé ou non) ou 50 000 URL.

Si vous souhaitez inclure plus de 50 000 pages dans le sitemap, il vous suffit de le diviser en deux ou plusieurs fichiers de sitemap et de créer un index de sitemap qui sera lié à tous ces sous-sitemaps.


Index de sitemap généré automatiquement à partir du plugin WordPress YoastSEO.

Il en va de même pour la limite de taille de 50 Mo. Si vous dépassez la limite maximale, vous devrez diviser votre sitemap en plusieurs sitemaps liés à partir de l'index principal des sitemaps.

Si tout cela est trop technique pour vous et que votre site Web fonctionne sur WordPress, utilisez un plugin (comme Yoast SEO ) qui fera le travail pour vous.


Questions fréquemment posées

Dois-je utiliser l'attribut prioritaire dans le sitemap ?


L'attribut prioritaire est destiné à signaler l'importance de vos pages - les pages plus importantes peuvent alors être explorées plus souvent. Il y a cependant une énorme mise en garde :

Google ne tient pas du tout compte de cet attribut ! Et avec la part de marché de Google d'environ 90 %, cela ne vaut tout simplement pas la peine de les inclure dans votre sitemap dans la plupart des cas.

Si vous utilisez un plug-in qui inclut automatiquement l'attribut de priorité dans le plan du site, ce n'est pas grave, mais cela n'aura aucun effet sur votre indexation ou votre classement Google.

Le plan du site doit-il répertorier toutes mes pages ?

Il n'est pas nécessaire que le plan du site inclue toutes les URL de votre site Web, mais les pages restantes peuvent ne pas être trouvées par les robots d'exploration.

Il est tout à fait acceptable de laisser de côté les pages que vous ne souhaitez pas indexer (elles pourraient être indexées de toute façon, utilisez la directive noindex pour interdire aux moteurs de recherche de l'indexer).

Puis-je utiliser le plan du site pour informer Google des pages que je ne souhaite pas voir indexées ?

Eh bien, un sitemap ne vous aidera pas avec ça. Un sitemap n'est qu'une aide pour les crawlers. Laisser une page en dehors du plan du site peut n'avoir aucun effet.
  • Si vous ne voulez pas que votre page soit explorée , vous devez l' interdire dans le fichier robots.txt . Cependant, la page peut toujours être indexée.
  • Si vous ne voulez pas que votre page soit indexée , utilisez la balise meta noindex .

Google trouvera-t-il mon sitemap ? Où dois-je placer le plan du site ?

Le moyen le plus courant consiste à soumettre le plan du site directement dans la console de recherche Google . La grande chose à faire de cette façon est que vous verrez si Google a vérifié votre sitemap, combien de pages il a trouvées et combien d'entre elles sont actuellement indexées.

Si, pour une raison ou pour une autre, vous ne souhaitez pas que votre site Web figure dans GSC, ou pour faciliter la recherche de votre sitemap par tous les moteurs de recherche possibles dans le monde, vous pouvez l'ajouter à votre fichier robots.txt (le premier fichier qu'un robot d'exploration visite sur chaque site Web).

Comment faire? C'est super facile, ajoutez simplement une ligne comme celle-ci avec un lien vers votre fichier sitemap (ou fichier d'index de sitemap) à votre robots.txt :

Plan du site : https://www.domain.com/sitemap-name.xml


N'oubliez pas que même si tout est correctement défini, "l'utilisation d'un sitemap ne garantit pas que tous les éléments de votre sitemap seront explorés et indexés". (Source : Google)

Que se passe-t-il si je souhaite inclure plus de 50 000 URL dans un sitemap ?

Un sitemap a une limite supérieure de 50 000 URL par fichier. Si vous devez inclure plus d'URL, il existe une solution simple :

Divisez votre plan de site en plusieurs fichiers et incluez un index de plan de site (essentiellement un plan de site de plans de site) qui pointera vers tous les "sous-plans de site".

<?xml version="1.0" encoding="UTF-8" ?> <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <plan du site> <loc>https://www.domain.com/post-sitemap.xml</loc> <lastmod>2019-11-06T20:19:20+00:00</lastmod> </sitemap> <plan du site> <loc>https://www.domain.com/page-sitemap.xml</loc> <lastmod>2019-10-21T18:51:43+00:00</lastmod> </sitemap> </sitemapindex>

Y a-t-il des effets négatifs à avoir plusieurs fichiers de plan de site et un fichier d'index de plan de site ?

Non pas du tout. Même si vous n'atteignez pas le nombre d'URL ou les limites de taille de fichier, vous pouvez toujours diviser vos sitemaps en plusieurs fichiers pour votre commodité.

Comme John Mueller l'a expliqué dans ce fil Reddit : "Tous les fichiers sitemap d'un site sont importés dans une grande tasse à mélanger commune, légèrement secoués, puis donnés à Googlebot par URL sous la forme d'une boisson énergisante. Peu importe le nombre de fichiers que vous avez.


Choses importantes à garder à l'espritIl n'y a rien à perdre à avoir un sitemap, il ne peut que vous apporter des avantages

  • Si vous avez un petit site Web avec des centaines de pages statiques, vous ne verrez probablement aucun avantage à avoir un sitemap
  • Si vous avez un site Web avec des milliers de pages générées automatiquement ou en constante évolution (par exemple, une boutique en ligne), un sitemap peut vous aider à indexer vos pages plus rapidement et à découvrir et indexer chaque modification plus rapidement.
  • Il est super facile de mettre en place un sitemap avec un CMS moderne via des plugins (plugin Yoast pour WordPress, etc.)
  • Avoir un sitemap n'est en aucun cas un facteur de classement
  • Un sitemap ne peut pas être utilisé pour dire aux moteurs de recherche de ne pas indexer une page

Aucun commentaire:

Enregistrer un commentaire