La nouvelle est apparue dans un des nombreux sujets de discussion du centre webmaster de Google : le moteur de recherche vérifie et intègre le contenu d'un sitemap de plus en plus souvent si celui-ci est mis à jour régulièrement.
En d'autres termes, plus votre sitemap se met à jour souvent, plus Google réduira le temps entre chaque lecture de ce fichier, que ce soit un sitemap image, un sitemap traditionnel ou un sitemap vidéo.
Comment Google index votre sitemap ?
Un sujet de conversation a été lancé par un webmaster de site, qui a constaté que Google accédait 14 800 par jour aux fichiers sitemaps de ces 375 domaines différent, soit près de 40 accès par jour pour chaque site Internet (ce qui est, soit-dit en passant, n'est pas si élevé que cela). Sa problématique était donc de comprendre comment le crawl fonctionnait, le tout pour réduire la charge de son serveur.
Joh'n Mu, un des salariés de la société, indique donc :
Le Crawl des sitemaps par Google dépend directement de la fréquence de la mise à jour de vos fichiers sitemaps. Si nous trouvons un nouveau contenu à chaque crawl, il est probable que nous indexions plus souvent votre fichier sitemap.
Il nous explique ensuite comment réduire la vitesse de crawl sur un serveur (ou sur un ensemble de serveurs) :
Si vous limitez votre mise à jour de sitemap à une fois par jour (ou toute autre fréquence que convient à votre activité), cela peut aider à réduire la fréquence de crawl.
De même, vous pouvez créer un fichier sitemap partagé entre plusieurs sous-domaines. Cela peut aider à réduire le nombre de requêtes envoyées par Google pour chacun de ces domaines.
Le fichier n'a pas nécessairement vocation à être sur le même hébergeur ou domaine que le site lui-même. Si nous indexons trop souvent votre site, vous pouvez également choisir la vitesse de crawl dans le centre webmaster.
Le concept est donc identique au crawl d'un site web : plus un site est mis à jour souvent, plus Google reviendra vite.
Mais si vous avez des soucis de serveur, je vous conseillerais plutôt d'en changer, plutôt que de chercher à freiner les moteurs de recherche...
Petites remarques en passant :
- un crawl = une lecture, et non pas une indexation. Si Google crawle une page, il ne va pas forcément l'indexer dans le moteur de recherche (robots.txt, contenu dupliqué, ...)
- je ne comprends pas l'intérêt de réduire une vitesse de crawl. Théoriquement, plus elle est élevée, plus vous référencez rapidement vos nouveaux contenus, non ? Si l'un de vous y trouve un intérêt, qu'il m'explique pourquoi...
Pour ajouter votre sitemap à votre fichier robots.txt, utilisez tout simplement le code suivant :
Sitemap: http://www.mondomaine.fr/sitemap.xml
En savoir plus sur l'indexation de Google
- Source : Google Crawls Sitemap File Based On Update Frequency
- Le Sujet de conversation sur le crawl des sitemaps (n'existe plus)
- Le centre webmaster de Google
4 Commentaires
C'est bien, continue. :)
tout à fait d'accord si google indexe souvent votre contenu c'est une chance il faut en profiter, à mon avis ça donne de l'importance au site également.
Momo
Merci pour ta publication ! Pour moi le taux d'indexation (pages indexées sur pages crawlées) est plus important que la fréquence de crawl.
Par exemple, sur un site marchand de prêt à porter, les collections ne changent que deux fois par an. Entre temps, les pages du site n'évoluent pas tellement.
Inutile de faire venir Google 40 fois dans la journée. De toute manière, le Googlebot comprendra rapidement que les pages ne changent pas !
Il faut rester cohérent dans l'attribution de la variable changefreq, et ne pas hésiter à mettre ses pages en 304 pour que Google se consacre aux sections du site les plus dynamiques!
Merci pour cet article. De mon côté j'ai eu quelques problèmes au départ car j'ai décidé de modifier le nom de toutes mes pages afin d'optimiser le référencement de ma boutique. Du coup j'ai souvent (moins maintenant) des pages introuvables qui ressortent sur Google Webmaster Tools.
Il suffit d'indiquer à Google que ces pages sont bien supprimées ou bien modifiées et le tour est joué :)
Bonne continuation.
David
Laisser un commentaire