OrangeBot : le nouveau robot de crawl du moteur d’Orange

OrangeBot est le nouveau robot de crawl du moteur de recherche Orange. Il remplace Voilabot, le robot historique connu de tous les webmasters en place depuis 2001. OrangeBot y ajoute un certain nombre de fonctionnalités et de souplesse de crawl pour récupérer automatiquement le contenu des plus de 10 milliards de pages web qu’il collecte pour être référencés sur les portails suivants : www.orange.fr www.lemoteur.fr

Quoi de neuf sur ce nouveau robot?

Le robot OrangeBot inclut un nouvel algorithme pour l’organisation de son crawl avec notamment la mise en place de nouvelles caractéristiques comme la priorité du rafraichissement des pages d’accueil des sites, la prise en compte des balises « meta canonical », la meilleure gestion des « frameset », des « sessionID » et des redirections. Il reprend bien entendu les caractéristiques mises en place avec VoilaBot pour la gestion du sur-crawl des sites comme par exemple http://blog.lemoteur.fr/optimisation-strategie-crawl/ ainsi que toute l’expérience des solutions mises en œuvre avec VoilaBot au fil des années.

UN NOUVEAU USER AGENT ET…

Dans les logs de leur serveur web, les webmasters  ont pu découvrir une nouvelle signature et un nouveau user-agent qui est désormais :

Mozilla/5.0 (compatible; OrangeBot/2.0; support.orangebot@orange.com)

En parallèle un second robot de collecte qui lui se concentre sur la découverte de lien et d’url plutôt que sur les contenus des pages marquera son passage par le user-agent suivant :

Mozilla/5.0 (compatible; OrangeBot-Collector/2.0; support.orangebot@orange.com)

Bien entendu, ces robots OrangeBot respectent les directives définis dans les « robots.txt » des sites qu’ils visitent. Si aucune entrée pour le robot VoilaBot n’existe dans le « robots.txt » d’un site, OrangeBot va suivre les directives de l’entrée :

User-agent: *

Par contre si une entrée spécifique à VoilaBot est présente, la configuration robots.txt devra passer de :

User-agent: VoilaBot

Disallow: /repertoire_1_à_bannir/

Disallow: /repertoire_2_à_bannir/

à

User-agent: OrangeBot

User-agent: OrangeBot-Collector

Disallow: /repertoire_1_à_bannir/

Disallow: /repertoire_2_à_bannir/

UNE TRANSITION EN DOUCEUR 

Le support des anciennes directives VoilaBot va coexister avec OrangeBot pendant quelques mois puis s’arrêter. Les webmasters qui veulent continuer à être référencés dans les bases des moteur d’Orange doivent mettre leur robots.txt à jour . Une solution pour faciliter la migration serait la mise en place d’une consigne du type :

User-agent: VoilaBot

User-agent: OrangeBot

User-agent: OrangeBot-Collector

Disallow: /repertoire_1_à_bannir/

Disallow: /repertoire_2_à_bannir/

Comme indiqué dans le user-agent, l’adresse mail pour toutes questions ou toutes remarques devient :

support.orangebot@orange.com

 

L’équipe Moteur

CyberChimps