Top tendance des requêtes de 2015 sur le moteur d’Orange

Quelles ont été les recherches les plus populaires sur le moteur d’Orange cette année ?
Si on met de côté les requêtes récurrentes comme « plus belle la vie », « facebook » , « youtube »… On constate que les tendances des requêtes 2015 de nos internautes sur le plus français des moteurs de recherches, sont globalement plutôt « frenchies » !

Alors n’attendez plus et découvrez-les ci-dessous…

Infographie-2015

 

Orange Top Trends disponible sur WordPress

Depuis quelques jours, notre service Orange top trends est disponible en plugin wordpress. Il est désormais facile d’animer et d’enrichir son site avec le TOP des sujets d’actualités, de sport ou des personnalités qui buzzent le plus en France. L’intérêt de notre TOPTRENDS est qu’il propose pour chaque sujet, l’essentiel de ce qu’il faut savoir avec une revue de tout ce qui se dit en France sur le sujet.

Le mieux est de l’essayer et c’est gratuit  : voir le plugin sur wordpress

WORPRESS

Et si vous souhaitez l’intégrer sur mesure comme un pro : l’API est disponible gratuitement sur Orange partner ici.

 

SEO Camp Nice – Sophia Antipolis

SEO SOPH

J-3 pour le SEO Campus de Paris!

L’un des rendez-vous incontournables de la communauté du référencement était à Sophia Antipolis le mois dernier.
Tous les développeurs du moteur d’Orange y étaient et nous avions hâte de partager connaissances et expérience avec ces conférenciers prestigieux.
Nous sommes repartis fiers et ravis d’avoir participé à ce premier SEO CAMP dans le 06, qui a réuni plus de 50 personnes de la communauté SEO.
Si vous aussi, vous vous posez des questions dans ce domaine et les évolutions des moteurs de recherche, vous pouvez retrouver une partie des documentations disponibles ici et un bonus.

– Focus schema.org en action sur Voila.fr par Erlé Alberton@cubilizerhttp://alberton.me/#section2

– Faut-il avoir peur de Google ? par Raphael DOUCET@raphseohttp://fr.slideshare.net/RaphSEO/fautil-avoir-peur-de-google

– 1/3 SEO + 1/3 (SEA+SMA) + 1/3 (SMO & Co) : La formule parfaite ? par Guillaume Eouzan – @guillaumeeouzanhttp://fr.slideshare.net/guillaumemindfruits/seo-camp-nice-2015-la-formule-idale-de-trafic-pour-son-site-internet

Sans oublier !

Erle

OrangeBot : le nouveau robot de crawl du moteur d’Orange

OrangeBot est le nouveau robot de crawl du moteur de recherche Orange. Il remplace Voilabot, le robot historique connu de tous les webmasters en place depuis 2001. OrangeBot y ajoute un certain nombre de fonctionnalités et de souplesse de crawl pour récupérer automatiquement le contenu des plus de 10 milliards de pages web qu’il collecte pour être référencés sur les portails suivants : www.orange.fr www.lemoteur.fr

Quoi de neuf sur ce nouveau robot?

Le robot OrangeBot inclut un nouvel algorithme pour l’organisation de son crawl avec notamment la mise en place de nouvelles caractéristiques comme la priorité du rafraichissement des pages d’accueil des sites, la prise en compte des balises « meta canonical », la meilleure gestion des « frameset », des « sessionID » et des redirections. Il reprend bien entendu les caractéristiques mises en place avec VoilaBot pour la gestion du sur-crawl des sites comme par exemple http://blog.lemoteur.fr/optimisation-strategie-crawl/ ainsi que toute l’expérience des solutions mises en œuvre avec VoilaBot au fil des années.

UN NOUVEAU USER AGENT ET…

Dans les logs de leur serveur web, les webmasters  ont pu découvrir une nouvelle signature et un nouveau user-agent qui est désormais :

Mozilla/5.0 (compatible; OrangeBot/2.0; support.orangebot@orange.com)

En parallèle un second robot de collecte qui lui se concentre sur la découverte de lien et d’url plutôt que sur les contenus des pages marquera son passage par le user-agent suivant :

Mozilla/5.0 (compatible; OrangeBot-Collector/2.0; support.orangebot@orange.com)

Bien entendu, ces robots OrangeBot respectent les directives définis dans les « robots.txt » des sites qu’ils visitent. Si aucune entrée pour le robot VoilaBot n’existe dans le « robots.txt » d’un site, OrangeBot va suivre les directives de l’entrée :

User-agent: *

Par contre si une entrée spécifique à VoilaBot est présente, la configuration robots.txt devra passer de :

User-agent: VoilaBot

Disallow: /repertoire_1_à_bannir/

Disallow: /repertoire_2_à_bannir/

à

User-agent: OrangeBot

User-agent: OrangeBot-Collector

Disallow: /repertoire_1_à_bannir/

Disallow: /repertoire_2_à_bannir/

UNE TRANSITION EN DOUCEUR 

Le support des anciennes directives VoilaBot va coexister avec OrangeBot pendant quelques mois puis s’arrêter. Les webmasters qui veulent continuer à être référencés dans les bases des moteur d’Orange doivent mettre leur robots.txt à jour . Une solution pour faciliter la migration serait la mise en place d’une consigne du type :

User-agent: VoilaBot

User-agent: OrangeBot

User-agent: OrangeBot-Collector

Disallow: /repertoire_1_à_bannir/

Disallow: /repertoire_2_à_bannir/

Comme indiqué dans le user-agent, l’adresse mail pour toutes questions ou toutes remarques devient :

support.orangebot@orange.com

 

L’équipe Moteur

Les buzz de la rentrée en France

En ce jour de rentrée scolaire, quelles ont été les recherches des Français sur les moteurs d’Orange, Google ou sur Twitter  ? Cet éphéméride, fort judicieux (http://fr.w3streams.com/ephemeride ) résume bien la situation : que ce soit les services les plus tendances comme Twitter ou les plus internationaux comme Google, ou les plus français comme le moteur d’Orange,  les 3 algorithmes ressortent bien les même sujets incongrus pour certains mais pas pour la majorité des français qui recherchent en ce jour  : Enora Malagré , Johnny Hallyday, Najat Vallaud Belkacem , la réforme des rythmes scolaires et le foot. Pour savoir la raison de ces buzz, il suffit de nous consulter en cliquant : mais nos trends parlent d’eux même (API disponible sur partner.orange.com) BUZZ02SEPT

Pourquoi le moteur de recherche d’Orange est un utilisateur d’Elasticsearch

Pourquoi le moteur de recherche d’Orange est un utilisateur d’ElasticsearchArbre Lucene

Le corpus actuel du moteur de recherche d’Orange (plus de 1,2 mds de documents) nécessite d’avoir un ensemble d’outils performants pour les analyser.

Dans ce cadre, nous expérimentons la technologie Elasticsearch basée sur le moteur Lucene.

 

Le saviez-vous ?

Pour rappel, Lucene propose un ensemble de technologies de base allant de l’indexation des documents au calcul des listes réponses avec des fonctions classiques de corrections, suggestions de requêtes.
Elasticsearch ajoute la capacité à déployer ces fonctions sur plusieurs machines de façon transparente et dynamique. De plus, son interface est extrêmement simple et homogène : toutes les requêtes (configuration, ajout de document, recherche…) se font sous forme d’urls avec un paramètre au format Json et les réponses utilisent également ce format.

 

Une architecture adaptable

Pour un ensemble de « petits » moteurs qui tournent en production avec Elasticsearch,ElasticSearch nous avons remplacé des technologies qui devenaient coûteuses à maintenir en mutualisant les ressources matérielles nécessaires au fonctionnement de plusieurs moteurs.
Pour l’instant, la volumétrie de ces « petits » moteurs en production ne se compare pas à celle du corpus web fr et du corpus des liens sur lesquels nous expérimentons.
Cependant la technologie Elasticsearch est utilisée dans les 3 cas.

 

Qu’apporte Elasticsearch au moteur de recherche d’Orange ?

Nous travaillons actuellement avec Elasticsearch pour nous permettre d’avoir une meilleure connaissance des liens entre nos documents (basés sur les hyperliens web) et aussi de leur contenu (web fr). Les analyses interactives sont facilitées par la capacité d’Elasticsearch à monter en charge sur des volumétries importantes en conservant des performances correctes.
Nos données de travail représentent plus de 10To répartis sur plusieurs dizaines de machines Linux. Les premiers résultats de nos travaux améliorent nos listes réponses par exemple en supprimant les documents qui sur-optimisent leur SEO (pour faire court les spammeurs) ou en modifiant nos calculs de scores.

 

Une interface friendly

L’interface simple d’Elasticsearch nous permet également d’intégrer aisément les réponses dans des outillages de visualisation :
un bon exemple de cette intégration est proposée par Kibana. Outils de visualisation
(capture ci-contre)

 

 

 

 

 

 

 

 

Performances Performances

Nous indexons les 1,2 mds de documents en 8 heures et les 80 mds de
liens en un peu moins de 20 heures (sur une plateforme de 60 machines). Les capacités interactives d’Elasticsearch dans ces 2 contextes sont satisfaisantes avec un temps de réponse de 200 à 500 ms pour des requêtes courantes et un débit de plus de 300 requêtes par seconde.

Nous voyons dans le graphe ci-contre que la technologie Elasticsearch supporte bien la montée en charge : ajouter des injecteurs permet d’augmenter la vitesse d’indexation.

 

Interactions avec la communauté Elasticsearch

Elasticsearch est un produit jeune avec une communauté OpenSource particulièrement active et réactive. Nous nous impliquons petit à petit dans cette communauté.
Pour l’instant, cette implication porte sur des remontés de bugs qui sont faites en respectant les règles imposées par la communauté afin de faciliter le travail de leurs développeurs.
Au fur et à mesure de notre montée en compétence, nous proposerons nos propres contributions.

PAR L’ÉQUIPE du moteur d’Orange

La première OPEN API du moteur d’Orange sur Orange Partner

L’OPEN API fait partie de la nouvelle stratégie d’Orange ( déclarée au dernier Hello SHOW) pour ouvrir ses données et son savoir-faire Opérateur à la nouvelle génération de web-entrepreneurs afin de contribuer activement à l’invention des nouveaux usages numériques.

Dans ce cadre, partner.orange.com est la vitrine officielle de toutes les prochaines APIS d’Orange et aujourd’hui, vous pourrez y découvrir notre première OPEN API : Orange Toptrends qui met à votre disposition notre observatoire en temps réel des intérêts de nos internautes Français (voir cet article pour plus de détails)

API     totoo

 

Cette API du moteur de recherche d’Orange  est déjà utilisée par une trentaine de sites de presse Française dans le cadre d’un partenariat d’innovation avec ePresse.fr mais aussi par des jeunes entrepreneurs comme le site w3streams.com qui nous a demandé d’utiliser notre API en avance de phase pour son éphéméride.

Cette API ORANGE TOPTRENDS est la première d’une longue série. Pour cela, n’hésitez pas sur @lemoteur à nous proposer ce que vous aimeriez qu’on mette à disposition en tant que principal moteur de recherche généraliste Français utilisé régulièrement par 3millions de français (@médiamétrie 2014)

 

L’équipe du moteur de recherche d’Orange

 

Présentation 5ème SophiaConf – Web Sémantique

La SophiaConf est un programme pointu d’échanges entre experts sophipolitains, c’est l’événement Open Source de Sophia Antipolis.
Nous y étions !

Pour Guillaume Viland, l’un des développeurs du projet « extraction sémantique », c’était l’occasion d’échanger avec des spécialistes et des chercheurs du domaine du Web Sémantique.
L’objectif des développeurs du moteur Orange, est d’être un jour capable d’interroger le moteur en langage naturel et de transformer la requête en structure intelligible par la machine.

Les autres sujets abordés étaient « Internet of things / M2M /Do it yourself », « Big data, No SQL, BI et sécurité du cloud » et « Nouvelles tendances de développement web ».

Les vidéos des présentations seront disponibles la semaine prochaine sur www.sophiaconf.fr

Nous serons au rendez-vous l’année prochaine 🙂

PAR L’ÉQUIPE du moteur d’Orange