Top tendance des requêtes de 2015 sur le moteur d’Orange

Quelles ont été les recherches les plus populaires sur le moteur d’Orange cette année ?
Si on met de côté les requêtes récurrentes comme « plus belle la vie », « facebook » , « youtube »… On constate que les tendances des requêtes 2015 de nos internautes sur le plus français des moteurs de recherches, sont globalement plutôt « frenchies » !

Alors n’attendez plus et découvrez-les ci-dessous…

Infographie-2015

 

SEO Camp Nice – Sophia Antipolis

SEO SOPH

J-3 pour le SEO Campus de Paris!

L’un des rendez-vous incontournables de la communauté du référencement était à Sophia Antipolis le mois dernier.
Tous les développeurs du moteur d’Orange y étaient et nous avions hâte de partager connaissances et expérience avec ces conférenciers prestigieux.
Nous sommes repartis fiers et ravis d’avoir participé à ce premier SEO CAMP dans le 06, qui a réuni plus de 50 personnes de la communauté SEO.
Si vous aussi, vous vous posez des questions dans ce domaine et les évolutions des moteurs de recherche, vous pouvez retrouver une partie des documentations disponibles ici et un bonus.

– Focus schema.org en action sur Voila.fr par Erlé Alberton@cubilizerhttp://alberton.me/#section2

– Faut-il avoir peur de Google ? par Raphael DOUCET@raphseohttp://fr.slideshare.net/RaphSEO/fautil-avoir-peur-de-google

– 1/3 SEO + 1/3 (SEA+SMA) + 1/3 (SMO & Co) : La formule parfaite ? par Guillaume Eouzan – @guillaumeeouzanhttp://fr.slideshare.net/guillaumemindfruits/seo-camp-nice-2015-la-formule-idale-de-trafic-pour-son-site-internet

Sans oublier !

Erle

OrangeBot : le nouveau robot de crawl du moteur d’Orange

OrangeBot est le nouveau robot de crawl du moteur de recherche Orange. Il remplace Voilabot, le robot historique connu de tous les webmasters en place depuis 2001. OrangeBot y ajoute un certain nombre de fonctionnalités et de souplesse de crawl pour récupérer automatiquement le contenu des plus de 10 milliards de pages web qu’il collecte pour être référencés sur les portails suivants : www.orange.fr www.lemoteur.fr

Quoi de neuf sur ce nouveau robot?

Le robot OrangeBot inclut un nouvel algorithme pour l’organisation de son crawl avec notamment la mise en place de nouvelles caractéristiques comme la priorité du rafraichissement des pages d’accueil des sites, la prise en compte des balises « meta canonical », la meilleure gestion des « frameset », des « sessionID » et des redirections. Il reprend bien entendu les caractéristiques mises en place avec VoilaBot pour la gestion du sur-crawl des sites comme par exemple http://blog.lemoteur.fr/optimisation-strategie-crawl/ ainsi que toute l’expérience des solutions mises en œuvre avec VoilaBot au fil des années.

UN NOUVEAU USER AGENT ET…

Dans les logs de leur serveur web, les webmasters  ont pu découvrir une nouvelle signature et un nouveau user-agent qui est désormais :

Mozilla/5.0 (compatible; OrangeBot/2.0; support.orangebot@orange.com)

En parallèle un second robot de collecte qui lui se concentre sur la découverte de lien et d’url plutôt que sur les contenus des pages marquera son passage par le user-agent suivant :

Mozilla/5.0 (compatible; OrangeBot-Collector/2.0; support.orangebot@orange.com)

Bien entendu, ces robots OrangeBot respectent les directives définis dans les « robots.txt » des sites qu’ils visitent. Si aucune entrée pour le robot VoilaBot n’existe dans le « robots.txt » d’un site, OrangeBot va suivre les directives de l’entrée :

User-agent: *

Par contre si une entrée spécifique à VoilaBot est présente, la configuration robots.txt devra passer de :

User-agent: VoilaBot

Disallow: /repertoire_1_à_bannir/

Disallow: /repertoire_2_à_bannir/

à

User-agent: OrangeBot

User-agent: OrangeBot-Collector

Disallow: /repertoire_1_à_bannir/

Disallow: /repertoire_2_à_bannir/

UNE TRANSITION EN DOUCEUR 

Le support des anciennes directives VoilaBot va coexister avec OrangeBot pendant quelques mois puis s’arrêter. Les webmasters qui veulent continuer à être référencés dans les bases des moteur d’Orange doivent mettre leur robots.txt à jour . Une solution pour faciliter la migration serait la mise en place d’une consigne du type :

User-agent: VoilaBot

User-agent: OrangeBot

User-agent: OrangeBot-Collector

Disallow: /repertoire_1_à_bannir/

Disallow: /repertoire_2_à_bannir/

Comme indiqué dans le user-agent, l’adresse mail pour toutes questions ou toutes remarques devient :

support.orangebot@orange.com

 

L’équipe Moteur

Les buzz de la rentrée en France

En ce jour de rentrée scolaire, quelles ont été les recherches des Français sur les moteurs d’Orange, Google ou sur Twitter  ? Cet éphéméride, fort judicieux (http://fr.w3streams.com/ephemeride ) résume bien la situation : que ce soit les services les plus tendances comme Twitter ou les plus internationaux comme Google, ou les plus français comme le moteur d’Orange,  les 3 algorithmes ressortent bien les même sujets incongrus pour certains mais pas pour la majorité des français qui recherchent en ce jour  : Enora Malagré , Johnny Hallyday, Najat Vallaud Belkacem , la réforme des rythmes scolaires et le foot. Pour savoir la raison de ces buzz, il suffit de nous consulter en cliquant : mais nos trends parlent d’eux même (API disponible sur partner.orange.com) BUZZ02SEPT

Pourquoi le moteur de recherche d’Orange est un utilisateur d’Elasticsearch

Pourquoi le moteur de recherche d’Orange est un utilisateur d’ElasticsearchArbre Lucene

Le corpus actuel du moteur de recherche d’Orange (plus de 1,2 mds de documents) nécessite d’avoir un ensemble d’outils performants pour les analyser.

Dans ce cadre, nous expérimentons la technologie Elasticsearch basée sur le moteur Lucene.

 

Le saviez-vous ?

Pour rappel, Lucene propose un ensemble de technologies de base allant de l’indexation des documents au calcul des listes réponses avec des fonctions classiques de corrections, suggestions de requêtes.
Elasticsearch ajoute la capacité à déployer ces fonctions sur plusieurs machines de façon transparente et dynamique. De plus, son interface est extrêmement simple et homogène : toutes les requêtes (configuration, ajout de document, recherche…) se font sous forme d’urls avec un paramètre au format Json et les réponses utilisent également ce format.

 

Une architecture adaptable

Pour un ensemble de « petits » moteurs qui tournent en production avec Elasticsearch,ElasticSearch nous avons remplacé des technologies qui devenaient coûteuses à maintenir en mutualisant les ressources matérielles nécessaires au fonctionnement de plusieurs moteurs.
Pour l’instant, la volumétrie de ces « petits » moteurs en production ne se compare pas à celle du corpus web fr et du corpus des liens sur lesquels nous expérimentons.
Cependant la technologie Elasticsearch est utilisée dans les 3 cas.

 

Qu’apporte Elasticsearch au moteur de recherche d’Orange ?

Nous travaillons actuellement avec Elasticsearch pour nous permettre d’avoir une meilleure connaissance des liens entre nos documents (basés sur les hyperliens web) et aussi de leur contenu (web fr). Les analyses interactives sont facilitées par la capacité d’Elasticsearch à monter en charge sur des volumétries importantes en conservant des performances correctes.
Nos données de travail représentent plus de 10To répartis sur plusieurs dizaines de machines Linux. Les premiers résultats de nos travaux améliorent nos listes réponses par exemple en supprimant les documents qui sur-optimisent leur SEO (pour faire court les spammeurs) ou en modifiant nos calculs de scores.

 

Une interface friendly

L’interface simple d’Elasticsearch nous permet également d’intégrer aisément les réponses dans des outillages de visualisation :
un bon exemple de cette intégration est proposée par Kibana. Outils de visualisation
(capture ci-contre)

 

 

 

 

 

 

 

 

Performances Performances

Nous indexons les 1,2 mds de documents en 8 heures et les 80 mds de
liens en un peu moins de 20 heures (sur une plateforme de 60 machines). Les capacités interactives d’Elasticsearch dans ces 2 contextes sont satisfaisantes avec un temps de réponse de 200 à 500 ms pour des requêtes courantes et un débit de plus de 300 requêtes par seconde.

Nous voyons dans le graphe ci-contre que la technologie Elasticsearch supporte bien la montée en charge : ajouter des injecteurs permet d’augmenter la vitesse d’indexation.

 

Interactions avec la communauté Elasticsearch

Elasticsearch est un produit jeune avec une communauté OpenSource particulièrement active et réactive. Nous nous impliquons petit à petit dans cette communauté.
Pour l’instant, cette implication porte sur des remontés de bugs qui sont faites en respectant les règles imposées par la communauté afin de faciliter le travail de leurs développeurs.
Au fur et à mesure de notre montée en compétence, nous proposerons nos propres contributions.

PAR L’ÉQUIPE du moteur d’Orange

La première OPEN API du moteur d’Orange sur Orange Partner

L’OPEN API fait partie de la nouvelle stratégie d’Orange ( déclarée au dernier Hello SHOW) pour ouvrir ses données et son savoir-faire Opérateur à la nouvelle génération de web-entrepreneurs afin de contribuer activement à l’invention des nouveaux usages numériques.

Dans ce cadre, partner.orange.com est la vitrine officielle de toutes les prochaines APIS d’Orange et aujourd’hui, vous pourrez y découvrir notre première OPEN API : Orange Toptrends qui met à votre disposition notre observatoire en temps réel des intérêts de nos internautes Français (voir cet article pour plus de détails)

API     totoo

 

Cette API du moteur de recherche d’Orange  est déjà utilisée par une trentaine de sites de presse Française dans le cadre d’un partenariat d’innovation avec ePresse.fr mais aussi par des jeunes entrepreneurs comme le site w3streams.com qui nous a demandé d’utiliser notre API en avance de phase pour son éphéméride.

Cette API ORANGE TOPTRENDS est la première d’une longue série. Pour cela, n’hésitez pas à nous proposer ce que vous aimeriez qu’on mette à disposition en tant que principal moteur de recherche généraliste Français utilisé régulièrement par 3millions de français (@médiamétrie 2014)

 

L’équipe du moteur de recherche d’Orange

 

Présentation 5ème SophiaConf – Web Sémantique

La SophiaConf est un programme pointu d’échanges entre experts sophipolitains, c’est l’événement Open Source de Sophia Antipolis.
Nous y étions !

Pour Guillaume Viland, l’un des développeurs du projet « extraction sémantique », c’était l’occasion d’échanger avec des spécialistes et des chercheurs du domaine du Web Sémantique.
L’objectif des développeurs du moteur Orange, est d’être un jour capable d’interroger le moteur en langage naturel et de transformer la requête en structure intelligible par la machine.

Les autres sujets abordés étaient « Internet of things / M2M /Do it yourself », « Big data, No SQL, BI et sécurité du cloud » et « Nouvelles tendances de développement web ».

Les vidéos des présentations seront disponibles la semaine prochaine sur www.sophiaconf.fr

Nous serons au rendez-vous l’année prochaine 🙂

PAR L’ÉQUIPE du moteur d’Orange

Extraction sémantique

Chez Orange, sont organisés régulièrement des concours ou challenges d’Innovations. Voici un focus sur notre dernière participation : le projet « Extraction sémantique ».

 

1)      L’extraction d’information : c’est quoi ?

« L’extraction de l’information peut être définie comme la tâche d’extraire des évènements ou des faits à partir de textes bruts, pour les stocker dans une base de données et les requêter facilement. »

Chez Orange, ces informations extraites sont regroupées dans ce que l’on peut appeler une base de connaissance.

 

2)      L’extraction d’information : ça sert à quoi ?

L’extraction d’entités et de relations devient une clé technologique des systèmes d’extraction de l’information.
On veut savoir par exemple :
« Quel est le modèle de téléphone le plus populaire, où l’acheter et les horaires d’ouverture du magasin »
« Qui était la femme de Jean Paul Sartre et quel était son livre le plus connu ».

Chez Orange, lorsque l’on interroge le moteur de recherche avec ce type de requêtes, les résultats peuvent être issus de la base de connaissance.

L’extraction de l’information peut également aider dans toutes les étapes d’un moteur de recherche :

  • – Le crawl : l’extraction d’information pertinente fournit une base de données de pages à la fois plus complète et plus fraîche,
  • – L’indexation : le traitement de fichiers spécifiques et l’amélioration des résultats lorsque plusieurs mots du contexte sont ambigus,
  • – L’exploitation  des résultats par l’utilisateur : l’industrialisation de la recherche, la capitalisation des connaissances du web francophone.

 

3)       L’extraction d’information : quelques définitions

Dans le domaine de l’extraction de l’information, une « entité » est l’élément de base des informations contenues dans un texte car elle permet de le comprendre correctement.

Etroitement définie, une entité correspond dans le monde réel à quelque chose d’abstrait comme par exemple une personne, une entreprise, un lieu, etc.

Généralement, une entité est exprimée avec un identifiant unique comme par exemple le nom d’une personne, le nom d’un lieu, etc. Si l’on étend même un peu la définition, une entité peut aussi être un « temps » ou un « quantificateur », voire même une URL.

Le sens exact d’une entité peut être seulement déterminé par l’application qui l’extrait et l’utilise. C’est-à-dire que dans une application spécifique une adresse, un courriel, un numéro de téléphone, etc. peuvent être utilisés comme entités, nous appellerons cela des entités nommées.

Une relation est vue comme le lien entre deux entités nommées dans une période de temps et d’espace définie.

Dans le domaine de l’extraction d’informations, la détection de relations joue un rôle clé dans l’identification et la description d’évènements. Ainsi, l’extraction de relations sémantiques entre les entités nommées est une information très importante dans ce domaine, afin de garder le sens de ce qui est écrit dans ce que l’on extrait.

Ce domaine est utilisé dans beaucoup d’autres comme, les questions réponses automatiques, la construction d’ontologie, le filtrage de l’information, la traduction, etc. Il existe plusieurs sortes de relations qui peuvent être classifiées, mais, comme cet article est simplement à titre de présentation du domaine, nous ne rentrerons pas dans les détails.

 

4)       Notre challenge : c’est quoi ?

Le but est de partir d’un texte brut tiré d’un site Web quelconque et d’extraire des relations entre des entités de type « sujet – verbe – objet » où « sujet » et « objet » sont des entités et « verbe » la relation entre ces deux entités. Par exemple, dans la phrase « Orange est une entreprise de télécommunication », on retrouve la relation suivante « Orange – être – entreprise de télécommunication ».

Prenons un petit exemple, voici le texte à analyser :

« Le président vénézuélien Hugo Chávez  est décédé mardi à Caracas à 58 ans des suites de son cancer diagnostiqué en juin 2011, sans avoir pu prendre congé de ses compatriotes, point final de 14 années de pouvoir sans partage qui ouvre la voie à des élections anticipées. »

Et voici ce que l’outil réalisé extrait :

Hugo Chávez – causeDeMort – cancer

Hugo Chávez – lieuDeMort – Caracas

Hugo Chávez – ageDeMort – 58 ans

Nous continuons d’améliorer ce type de technologie car dans l’exemple précédent, vous pourrez noter que certaines informations n’ont pas pu être extraites, comme par exemple la date du décès. Cependant, des marges d’améliorations sont possibles.

 

PAR L’ÉQUIPE du moteur d’Orange