Le buzz en un clin d’œil sur lemoteur.fr ! Secrets de confection

Il y a environ un an, le moteur de recherche d’Orange a créé un nouvel algorithme sur le calcul automatique des « Top Tendances» à partir de ses logs de recherche. En juillet et en cette fin d’année 2012, vous découvrirez plusieurs nouveaux services Orange utilisant cet algorithme afin de proposer une nouvelle façon de parcourir le web au travers de ce qui intéresse vraiment les internautes en France : sur le portail Orange.fr, sur la vitrine du moteur de recherche d’Orange, et en fin d’année 2012, sur les portails de grands partenaires médiatiques (post à venir très bientôt).

Le top tendances est un service qui aide nos utilisateurs à trouver en un clin d’œil, une synthèse des actualités dont on parle le plus dans les médias, sur le web en ce moment même.

Cette liste correspond à des requêtes récemment et fréquemment tapées par les internautes à propos  des sujets d’actualité.  Attention, seules les requêtes sont analysées par le moteur ; il  n’est pas possible de remonter à l’internaute : on ne sait pas qui a cherché quoi, on sait seulement que certaines requêtes sont très demandées pour beaucoup d’internautes Orange.

Pour ceux qui ne l’ont encore essayé, il est très facile d’y accéder : un clic sur le cartouche de recherche du moteur Orange et une liste déroulante apparait montrant le top des cinq sujets d’actu les plus demandés par les internautes Orange.

 

Pour l’internaute, il s’agit d’une fenêtre visuelle sur ce que peut offrir le web, une photographie renouvelée en continu de ce que recherchent les autres ; grâce à ces petites Box, vous avez immédiatement la liste de recherches à faire pour découvrir les actualités les plus en vogue. C’est comme une revue de presse préparée pour vous par la communauté des internautes Orange. C’est une nouvelle  façon de profiter du web : on ne vous propose pas une liste d’articles de presse, mais on vous laisse parcourir le web sur des pistes utilisées par beaucoup d’utilisateurs qu’ils pensent être importantes, où curieux, où tout simplement fun.

Maintenant un peu de technique : je vais vous décrire plus en détail comment ce service est construit, et quelles sont les principaux challenges algorithmiques qu’on a rencontrés et résolus pendant la phase de programmation.

Ce service comprend trois principaux modules que je vais maintenant vous décrire dans les sections suivantes :

  1. Sélection des requêtes d’«actualité» parmi toutes les requêtes du moteur de recherche,
  2. Regroupement des requêtes similaires,
  3. Sélection des requêtes qui font du « buzz ».

Sélection des requêtes d’ «actualité»

Comment savoir si une requête correspond à une recherche d’actualité ? L’utilisateur a-t-il l’intention de lire un article de presse, plutôt que de chercher le prix des dernier smartphones ou tout simplement de chercher l’adresse d’un site web oublié ?

Pour résoudre cette problématique,  nous avons implémenté un classifieur bayesien (Classification naïve bayesienne) , qui prend comme données d’entrée des articles de presse issue de différents flux RSS sur le net.

La stratégie est la suivante : on collecte tout les mots présents dans les articles du dernier mois d’un coté, et tout mots contenu dans les articles des derniers deux jours de l’autre coté.

Quand une requête arrive au classifieur, ce dernier calcule la probabilité que les mots de cette requête appartiennent à un article publié dans les deux derniers jours (aussi appelé actualité fraiche), et ce, par rapport aux autres articles parus dans un délai de 30 jours précédents les derniers deux jours, ou, la probabilité de n’appartenir à aucun de ces deux ensembles.

On fixe par défaut une valeur de  seuillage, et toutes les requêtes ayant une probabilité supérieure à ce seuil, constituent l’ensemble des candidates « en vogue » qui vont à être traitées dans la prochaine étape de la chaine de traitement.

Regroupement des requêtes similaires

Le problème qui se pose ici est que certaines requêtes ont des formulations différentes pour un même sujet. Par exemple, les deux requêtes « parcours tour de france 2013 » et « tour de france » parlent du même sujet. On veut les agréger en un même groupe, considérer les occurrences cumulées et donc ne proposer qu’une seule représentation aux utilisateurs, notamment la plus appropriée. Cette étape est importante car on ne veut pas que deux ou plus de nos requêtes « en vogue » (les Top Tendances) soient similaires. Comme  cinq suggestions sont proposées pour représenter toutes les tendances d’actualité du web, il convient d’éviter les répétitions ou redondances de sujets.

On procède alors au regroupement des requêtes par co-occurrence des mots, c’est-à-dire on fait l’hypothèse que si le même mot est présent dans deux requêtes différentes, alors ces dernières sont probablement liées. Si elles ont plus de deux mots en commun, alors la relation est encore plus forte.

On construit le graphe des requêtes basé sur la co-occurrence des mots, c’est-à-dire les nœuds sont les requêtes utilisateur et les arrêtes ont une pondération basée sur la force attribuée à la proximité  des deux requêtes. On applique plusieurs algorithmes de clusterisation pour sortir les groupes des requêtes et éliminer les faux positifs (les liens construits entre des mots provenant de contexte différents). Toutes les requêtes regroupées sont idéalement des reformulations d’un même concept  recherché par plusieurs internautes Orange.

Sélection des requêtes qui font du « buzz »

Toutes les requêtes liées à l’actualité dans les dernières 24 heures ont été sélectionnées et regroupées par un représentant unique pour un  même sujet. Intéressons nous maintenant à la partie essentielle de l’algorithme pour choisir les requêtes dont le volume augmente sensiblement : ce sont les requêtes avec un nombre important d’occurrences dans notre archivage et qui montent rapidement dans les dernières heures.

Pour évaluer le « taux de croissance » de nos requêtes,  un autre algorithme dédié  a été mis en place : il s’agit de comparer le nombre d’occurrences d’une requête pendant les dernières 24 heures par rapport au nombre moyen d’occurrences journalier de la même requête pendant la dernière semaine. Plus grand est ce rapport, plus fort est la « croissance de la requête ». Une augmentation de 5 où 6 fois est carrément une indication d’un fort intérêt des utilisateurs ; les requêtes les plus en vogue peuvent augmenter leur volume même de 100 où 1000 fois.

Par contre, on ne se limite pas au taux de croissance des requêtes, on considère aussi leur volume absolu dans les heures récentes (les dernières 24 heures). Beaucoup de volume (occurrences) pour une requête nous indique un fort intérêt des utilisateurs. Le volume tout seul ne fait pas la tendance, mais il faut plutôt considérer l’association entre un fort volume et une forte croissance.  Par exemple, on considère deux requêtes qui doublent leur volume journalier d’occurrences. La première requête est normalement jouée mille fois par jour (donc elle fait un saut à deux mille occurrences par jour), et la seconde requête est jouée normalement 100 fois par jour (donc elle fait un saut à 200 occurrences par jour). La première requête est alors plus « tendance » que la seconde, à cause de son plus gros volume – donc elle intéresse plus d’internautes. On intègre ce genre de considération dans notre algorithme, en combinant dans notre score final la croissance d’une requête par rapport à son histoire et le volume absolu des requêtes.

On peut devenir accro !

Pour voir ce que ça donne, il suffit d’aller sur la page d’accueil lemoteur.fr , mais également au clic sur le cartouche (www.lemoteur.fr et www.orange.fr ). Vous verrez à l’usage, et très vite, on y revient souvent, que ce que les internautes demandent sur notre moteur suit relativement de très près l’Actualité et cela révèle un profond intérêt de la part des internautes de ce qui se dit dans tous nos médias et en particulier sur l’actualité des personnalités politiques et artistiques, les matchs et aussi plus légèrement sur les mini-buzz des émissions TV. Si vous êtes curieux ou si vous avez juste envie de parcourir le web d’une façon ludique, alors on vous recommande ces top-tendances, photographies en temps réel de ce qui nous intéresse vraiment au travers de nos recherches.

One thought on “Le buzz en un clin d’œil sur lemoteur.fr ! Secrets de confection

  1. Pingback: Le blog Le Moteur - le moteur d’Orange lance un nouveau service de recherche pour la Presse Française en ligne

Comments are closed.

CyberChimps