Extraction sémantique

Chez Orange, sont organisés régulièrement des concours ou challenges d’Innovations. Voici un focus sur notre dernière participation : le projet « Extraction sémantique ».

 

1)      L’extraction d’information : c’est quoi ?

« L’extraction de l’information peut être définie comme la tâche d’extraire des évènements ou des faits à partir de textes bruts, pour les stocker dans une base de données et les requêter facilement. »

Chez Orange, ces informations extraites sont regroupées dans ce que l’on peut appeler une base de connaissance.

 

2)      L’extraction d’information : ça sert à quoi ?

L’extraction d’entités et de relations devient une clé technologique des systèmes d’extraction de l’information.
On veut savoir par exemple :
« Quel est le modèle de téléphone le plus populaire, où l’acheter et les horaires d’ouverture du magasin »
« Qui était la femme de Jean Paul Sartre et quel était son livre le plus connu ».

Chez Orange, lorsque l’on interroge le moteur de recherche avec ce type de requêtes, les résultats peuvent être issus de la base de connaissance.

L’extraction de l’information peut également aider dans toutes les étapes d’un moteur de recherche :

  • – Le crawl : l’extraction d’information pertinente fournit une base de données de pages à la fois plus complète et plus fraîche,
  • – L’indexation : le traitement de fichiers spécifiques et l’amélioration des résultats lorsque plusieurs mots du contexte sont ambigus,
  • – L’exploitation  des résultats par l’utilisateur : l’industrialisation de la recherche, la capitalisation des connaissances du web francophone.

 

3)       L’extraction d’information : quelques définitions

Dans le domaine de l’extraction de l’information, une « entité » est l’élément de base des informations contenues dans un texte car elle permet de le comprendre correctement.

Etroitement définie, une entité correspond dans le monde réel à quelque chose d’abstrait comme par exemple une personne, une entreprise, un lieu, etc.

Généralement, une entité est exprimée avec un identifiant unique comme par exemple le nom d’une personne, le nom d’un lieu, etc. Si l’on étend même un peu la définition, une entité peut aussi être un « temps » ou un « quantificateur », voire même une URL.

Le sens exact d’une entité peut être seulement déterminé par l’application qui l’extrait et l’utilise. C’est-à-dire que dans une application spécifique une adresse, un courriel, un numéro de téléphone, etc. peuvent être utilisés comme entités, nous appellerons cela des entités nommées.

Une relation est vue comme le lien entre deux entités nommées dans une période de temps et d’espace définie.

Dans le domaine de l’extraction d’informations, la détection de relations joue un rôle clé dans l’identification et la description d’évènements. Ainsi, l’extraction de relations sémantiques entre les entités nommées est une information très importante dans ce domaine, afin de garder le sens de ce qui est écrit dans ce que l’on extrait.

Ce domaine est utilisé dans beaucoup d’autres comme, les questions réponses automatiques, la construction d’ontologie, le filtrage de l’information, la traduction, etc. Il existe plusieurs sortes de relations qui peuvent être classifiées, mais, comme cet article est simplement à titre de présentation du domaine, nous ne rentrerons pas dans les détails.

 

4)       Notre challenge : c’est quoi ?

Le but est de partir d’un texte brut tiré d’un site Web quelconque et d’extraire des relations entre des entités de type « sujet – verbe – objet » où « sujet » et « objet » sont des entités et « verbe » la relation entre ces deux entités. Par exemple, dans la phrase « Orange est une entreprise de télécommunication », on retrouve la relation suivante « Orange – être – entreprise de télécommunication ».

Prenons un petit exemple, voici le texte à analyser :

« Le président vénézuélien Hugo Chávez  est décédé mardi à Caracas à 58 ans des suites de son cancer diagnostiqué en juin 2011, sans avoir pu prendre congé de ses compatriotes, point final de 14 années de pouvoir sans partage qui ouvre la voie à des élections anticipées. »

Et voici ce que l’outil réalisé extrait :

Hugo Chávez – causeDeMort – cancer

Hugo Chávez – lieuDeMort – Caracas

Hugo Chávez – ageDeMort – 58 ans

Nous continuons d’améliorer ce type de technologie car dans l’exemple précédent, vous pourrez noter que certaines informations n’ont pas pu être extraites, comme par exemple la date du décès. Cependant, des marges d’améliorations sont possibles.

 

PAR L’ÉQUIPE du moteur d’Orange

L’appli pour les bavards en mal de conversation

Pour les stars de la machine à café ou les timides en recherche de sujets de conversation, voici une application inédite et bien pratique pour vous glisser à l’oreille les sujets dont tous les français parlent en ce moment même…

l’application TOPBUZZ disponible sur ANDROID MARKET

Des sujets dans l’Actualité, sur le SPORT ou les PEOPLE réactualisés toutes les heures selon les pics de buzz relevés sur twitter, les médias, les sites spécialisés web ainsi que les recherches des internautes sur le moteur de recherche d’Orange (classé parmi les + utilisés en France).

TOPBUZZ

 

 

En francais on dit lemoteur

Mais oui, à part Google, il y a d’autres moteurs de recherche utilisés et développés en France !

Pour connaitre ceux qui comptent car parmi les plus utilisés en France, il suffit d’aller voir par exemple sur MEDIAMETRIE qui comptabilise en fonction du nombre de visiteurs uniques ou pages vues (indicateurs fiables sur la fréquentation).

mediametrie

Tenir une top position face aux géants américains est notre mission au quotidien  pour les 80 développeurs du moteur d’Orange basé à Sophia Antipolis dans le sud de la France : longtemps devant Yahoo et talonnant Bing sur le sol Français, le moteur d’Orange tient toujours sa position dans le TOP  des moteurs de recherche les plus utilisés en France d’après Médiamétrie, ceci grâce à sa présence sur le portail Orange.fr parmi les plus visités en France.

Notre mission est aussi de mettre en avant les sites Francophones. Un exemple avec les sites de Presse Française pour lesquels, le moteur d’Orange a inventé une API ORANGE TOP TRENDS qui amène une recirculation d’audience solidaire entre les sites de presse partenaires (projet innovant mené avec ePresse.fr, bénéficiant aujourd’hui d’une belle publicité sur lepoint.fr).

Alors si les MEDIAS veulent soutenir les initiatives Françaises, il y a plein de moyens : pour le moteur d’Orange, vous pouvez  intégrer sur vos sites, notre API ORANGE TOP TRENDS (pour en savoir plus sur Orange Partner) qui favorise la lecture de la Presse Française, aussi utilisez nous sur lemoteur.fr ou quand vous passez sur le portail Orange.fr

lepoint

 

 

 

 

Le moteur d’Orange fait sa pub avec l’API Orange TOP TRENDS

En ce moment sur l’Express.fr, Lepoint.fr, Liberation.fr ou Le parisien.fr, le moteur de recherche d’Orange fait sa pub pour son API ORANGE TOP TRENDS qui donne toutes les heures les sujets d’actualités les plus recherchés et partagés sur les médias et les réseaux sociaux.

L’intérêt de cette API? Pour l’internaute, un service ludique qui donne, sur les sujets dont on discute le plus en ce moment, une revue de presse de qualité !

Pour les sites de Presse qui ont intégré cette API au sein de leurs pages, une visibilité et un apport d’audience supplémentaires grâce à ces TOP TRENDS qui incitent à la curiosité et qui amènent au clic, de nouveaux lecteurs…

Ce service est né d’un projet commun entre le moteur d’Orange et le groupe ePresse.fr avec l’objectif de trouver de nouveaux moyens innovants pour inciter à lire davantage la Presse.

Pour intégrer l’API c’est tout simple et sans engagement :contactez nous sur Twitter @lemoteur ou sur Orange Partners pour récupérer l’API, bénéficier de la recirculation d’audience de ce service et d’une visibilité sur nos prochaines campagnes de publicité !

Campagne2014

 

lepoint

 

…Que les moins de 20 ans ne peuvent pas connaîîîîître !

Depuis ce Week-end, nous voyons sur notre Orange Toptrends, des sujets que les moins de 20 ans ne peuvent pas connaitre ! …Et pourtant, nos algorithmes sont formels, un grand nombre de français ont soudainement posé ces questions au moteur d’Orange : France Roche, Peter O’Toole : morts ce week-end, ils ont supplanté par la curiosité des internautes, les sujets phares de ces 2 derniers jours : NRJ music Awards , le clash de laurent Baffie ou OL-OM, …

Top tendancesOrange

Pris d’un coup de vieux par ce TOP d’un autre âge, allons donc jeter un oeil sur Google Trends de ce WE : en fait, nous retrouvons les même tendances de recherches ! Peter O’Toole en 1er et France Roche en 3ème ce dimanche 15 décembre..et ce matin quelle surprise de voir l’actrice des années 50 Joan Fontaine dans le TOP 2 de Google Trends !

Que pouvons nous conclure à part que nous sommes sûrs dorénavant que les anciennes générations se sont bien appropriés la recherche sur internet 🙂

Top tendanceGoogle

 

Rétrospective 2013

Rétrospective des requêtes des français sur le moteur d’Orange en 2013.

infographie

  1. The décision ou le Mariage pour tous
  2. Le Héros monsieur Nelson Mandela
  3. Bien frenchy la ballade de Serge le lama dans le tramway
  4. Celle qui tue ! C’est le scandale alimentaire de la Viande de cheval
  5. La catastrophe le Typhon Haiyan
  6. High-tech impossible de passer à côté de la 4G
  7. Le chanteur de l’année formidable Stromae
  8. Sportif de l’année se faire zlataner par Zlatan Ibrahimovic
  9. Requête sportive le match Nice ASSE
  10. Jeu la saga Grand Theft Auto V
  11. La ville c’est Marseille
  12. Et sa série très recherchée Plus belle la vie
  13. La requête stupéfiante c’est Miley Cyrus
  14. Allô ? La requête qui fait mal aux cheveux c’est Nabilla
  15. La requête qui n’a pas été tapé hé non! google est plus fort que lemoteur.fr

Rendez-vous en 2014 pour la suite!

Bienvenue à la Dépêche ! Notre nouveau partenaire sur presse.lemoteur.fr

Depuis ce matin, la Dépêche.fr propose le top tendances des recherches d’Orange sur ses pages comme un nouvel accès à l’actualité par les sujets qui intéressent le plus les gens en ce moment.

laDEPECHE

 

Au clic sur une de ces suggestions, l’internaute accède instantanément à ce qu’en dit la Presse Française (partenaire du moteur d’Orange et d’ ePresse.fr) avec les derniers titres qui relatent du sujet demandé. Pour les sites de presse Française numérique, presse.lemoteur.fr est un nouveau concept d’échange de visibilité imaginé par ePresse.fr et le moteur d’Orange, fait pour promouvoir et inviter les internautes à lire et découvrir la Presse Française.

Si vous souhaitez en savoir plus, participer à cette promotion de la Presse ou intégrer le cercle, il suffit de nous demander notre API Orange Toptrends, gratuite et facile à mettre en place.

Les tendances de recherches des français

Quand Google a sorti son Google Trends en France, il y a 9 jours, nous sommes tous allés voir  pour découvrir ce que les Français recherchent vraiment sur le web au quotidien.
Côté Équipe du moteur d’Orange, nous étions bien plus curieux encore, car c’était pour nous, l’occasion enfin d’éprouver sur le même terrain,  la pertinence de notre « Orange Trends » sorti en 2012.

Alors en ce vendredi 22 novembre, 20H , voyons ce que recherchent les français….

Selon Google le BUZZ n°1 c’est Dominique Bertinotti puis viennent 3 autres entités nommées : la société mory ducros – hugh jackman et Etienne Daho.

googleTrends

Selon le moteur Orange, les sujets d’actu les plus recherchés par nos internautes ont été aujourd’hui :

toptend

Bonne surprise : on est d’accord sur le buzz du jour : « dominique bertinotti » qui est N°1 également sur le moteur d’Orange et également d’accord sur le buzz mory ducros avec une présentation de la requête différente sur Orange : « transport mory ducros ».
..et des buzz différents : pour nous, ce n’est pas Hugh Jackman (cancer de la peau), ni Etienne Daho (grand prix sacem) qui ont buzzé mais encore et toujours Doria Tillier, MISS METEO à poil qui occupe notre top-tendance depuis 2 jours et dont le volume de requêtes ne cesse d’augmenter chez nous !
Nous divergeons également sur Étienne Daho (Google) car nous remontons plutôt   « real madrid » (Raphaël Varane, le joueur français absent pour le  match de samedi) et le film « capitaine phillips » sorti mercredi qui continue d’être recherché ce vendredi sur Orange.

En regardant les tendances des jours passés, on se rend compte que les Google trends sont à chaque fois différents d’un jour à l’autre, ce qui n’est pas le cas sur Orange; Par exemple avec le sujet du tireur fou à paris, nous l’avons eu toute la semaine dans notre top-tendances sous la forme de requêtes différentes car le sujet n’a cessé d’évoluer sur ces quelques jours. Sur le moteur Orange, nous avons eu :

Mardi 08H37 : tireur fou paris – libération journal paris

Mercredi à 16H  : chasse a l’homme a paris puis paris la defense

Jeudi à 12H : abdelhakim dekhar

Pour Doria Tillier, il n’y a pas eu de suite à sa performance de mercredi et pourtant elle persiste toujours dans le TOP5 du moteur d’Orange… Est-ce une faille dans notre algorithme ou … ce sont nos internautes 🙂 ??!!!!

Le moteur d’Orange propose ses top-tendances comme suggestions de nouvelles recherches

Depuis le 05 novembre, notre top-tendances des recherches qui s’actualise toutes les heures est désormais proposé en fin de nos listes-réponses pour inviter nos internautes à réitérer de nouvelles recherches sur les sujets chauds du moment.

Pour nous, l’incitation à la seconde requête est un moyen incontournable sur lequel nous allons investir pour encourager les internautes à  découvrir le potentiel du moteur d’Orange au travers de recherches plus variées. Ces suggestions sont également proposées automatiquement dans la complétion dès les premières lettres tapées pour répondre encore plus vite sur les intentions de recherches autour de l’actualité.

ce top tendances des recherches, disponible sous forme d’API facile à instancier est aussi utilisé sur plusieurs dizaines de sites de presse française numérique, également dans le but d’encourager les internautes à les découvrir sur de nombreux autres sujets.

nouveautenouveaute2