Extraction sémantique

Chez Orange, sont organisés régulièrement des concours ou challenges d’Innovations. Voici un focus sur notre dernière participation : le projet « Extraction sémantique ».

 

1)      L’extraction d’information : c’est quoi ?

« L’extraction de l’information peut être définie comme la tâche d’extraire des évènements ou des faits à partir de textes bruts, pour les stocker dans une base de données et les requêter facilement. »

Chez Orange, ces informations extraites sont regroupées dans ce que l’on peut appeler une base de connaissance.

 

2)      L’extraction d’information : ça sert à quoi ?

L’extraction d’entités et de relations devient une clé technologique des systèmes d’extraction de l’information.
On veut savoir par exemple :
« Quel est le modèle de téléphone le plus populaire, où l’acheter et les horaires d’ouverture du magasin »
« Qui était la femme de Jean Paul Sartre et quel était son livre le plus connu ».

Chez Orange, lorsque l’on interroge le moteur de recherche avec ce type de requêtes, les résultats peuvent être issus de la base de connaissance.

L’extraction de l’information peut également aider dans toutes les étapes d’un moteur de recherche :

  • – Le crawl : l’extraction d’information pertinente fournit une base de données de pages à la fois plus complète et plus fraîche,
  • – L’indexation : le traitement de fichiers spécifiques et l’amélioration des résultats lorsque plusieurs mots du contexte sont ambigus,
  • – L’exploitation  des résultats par l’utilisateur : l’industrialisation de la recherche, la capitalisation des connaissances du web francophone.

 

3)       L’extraction d’information : quelques définitions

Dans le domaine de l’extraction de l’information, une « entité » est l’élément de base des informations contenues dans un texte car elle permet de le comprendre correctement.

Etroitement définie, une entité correspond dans le monde réel à quelque chose d’abstrait comme par exemple une personne, une entreprise, un lieu, etc.

Généralement, une entité est exprimée avec un identifiant unique comme par exemple le nom d’une personne, le nom d’un lieu, etc. Si l’on étend même un peu la définition, une entité peut aussi être un « temps » ou un « quantificateur », voire même une URL.

Le sens exact d’une entité peut être seulement déterminé par l’application qui l’extrait et l’utilise. C’est-à-dire que dans une application spécifique une adresse, un courriel, un numéro de téléphone, etc. peuvent être utilisés comme entités, nous appellerons cela des entités nommées.

Une relation est vue comme le lien entre deux entités nommées dans une période de temps et d’espace définie.

Dans le domaine de l’extraction d’informations, la détection de relations joue un rôle clé dans l’identification et la description d’évènements. Ainsi, l’extraction de relations sémantiques entre les entités nommées est une information très importante dans ce domaine, afin de garder le sens de ce qui est écrit dans ce que l’on extrait.

Ce domaine est utilisé dans beaucoup d’autres comme, les questions réponses automatiques, la construction d’ontologie, le filtrage de l’information, la traduction, etc. Il existe plusieurs sortes de relations qui peuvent être classifiées, mais, comme cet article est simplement à titre de présentation du domaine, nous ne rentrerons pas dans les détails.

 

4)       Notre challenge : c’est quoi ?

Le but est de partir d’un texte brut tiré d’un site Web quelconque et d’extraire des relations entre des entités de type « sujet – verbe – objet » où « sujet » et « objet » sont des entités et « verbe » la relation entre ces deux entités. Par exemple, dans la phrase « Orange est une entreprise de télécommunication », on retrouve la relation suivante « Orange – être – entreprise de télécommunication ».

Prenons un petit exemple, voici le texte à analyser :

« Le président vénézuélien Hugo Chávez  est décédé mardi à Caracas à 58 ans des suites de son cancer diagnostiqué en juin 2011, sans avoir pu prendre congé de ses compatriotes, point final de 14 années de pouvoir sans partage qui ouvre la voie à des élections anticipées. »

Et voici ce que l’outil réalisé extrait :

Hugo Chávez – causeDeMort – cancer

Hugo Chávez – lieuDeMort – Caracas

Hugo Chávez – ageDeMort – 58 ans

Nous continuons d’améliorer ce type de technologie car dans l’exemple précédent, vous pourrez noter que certaines informations n’ont pas pu être extraites, comme par exemple la date du décès. Cependant, des marges d’améliorations sont possibles.

 

PAR L’ÉQUIPE du moteur d’Orange

CyberChimps