MoDiCLI

Construction de modèles sémantiques compositionnels linguistiquement interprétables



Résumé
Les modèles sémantiques construits par apprentissage automatique connaissent un succès important tant en IA qu'en traitement automatique des langues (TAL) où les embeddings permettent d'estimer la similarité sémantique entre mots, entre phrases ou entre documents, et de condenser l'information textuelle en une représentation manipulable. Ces modèles souffrent néanmoins de limites importantes : leur construction est opaque ; les modèles vectoriels produits sont des boîtes noires qui mélangent des informations de natures variées et dont les dimensions ne sont pas interprétables. Le projet que nous proposons vise à construire des modèles sémantiques adaptés au raisonnement et à l'inférence et dont les représentations sont interprétables et décomposables en propriétés sémantiques naturelles. Nous étudierons notamment comment il serait possible de guider les méthodes par apprentissage, notamment neuronales, par les connaissances linguistiques et lexicographiques disponibles dans des ressources existantes. De façon complémentaire, des tests linguistiques appropriés seront conçus pour tester la pertinence de ces modèles et leur généralité au-delà des tâches spécifiques de TAL (e.g. recherche de similarité, inférence textuelle, traduction automatique, etc.) sur lesquelles ils sont habituellement évalués.

Mots-clés
modèles vectoriels sémantiques, explicabilité, compositionnalité, modèles phrastiques, indices linguistiques

Partenaires du projet

INSHS
HATHOUT Nabil
Cognition, Langues, Langage, Ergonomie (UMR5263) Toulouse France
INSIS
ElKhaim Yves
Institut d’Électronique et des Systèmes (UMR5214) France
Crédit photo :