Project Manager : Patrice BELLOT




Mots clés : adaptation, affective computing, agents virtuels socio-affectifs, analyse de données, analyse d’opinion, apprentissage automatique, bases de données, classification automatique de données et de textes, conception et ingénierie des SI, extraction d’information, extraction et gestion des connaissances, fouille de données complexes, fouille de graphes, fouille de textes, interaction socio-émotionnelle, modélisation de processus, ontologies, recherche d’information (RI), services Web, simulation, systèmes d’information (SI), systèmes de recommandation, systèmes multi-agents, traitement automatique du langage naturel (TAL)


Composée en 2015 de 14 enseignants-chercheurs (5 Professeurs, 9 Maîtres de conférences), d’un chercheur associé (Serge MIRANDA, Université de Nice) et de 19 chercheurs contractuels (18 doctorants, 1 post-doc), l’équipe se consacre au développement de modèles et d’algorithmes au cœur des systèmes d’information, au sens le plus large du terme (SI d’entreprise, systèmes ouverts sur le Web, bibliothèques numériques et entrepôts de documents ou de données).

Nos activités autour des systèmes d’information concernent aussi bien leur conception (architectures, services) et leur adaptation (spécialisation métier, personnalisation) que le traitement des contenus documentaires (recherche, extraction) et des données (fouille, intégration) nécessaire à leur mise en œuvre.

Le but de nos travaux est ainsi de :
développer des modèles et des algorithmes de recherche d’information, d’extraction d’information et de fouille de données applicables à de grands corpus de documents, de pages Web et de masses de données, en domaine de spécialité ou non ;
de proposer des architectures pour les systèmes d’information (modèles distribués, modèles et simulations multi-agents, modèles guidés par les processus) ainsi que des modélisation de processus (BPM) et des approches pour la définition, l’intégration et la recherche de services Web.

L’évaluation à grande échelle de nos propositions est une priorité forte, qu’elle s’opère dans le cadre de projets collaboratifs ou de campagnes internationales d’évaluation (TREC, CLEF, INEX).

Les membres de l’équipe DIMAG sont fortement impliqués dans :

  • Equipement d’Excellence (Equipex) :
  • plusieurs GDR et GT :
    • MaDICS Masses de Données, Informations et Connaissances en Sciences,
    • MAGIS Méthodes et Applications pour la Géométrique et l’Information Spatiale,
    • MACS Modélisation, analyse et conduite des systèmes dynamiques),
    • GT ACAI Affects, Compagnons Artificiels et Interactions
    • GDR international "Web Science" avec le Brésil.
  • infrastructure européenne (ERIC) :
    • CLARIN Common Language Resources and Technology Infrastructure,
  • infrastructure nationale (TGIR) :

Ces deux dernières années, nous avons accueilli plusieurs chercheurs pour des séjours de quelques semaines : L. Sitbon (Australie, QUT) en 2014, R. Lins (Université de Recife, Brésil) et Guy Lapalme (Université de Montréal).


Les recherches s’articulent autour de trois thèmes qui appréhendent les SI à différents niveaux :

  • Thème A : Conception de Systèmes d’Information Décisionnels et Adaptatifs. Les recherches et développements associés à ce thème visent à définir des méthodes, des architectures et des techniques pour concevoir et réaliser des systèmes d’information à la fois adaptés à l’usage que l’on veut en faire et satisfaisant des critères d’intégration de l’utilisateur, de réutilisabilité, de flexibilité, de fiabilité, d’ouverture... Le thème utilise une approche orientée processus et/ou agent pour aborder la conception de SI et développe des solutions pour répondre aux exigences de flexibilité et de coopération des SI actuels.
  • Thème B : Recherche et Extraction d’Information. Un enjeu scientifique et sociétal majeur réside dans le développement d’approches informatiques robustes vis-à-vis de la qualité variable et de la quantité sans cesse croissante des informations disponibles sur Internet. Notre objectif est de concevoir des méthodes de recherche d’information, de classification et de fouille de textes efficaces, en domaine de spécialité ou non, sur des documents et pages Web plus ou moins structuré(e)s en provenance de collections fermées du Web et des réseaux sociaux. Une importance particulière est accordée à l’évaluation de nos propositions sur des données réelles à grande échelle (campagnes internationales d’évaluation telles que TREC, CLEF et INEX) ainsi qu’à leur intégration au sein de systèmes opérationnels dans les domaines des bibliothèques numériques (par ex. Equipement d’excellence OpenEdition.org), de la santé ou du commerce électronique. Nos approches combinent traitement automatique des langues, apprentissage automatique (statistique ou à base de programmation logique) et ingénierie des connaissances. Récemment, nous avons proposé des approches pour :
    • filtrer de grands flux de contenus Web en fonction de nouvelles informations au sujet d’entités nommées ;
    • identifier et annoter automatiquement des références bibliographiques au style variée et plus ou moins complètes à l’intérieur d’articles scientifiques ;
    • classer des textes en employant des ressources sémantiques générales et spécialisées (domaine médical) ou en sélectionnant automatiquement des caractéristiques appropriées à la détection de critiques et de comptes-rendus (classifications multi-facettes) ;
    • exploiter efficacement les modèles thématiques non supervisées (analyse de Dirichlet latente) orientés requêtes pour la recherche d’information ;
    • intégrer et exploiter des ressources documentaires hétérogènes pour l’enrichissement automatique de requêtes ;
    • l’extraction d’information via la programmation inductive logique et l’induction de règles symboliques.
  • Thème C : Fouille et Intégration de Données. La problématique centrale vise l’élaboration d’algorithmes et de méthodes pour le traitement de données provenant de sources multiples et hétérogènes. Nos résultats sont exploités dans des domaines variés : Marketing, Médical, Services web, Ville intelligente... Ce thème s’organise autour de la fouille de données et de l’intégration.
  • Fouille de données :
    • Modélisation probabiliste : la modélisation thématique (Topic modelling) permet de découvrir les thèmes cachés dans les données en les exprimant sous forme de distributions de probabilités. Dans ce contexte, on étudie par exemple les modèles dynamiques personnalisés en y intégrant les dimensions Temps et Utilisateur mais également leur application à la recherche d’information textuelle (thème B) pour l’enrichissement automatique de requêtes. Nous nous intéressons aussi au problème d’apprentissage supervisé où les données sont étiquetées par des annotateurs ayant des niveaux de connaissances très hétérogènes, ils peuvent même être des ignorants du domaine ou des spammeurs. Ce problème devient crucial lorsque les données proviennent de citoyens ou de la foule (Crowd Mining).
    • Extraction de motifs et hypergraphes : l’extraction de motifs spécifiques (fréquents, maximaux, émergents etc.) rencontre un grand succès avec l’avènement du Big Data. Cependant, le nombre de motifs cachés dans les données est généralement très élevé et nécessite des algorithmes de réduction pour pouvoir effectuer un calcul efficace. Nous étudions de tels algorithmes en nous basant sur les traverses minimales d’hypergraphes, la dualisation de bordures de motifs et les treillis. Nous développons ainsi des algorithmes d’approximation de traverses minimales d’hypergraphes.
  • Intégration de données :
    • Développées à l’origine dans un cadre "bases de données" (BD), les méthodes, algorithmes, et architectures pour l’intégration de données doivent être repensées afin de prendre en compte leur nature actuelle alors que les fonctions (composants) BD sont souvent réalisées par des services. Les données sont de nature diverses, de plus en plus volumineuses, de qualité variable et peuvent faire appel à de nombreuses ressources, notamment dans un contexte distribué. Nos travaux concernent particulièrement la découverte de services web sémantiques (SWS) et d’objets pédagogiques (e-Learning).

Le poster suivant illustre les principales activités de DIMAG :


L’équipe est impliquée depuis 2012 dans plusieurs projets “Investissements d’avenir” :
- 2012-2020 : Equipement d’Excellence (EQUIPEX) OpenEdition.org (DILOH Digital Library for Open Humanities) à travers la création de l’OpenEdition Lab ;
- 2012-2016 : Fonds pour la Société Numérique INTER-TEXTES.

et plusieurs autres projets collaboratifs :
- 2015-2018 : projet ANR ACORFORMED, Agents COnversationnels en Réalité virtuelle pour la FORmation de MEDecins à l’annonce d’événement grave qui combine analyse de conversations (extraction d’information, segmentation thématique) et d’interactions.
- 2015-2017 : projet ADNVIDEO, financé par la fondation universitaire A*MIDEX en partenariat avec le LIF et la société Kalyzee autour de l’analyse multimodale de contenus vidéo (chapitrage automatique, suivi d’entité, segmentation et classification automatiques)
- 2013-2015 : programme européen COST, projet Keystone
- 2011-2013 : projet BILBO (Google Digital Humanities Awards, 2011, 2012) en annotation sémantique de références bibliographiques
- 2010-2014 : projet CAAS (Contextual Analysis and Adaptive Search) (programme ANR CONTINT) en recherche d’information contextuelle
- 2012-2015 : projet AGORAWEB (financement Région PACA) en analyse de sentiments appliquée à des critiques de livres
- CIFREs : sociétés Kware, SII, STMicroElectronics
- Convention cadre PERICLES : AP-HM, LIMOS, CHU Clermont-Ferrand, LIRMM Montpellier