Génération de récits à partir de données ambiantes

par Belen Baez miranda

Thèse de doctorat en Informatique

Sous la direction de François Portet et de Catherine Garbay.

Le président du jury était Marc Cavazza.

Le jury était composé de Sybille Caffiau.

Les rapporteurs étaient Patrick Girard, Eddie Soulier.


  • Résumé

    Le récit est un outil de communication qui permet aux individus de donner un sens au monde qui les entoure. Il représente une plate-forme pour comprendre et partager leur culture, connaissances et identité. Le récit porte une série d'événements réels ou imaginaires, en provoquant un ressenti, une réaction ou même, déclenche une action. Pour cette raison, il est devenu un sujet d'intérêt pour différents domaines au-delà de la Littérature (Éducation, Marketing, Psychologie, etc.) qui cherchent d'atteindre un but particulier au travers de lui (Persuader, Réfléchir, Apprendre, etc.).Cependant, le récit reste encore sous-développé dans le contexte informatique. Il existent des travaux qui visent son analyse et production automatique. Les algorithmes et implémentations, par contre, restent contraintes à imiter le processus créatif derrière des textes littéraires provenant de sources textuelles. Ainsi, il n'existent pas des approches qui produisent automatiquement des récits dont 1) la source est constitué de matériel non formatées et passé dans la réalité et 2) et le contenu projette une perspective qui cherche à transmettre un message en particulier. Travailler avec des données brutes devient relevante vu qu'elles augmentent exponentiellement chaque jour grâce à l'utilisation d'appareils connectés.Ainsi, vu le contexte du Big Data, nous présentons une approche de génération automatique de récits à partir de données ambiantes. L'objectif est de faire émerger l'expérience vécue d'une personne à partir des données produites pendant une activité humaine. Tous les domaines qui travaillent avec des données brutes pourraient bénéficier de ce travail, tels que l'Éducation ou la Santé. Il s'agit d'un effort interdisciplinaire qui inclut le Traitement Automatique de Langues, la Narratologie, les Sciences Cognitives et l'Interaction Homme-Machine.Cette approche est basée sur des corpus et modèles et comprend la formalisation de ce que nous appelons le récit d'activité ainsi qu'une démarche de génération adaptée. Elle a est composé de 4 étapes : la formalisation des récits d'activité, la constitution de corpus, la construction de modèles d'activité et du récit, et la génération de texte. Chacune a été conçue pour surmonter des contraintes liées aux questions scientifiques posées vue la nature de l'objectif : la manipulation de données incertaines et incomplètes, l'abstraction valide d'après l'activité, la construction de modèles avec lesquels il soit possible la transposition de la réalité gardée dans les données vers une perspective subjective et la rendue en langage naturel. Nous avons utilisé comme cas d'usage le récit d'activité, vu que les pratiquant se servent des appareils connectés, ainsi qu'ils ont besoin de partager son expérience. Les résultats obtenus sont encourageants et donnent des pistes qui ouvrent beaucoup de perspectives de recherche.

  • Titre traduit

    Generating stories from ambient data


  • Résumé

    Stories are a communication tool that allow people to make sense of the world around them. It represents a platform to understand and share their culture, knowledge and identity. Stories carry a series of real or imaginary events, causing a feeling, a reaction or even trigger an action. For this reason, it has become a subject of interest for different fields beyond Literature (Education, Marketing, Psychology, etc.) that seek to achieve a particular goal through it (Persuade, Reflect, Learn, etc.).However, stories remain underdeveloped in Computer Science. There are works that focus on its analysis and automatic production. However, those algorithms and implementations remain constrained to imitate the creative process behind literary texts from textual sources. Thus, there are no approaches that produce automatically stories whose 1) the source consists of raw material that passed in real life and 2) and the content projects a perspective that seeks to convey a particular message. Working with raw data becomes relevant today as it increase exponentially each day through the use of connected devices.Given the context of Big Data, we present an approach to automatically generate stories from ambient data. The objective of this work is to bring out the lived experience of a person from the data produced during a human activity. Any areas that use such raw data could benefit from this work, for example, Education or Health. It is an interdisciplinary effort that includes Automatic Language Processing, Narratology, Cognitive Science and Human-Computer Interaction.This approach is based on corpora and models and includes the formalization of what we call the activity récit as well as an adapted generation approach. It consists of 4 stages: the formalization of the activity récit, corpus constitution, construction of models of activity and the récit, and the generation of text. Each one has been designed to overcome constraints related to the scientific questions asked in view of the nature of the objective: manipulation of uncertain and incomplete data, valid abstraction according to the activity, construction of models from which it is possible the Transposition of the reality collected though the data to a subjective perspective and rendered in natural language. We used the activity narrative as a case study, as practitioners use connected devices, so they need to share their experience. The results obtained are encouraging and give leads that open up many prospects for research.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.