Diffusion ciblée automatique d'informations : conception et mise en oeuvre d'une linguistique textuelle pour la caractérisation des destinataires et des documents

par Bénédicte Pincemin

Thèse de doctorat en Linguistique

Sous la direction de François Rastier.

Soutenue en 1999

à Paris 4 .


  • Résumé

    Le serveur DECID (diffusion électronique ciblée d'informations et de documents), sur l'intranet EDF, est utilisé pour trouver les personnes les plus concernées par un document ou les experts sur un sujet. La diffusion ciblée repose sur trois principes fondateurs : (i) l'automatisation et la robustesse des traitements ; (ii) le texte, aussi bien comme mode d'interrogation du système (les documents sont soumis tels quels, sans passer par des mots clés), que comme moyen de caractériser des intérêts et compétences des personnes (les profils sont calculés à partir d'un corpus de textes) ; (iii) la base formée par les profils des destinataires potentiels : toutes les activités de l'organisme sont systématiquement prises en compte. Dans le contexte de documents écrits à dominante scientifique et technique, quatre facettes textuelles sont définies pour guider la conception des traitements : (i) la matière linguistique du texte ; (ii) son organisation interne, structurée, close et orientée ; (iii) l'intertextualité ; (iv) le rôle constitutif des lectures et la dynamique de l'interprétation. Ce modèle motive des innovations à toutes les étapes du traitement. Un format de codage (dtd sgml) est construit, pour être à la fois robuste et général, mais aussi enregistrer des structurations significatives. Pour la caractérisation des textes, des unités descriptives, plus contextuelles que des mots-clés, sont définies. Elles prennent en compte la détermination du local par le global et la formation des isotopies sémantiques. Ces unités descriptives sont adaptées à la recherche en texte intégral. Une grille d'analyse est établie et appliquée à l'interprétation des formules de calcul et de mesures sur les textes. L'ergonomie web est adaptée à l'affichage de textes : vue simultanément globale et focalisée, points saillants, contextualisations multiples. Une représentation différentielle de la pertinence facilite le parcours des réponses du système et leur appropriation.

  • Titre traduit

    Application of text linguistics to document routing


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 806 p.
  • Notes : Publication autorisée par le jury
  • Annexes : 400 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Paris-Sorbonne Paris 4. Service commun de la documentation. Bibliothèque Serpente.
  • Consultable sur place dans l'établissement demandeur
  • Cote : BUT 4433

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Paris-Sorbonne Paris 4. Service commun de la documentation. Bibliothèque Serpente.
  • Consultable sur place dans l'établissement demandeur
  • Cote : BUT 4433
  • Bibliothèque : Bibliothèque interuniversitaire de la Sorbonne (Paris).
  • Non disponible pour le PEB
  • Cote : MC 2551
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.