Diffusion ciblee automatique d'informations : conception et mise en oeuvre d'une linguistique textuelle pour la caracterisation des destinataires et des documents

par Bénédicte Pincemin

Thèse de doctorat en Linguistique

Sous la direction de François Rastier.

Soutenue en 1999

à Paris 4 .


  • Résumé

    Le serveur decid (diffusion electronique ciblee d'informations et de documents), sur l'intranet edf, est utilise pour trouver les personnes les plus concernees par un document ou les experts sur un sujet. La diffusion ciblee repose sur trois principes fondateurs : (i) l'automatisation et la robustesse des traitements ; (ii) le texte, aussi bien comme mode d'interrogation du systeme (les documentssont soumis tels quels, sans passer par des mots cles), que comme moyen de caracteriser des interets et competences des personnes (les profils sont calcules a partir d'un corpus de textes) ; (iii) la base formee par les profils des destinataires potentiels : toutes les activites de l'organisme sont systematiquement prises en compte. Dans le contexte de documents ecrits a dominante scientifique ettechnique, quatre facettes textuelles sont definies pour guider la conception des traitements : (i) la matiere linguistique du texte ; (ii) son organisation interne, structuree, close et orientee ; (iii) l'intertextualite ; (iv) le role constitutif des lectures et la dynamique de l'interpretation. Ce modele motive des innovations a toutes les etapes du traitement. Un format de codage (dtd sgml) est construit, pour etre a la fois robuste et general, mais aussi enregistrer des structurations significatives. Pour la caracterisation des textes, des unites descriptives, plus contextuelles que des mots-cles, sont definies. Elles prennent en compte la determination du local par le global et la formation des isotopies semantiques. Ces unites descriptives sont adaptees a la recherche en texte integral. Une grille d'analyse est etablie et appliquee a l'interpretation des formules de calcul et de mesures sur les textes. L'ergonomie web est adaptee a l'affichage de textes : vue simultanement globale et focalisee, points saillants, contextualisations multiples. Une representation differentielle de la pertinence facilite le parcours des reponses du systeme et leur appropriation.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 806 p.
  • Notes : Publication autorisée par le jury
  • Annexes : 400 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Paris-Sorbonne Paris 4. Service commun de la documentation. Bibliothèque Serpente.
  • Consultable sur place dans l'établissement demandeur
  • Cote : BUT 4433
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.