Classification de documents numérisés : aide à la dématérialisation de factures et au traitement de déclarations de sinistres.

par Cynthia Pitou

Projet de thèse en Informatique

Sous la direction de Jean Diatta.

Thèses en préparation à La Réunion , dans le cadre de École doctorale Sciences, Technologies et Santé (Saint-Denis, La Réunion) depuis le 01-10-2011 .


  • Résumé

    Problématique :Bien que le numérique se soit considérablement développé ces dernières décennies, dans un contexte d’entreprise, la réception de documents papiers est encore très généralisée (factures, courriers de réclamation, contrats clients, demande d’indemnisation client, …). Deux problématiques principales se posent pour l’entreprise qui m’accompagne dans mon projet de thèse :1. Traitement des factures :Actuellement, le traitement des factures générées par les activités de la société fait parti d’un workflow semi-automatisé. A la réception des factures par courriers, des opérateurs scannent ces factures pour stocker les versions numériques sur un serveur et enregistrent manuellement les données présentes sur les factures dans une base de données (date, montant, société, …) via une application dédiée qui s’occupe également de les traiter (gestion comptable, règlement, remboursement, …). La société a traité pour l’année 2010, 50 000 factures et pour l’année 2011, 60000 factures par ce procédé semi-automatisé. Ces documents sont divers et variés de part leur mise en page et leur présentation et c’est à ce niveau que les outils existants ont montré leurs limites. Une première attente de la société, est donc d’automatiser l’ensemble du processus de traitement des factures, et plus particulièrement ce qui concerne le recueille d’informations depuis le document papier et l’archivage de sa version numérisée. L’objectif étant de supprimer cette tâche des tâches attribuées aux agents humains, celle-ci étant peu valorisante et n’apportant pas de valeur ajoutée. L’automatisation a également pour but de soutenir la société dans la gestion de son volume croissant de factures.2. Gestion de déclarations de sinistres :L’entreprise démarre en sous-traitance des compagnies d’assurances une activité de gestion de sinistre. Pour ces compagnies, la société est chargée de gérer tout le processus de traitement des déclarations de sinistre automobile depuis la réception de la déclaration papier - le constat amiable automobile qui comporte les informations concernant les personnes impliquées (informations contractuelles manuscrites) et les circonstances du sinistre (informations manuscrites) - jusque la prise de décision finale concernant la suite du dossier de sinistre sur les bases des garanties du contrat de l’assuré et des circonstances du sinistre (indemnisation, demande d’expertise, …). L’objectif de la société est ici, d’apporter aux compagnies d’assurances une gestion efficace des dossiers transmis : d’une part, réduire les délais de traitement des sinistres et minimiser l’immobilisation de ressources humaines sans valeur ajoutée ; d’autre part, maitriser les processus de gestion des back-offices (gestion en flux tendus de volumes croissants, zéro papier, etc.…). Pour ce faire, la mise en place d’un workflow adapté et évolutif de gestion automatisée de l’activité complète de gestion de sinistre est nécessaire.Objectif de la thèse :Dans le contexte posé par l’entreprise, l’objectif de ma thèse est double. Dans un premier temps, il s’agira de proposer et de développer une méthode incrémentale de catégorisation de documents numérisés, en vue, notamment, d’améliorer la performance d’outils d’extraction d’informations pertinentes à partir de ces documents. Dans un deuxième temps, je m’attacherai à proposer et à développer un modèle d’aide à l’aiguillage des déclarations de sinistre vers les chaînes d’expertise appropriées. Le travail de recherche abordera, entre autres, les aspects suivants :• Etat de l’art de la catégorisation de documents, en prenant bien soin de dégager les forces et faiblesses des approches proposées dans la littérature.• Etude approfondie d’un certain nombre de méthodes de classification non supervisée (Everitt, 1974). Un accent particulier sera mis sur l’étude des approches galoisiennes (Barbut et Monjardet, 1970) (Wille, 1982) (Gaudin, 1995).• Proposition de modèle de description/représentation des documents numérisés, approprié pour la catégorisation de ces documents.• Prise en compte de la typologie des documents


  • Résumé

    , obtenue par les méthodes de classification (Bishop, 2006), pour améliorer le processus d’extraction d’informations pertinentes (Thearling).• Etat de l’art des méthodes de classification supervisée adaptées à des données susceptibles de comporter du texte (dactylographié et/ou manuscrit).• Proposition et développement d’un modèle d’aide à l’aiguillage des déclarations de sinistres vers les chaînes d’expertise appropriées.Références :B. Everitt (1974), Cluster Analysis, Heinemann Education Books, London.Barbut, M., & Monjardet, B. (1970a). Ordre et classification, algèbre et combinatoire. Tome 1. Hachette Université.R. WILLE (1992), Concept Lattices & Conceptual Knowledge Systems, Computer Mathematic Applied, vol.23, n°6-9.Gaudin & al (1995), Incremental concept formation algorithms based on Galois (concept) lattices, Computational Intelligence, vol. 11.Christopher M. Bishop (2006), Pattern Recognition and Machine Learning, Springer.Kurt Thearling, « An Introduction to Data Mining » sur thearling.com.