SemCaDo : une approche pour la découverte de connaissances fortuites et l'évolution ontologique

par Montassar Ben Messaoud

Thèse de doctorat en Informatique

Sous la direction de Philippe Leray et de Nahla Ben Amor.

Soutenue en 2012

à Nantes , en partenariat avec École polytechnique de l'Université de Nantes (autre partenaire) .


  • Résumé

    En réponse au besoin croissant de réutiliser les connaissances déjà existantes lors de l'apprentissage des réseaux bayésiens causaux, les connaissances sémantiques contenues dans les ontologies de domaine présentent une excellente alternative pour assister le processus de découverte causale avec le minimum de coût et d'effort. Dans ce contexte, la présente thèse s'intéresse plus particulièrement au crossing-over entre les réseaux bayésiens causaux et les ontologies et établit les bases théoriques d'une approche cyclique intégrant les deux formalismes de manière interchangeable. En premier lieu, on va intégrer les connaissances sémantiques contenues dans les ontologies de domaine pour anticiper les meilleures expérimentations au travers d'une stratégie fortuite (qui, comme son nom l'indique, mise sur l'imprévu pour dégager les résultats les plus impressionnants). En effet, les connaissances sémantiques peuvent inclure des relations causales en plus de la structure hiérarchique. Donc au lieu de refaire les mêmes efforts qui ont déjà été menés par les concepteurs et éditeurs d'ontologies, nous proposons de réutiliser les relations (sémantiquement) causales en les adoptant comme étant des connaissances à priori. Ces relations seront alors intégrées dans le processus d'apprentissage de structure (partiellement) causale à partir des données d'observation. Pour compléter l'orientation du graphe causal, nous serons en mesure d'intervenir activement sur le système étudié. Nous présentons également une stratégie décisionnelle basée sur le calcul de distances sémantiques pour guider le processus de découverte causale et s'engager davantage sur des pistes inexplorées. L'idée provient principalement du fait que les concepts les plus rapprochés sont souvent les plus étudiés. Pour cela, nous proposons de renforcer la capacité des ordinateurs à fournir des éclairs de perspicacité en favorisant les expérimentations au niveau des concepts les plus distants selon la structure hiérarchique. La seconde direction complémentaire concerne un procédé d'enrichissement par lequel il sera possible de réutiliser ces découvertes causales et soutenir le caractère évolutif de l'ontologie. Une étude expérimentale a été conduite en utilisant les données génomiques concernant Saccharomyces cerevisiae et l'Ontologie des Gènes pour montrer les potentialités de l'approche SemCaDo dans des domaines ou les expérimentations sont généralement très coûteuses, complexes et fastidieuses.

  • Titre traduit

    SemCaDO : a serendipitous strategy for managing the crossing-over between causal discovery and ontology evolution


  • Résumé

    With the rising need to reuse the existing domain knowledge when learning causal Bayesian networks, the ontologies can supply valuable semantic information to define explicit cause-to-effect relationships and make further interesting discoveries with the minimum expected cost and effort. This thesis studies the crossing-over between causal Bayesian networks and ontologies, establishes the main correspondences between their elements and develops a cyclic approach in which we make use of the two formalisms in an interchangeable way. The first direction involves the integration of semantic knowledge contained in the domain ontologies to anticipate the optimal choice of experimentations via a serendipitous causal discovery strategy. The semantic knowledge may contain some causal relations in addition to the strict hierarchical structure. So instead of repeating the efforts that have already been spent by the ontology developers and curators, we can reuse these causal relations by integrating them as prior knowledge when applying existing structure learning algorithms to induce partially directed causal graphs from pure observational data. To complete the full orientation of the causal network, we need to perform active interventions on the system under study. We therefore present a serendipitous decision-making strategy based on semantic distance calculus to guide the causal discovery process to investigate unexplored areas and conduct more informative experiments. The idea mainly arises from the fact that the semantically related concepts are generally the most extensively studied ones. For this purpose, we propose to supply issues for insight by favoring the experimentation on the more distant concepts according to the ontology subsumption hierarchy. The second complementary direction concerns an enrichment process by which it will be possible to reuse these causal discoveries, support the evolving character of the semantic background and make an ontology evolution. Extensive experimentations are conducted using the well-known Saccharomyces cerevisiae cell cycle microarray data and the Gene Ontology to show the merits of the SemcaDo approach in the biological field where microarray gene expression experiments are usually very expensive to perform, complex and time consuming.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (136 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.106-118

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.