Passage à l'échelle, propriétés et qualité des algorithmes classements consensuels pour les données biologiques massives

par Pierre Andrieu

Projet de thèse en Informatique

Sous la direction de Sarah Cohen-Boulakia et de Alain Denise.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne) , en partenariat avec LRI - Laboratoire de Recherche en Informatique (laboratoire) , BioInfo - Bioinformatique (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2017 .


  • Résumé

    Classement de données biologiques L'objectif des techniques de classement de données biologiques est d'aider les utilisateurs confrontés à des très grandes quantités de données à choisir entre plusieurs éléments d'information. Ceci est particulièrement important dans le contexte de l'interrogation des données biologiques où des requêtes très simples peuvent renvoyer des milliers de réponses. Par exemple, la recherche dans la base de données de référence EntrezGene de l'ensemble des gènes humains impliqués dans les cancers du sein renvoie des milliers de gènes résultats, classés en fonction du nombre d'occurrences du mot clé (Breast cancer) dans les fiches résultats. Le besoin de solutions de classement est crucial pour aider les scientifiques à organiser leur temps et à privilégier les éventuelles nouvelles expériences à réaliser. Toutefois, le classement des données biologiques est une tâche difficile pour diverses raisons : les données biologiques reflétant des expertises, elles peuvent être associées à divers niveaux de qualité (confiance); les données ne sont pas indépendantes les unes des autres et peuvent être liées par références croisées (le réseau formé par ces liens joue alors un rôle dans la popularité des données); le besoin exprimé par les scientifiques peut également être pris en considération (privilégier les données issues des sources les plus réputées, ou les données les plus récentes ou les “plus surprenantes”). En conséquence, bien que plusieurs méthodes de classement aient été proposées dans les dernières années au sein de la communauté de la bioinformatique, aucune d'entre elles n'a été déployée sur les systèmes d'interrogation de données. Etat de l'art de la problématique du classement consensuel (ou agrégation de classements) L'approche originale que nous proposons de suivre est de classer les données biologiques en considérant deux étapes. Dans la première étape, plusieurs méthodes de classement sont appliquées aux données biologiques (les résultats sont obtenus en utilisant différents critères de classement et / ou en exploitant diverses méthodes de classement). Dans la deuxième étape, nous utilisons des méthodes d'agrégation de classements produisant un consensus reflétant les points communs des classements d'entrée tout en ne donnant pas trop d'importance à des éléments classés comme «bons» par un ou quelques classements seulement (c'est-à-dire, en minimisant les désaccords). L'agrégation de classements a été un sujet d'intérêt particulier dans les communautés de recherche d'information et bases de données ([DKN+01, FKM+04, SAD+13]), mais aussi en algorithmique ([Ail10]), intelligence artificielle ([PHG00]), et sciences sociales ([CFL + 06]). Formellement, le problème s'exprime en termes de calcul d'un classement qui est une médiane des classements donnés en entrée, selon une fonction de distance fixée à minimiser (cette médiane n'est pas nécessairement unique). Le problème ainsi posé est connu pour être difficile (NP-difficile lorsque le nombre de classements, ou permutations, est pair et supérieur ou égal à 4) et bien des points théoriques sont largement ouverts. En particulier, le cas ou le nombre de classements ou permutations est impair est encore ouvert. En conséquence, de nombreux algorithmes d'approximation et heuristiques ont été conçus. En outre, dans les applications réelles, en particulier en bioinformatique, les classements ont deux particularités importantes. D'abord ils peuvent ne pas être des permutations où les éléments sont strictement ordonnés, mais ils peuvent n'être que partiellement ordonnés : certains éléments occupent la même position car ils ont la même importance d'après le critère choisi (plusieurs gènes obtenus en réponse à une requête biologique, qui sont dans les mêmes voies métaboliques, peuvent être considérés comme non inter-classables car aussi importants). Dans ce cas, on parle de classements avec égalités. Alors que la première solution efficace pour le consensus de classements avec égalité a été proposée par Fagin et al. en 2004 [FKM+04], la plupart des approches et des études proposées depuis lors ont continué à se concentrer sur les permutations, laissant plusieurs questions ouvertes dans le cadre du classement avec égalités. Dans [BYB+15], nous avons présenté les résultats de la première étude comparative ayant pris en compte douze algorithmes de consensus avec égalités, évalués à la fois sur des jeux de données réels et générés aléatoirement. Ensuite, les différents classements à agréger peuvent contenir des éléments différents (par exemple, parce que seuls les n premiers résultats sont pris en compte ou encore parce que les critères de classements agissent comme des filtres). Se pose alors le problème de la comparaison d'éléments présents dans un classement mais pas dans un autre (données manquantes). Certaines distances, notamment la plus utilisée et choisie dans [BYB+15] (Kendall-tau généralisée), ne permettent pas de prendre en compte les données manquantes. Il faut alors prétraiter les données pour ramener les classements sur les mêmes éléments. Deux processus pour la gestion des données manquantes sont classiquement utilisés : la projection et l'unification. La projection vise à retirer des classements les données n'apparaissant pas dans tous les classements. Un grand nombre de données, y compris des données importantes, est alors souvent ignoré. L'unification vise, elle, à ajouter, en fin de chaque classement, les données n'apparaissant pas dans le classement courant mais apparaissant dans au moins un autre classement. Il convient donc de comprendre l'impact de ces processus pour la gestion des données manquantes dans les jeux de données sur les résultats obtenus par les algorithmes d'agrégation de classements.

  • Titre traduit

    Scalability, features and quality aspects of consensus algorithms for big biological data sets


  • Résumé

    Objectifs et Tâches du projet de thèse Ce projet de thèse vise à allier approches théoriques et expérimentation pour atteindre trois objectifs : (i) le développement d'algorithmes efficaces capables de prendre en entrée de très grandes quantités de données et offrant des garanties (mathématiques) sur la qualité des résultats produits ; (ii) la conception d'un guide précis et bienfondé pour l'utilisateur dans le choix de distances, d'algorithmes de consensus et de méthodes de normalisation adaptés aux données d'entrées, (iii) l'évaluation de la qualité des consensus obtenus par les algorithmes de consensus sélectionnés sur des données réelles, en collaboration étroite avec des médecins de l'APHP Paul Brousse. Tâche 1 : Développement d'algorithmes de consensus capables de passer à l'échelle et offrant des garantie de qualité sur les résultats produits. Comme indiqué précédemment, le calcul d'un consensus exact est en général particulièrement coûteux. L'implémentation de l'algorithme exact en programmation entière dont nous disposons actuellement est capable dans un temps restant raisonnable (quelques heures) de calculer un consensus mais il est de fait limité à des classements de 40 éléments (données et configuration décrites dans [BCB+15]). Il n'en demeure pas moins que le calcul d'un consensus exact est fondamental pour évaluer expérimentalement des algorithmes d'approximation ou des heuristiques. Notre objectif dans cette tâche est triple. (T1.1) D'abord, nous souhaitons proposer de nouvelles heuristiques, capables de générer de façon efficace des classements sur de grands volumes de données et capables d'identifier les cas dans lesquels des garanties sur le classement des premiers éléments (top-k) peuvent être obtenus. (T1.2) Ensuite, nous souhaitons travailler sur les cas dans lesquels plusieurs consensus exacts sont produits et travailler sur des représentations condensées de l'ensemble des solutions (lorsque les différentes médianes sont proches les unes des autres) ou proposer des critères de qualité pour en privilégier un plutôt qu'un autre (lorsque les médianes sont très différentes). (T1.3) Enfin, nous souhaitons proposer de nouvelles métriques pour évaluer la qualité d'un consensus. Nous souhaiterions par exemple prendre en compte le fait que le classement de certaines paires d'éléments est plus important que celui d'autres paires. Cette sous-tache est directement en lien avec les objectifs de la tâche 3. Tâche 2 : Guide à l'utilisateur dans le choix des distances, des algorithmes et de la gestion des données manquantes Nous souhaitons guider l'utilisateur dans le choix des distances et algorithmes en fonction des caractéristiques des données (classements d'entrées très similaires ou non, …). Cette tache comporte deux points principaux. (T2.1) Face aux importants volumes de données, un premier défi est de définir des approches efficaces pour calculer les différentes caractéristiques des jeux de données. Par exemple, comment évaluer rapidement la similarité des jeux de données ? Peut-on (et si oui comment) fournir une estimation du nombre de médianes existantes ? … (T2.2) Une information cruciale à expliciter pour aider l'utilisateur à bien choisir la distance et/ou l'algorithme à utiliser est relative au sens à donner aux données manquantes : sont-elles relatives au fait que le jeu de données a été tronqué ? Ces données devraient-elles être ignorées ? En outre, l'impact des prétraitements (unification ou projection) sur la qualité du consensus final est particulièrement important. Notre objectif à court terme est d'étudier l'utilisation de (pseudo-)distances définies sur des classements comportant des éléments différents. A moyen terme, il conviendra d'étudier des solutions de prétraitement intermédiaires (par exemple, ne prendre en compte que les données apparaissant dans au moins X% des classements) et tendre vers un cadre général prenant en compte l'ensemble des façons de normaliser les données, notamment par la définition d'une sorte de continuum entre la projection et l'unification. Tâche 3 : Evaluation de la pertinence de résultats obtenus par les approches de classements consensuels L'objectif de cette tâche est d'évaluer la pertinence de l'utilisation d'approches d'agrégation de classements pour le classement de données biologiques. Cette tâche s'effectuera en collaboration étroite avec Ivan Sloma et Christophe Desterke de l'APHP Paul Brousse. Plus particulièrement, nous travaillerons sur deux types de pathologies, la leucémie myéloïde chronique et les syndromes myélodysplasiques d'une part et les cancers du sein (et leurs facteurs de risques) d'autre part. Notre évaluation s'effectuera en prenant pour appui l'outil ConQur-Bio, qui prend en entrée un nom de pathologie, recherche automatiquement les synonymes associés à cette pathologie, obtient automatiquement des bases de données génomiques les classements des gènes obtenus pour chaque synonyme, et utilise un algorithme de classement (au choix) pour fournir un classement consensuel. Les classements consensuels seront exploités et évalués dans deux contextes. (T3.1) Utilisation de l'outil ConquR-Bio paramétré avec les heuristiques développées à la tâche 1 pour obtenir des classements consensuels de gènes associés à certaines pathologies. Comparer les gènes obtenus et leurs positions dans le classement avec les gènes et leurs classements obtenus par les expériences in-vivo (RNA-Seq, cohortes de souris) menées à l'APHP. Il conviendra de réfléchir à la conception de méthodes adaptées de comparaison de classements (avec probablement l'utilisation de courbes de ROCs comme classiquement dans ce type de contextes). (T3.2) Utilisation de l'outil ConquR-Bio paramétré avec les heuristiques développées à la tâche 1 pour extraire le top-k des genes obtenus dans le classement consensuel associés à certaines pathologies pour fournir ce top-k en entrée d'algorithmes de prédiction déjà utilisés par les équipes de bioinformatiques de l'APHP Paul Brousse.