Adressing scaling challenges in comparative genomics

Natalia Golenetskaya

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Natalia Golenetskaya
Direction :	David James Sherman
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 09/09/2013
Etablissement(s) :	Bordeaux 1
Ecole(s) doctorale(s) :	École doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire bordelais de recherche en informatique - Laboratoire Bordelais de Recherche en Informatique / LaBRI - Magnome
Jury :	Examinateurs / Examinatrices : Pascal Durrens, Rodolphe Thiébaut, Alexandre Zvonkine
	Rapporteurs / Rapporteuses : Amedeo Napoli, Jean-Stéphane Varré

Mots clés

FR |

EN

Mots clés contrôlés

Bases de données réparties

Exploration de données

Génomique comparative

Bioinformatique

Mots clés libres

Bioinformatique

Fouille de données

Bases de données distribuées

Calcul distribué

Résumé

FR |

EN

La génomique comparée est essentiellement une forme de fouille de données dans des grandes collections de relations n-aires. La croissance du nombre de génomes sequencés créé un stress sur la génomique comparée qui croit, au pire géométriquement, avec la croissance en données de séquence. Aujourd'hui même des laboratoires de taille modeste obtient, de façon routine, plusieurs génomes à la fois - et comme des grands consortia attend de pouvoir réaliser des analyses tout-contre-tout dans le cadre de ses stratégies multi-génomes. Afin d'adresser les besoins à tous niveaux il est nécessaire de repenser les cadres algorithmiques et les technologies de stockage de données utilisés pour la génomique comparée. Pour répondre à ces défis de mise à l'échelle, dans cette thèse nous développons des méthodes originales basées sur les technologies NoSQL et MapReduce. À partir d'une caractérisation des sorts de données utilisés en génomique comparée et d'une étude des utilisations typiques, nous définissons un formalisme pour le Big Data en génomique, l'implémentons dans la plateforme NoSQL Cassandra, et évaluons sa performance. Ensuite, à partir de deux analyses globales très différentes en génomique comparée, nous définissons deux stratégies pour adapter ces applications au paradigme MapReduce et dérivons de nouveaux algorithmes. Pour le premier, l'identification d'événements de fusion et de fission de gènes au sein d'une phylogénie, nous reformulons le problème sous forme d'un parcours en parallèle borné qui évite la latence d'algorithmes de graphe. Pour le second, le clustering consensus utilisé pour identifier des familles de protéines, nous définissons une procédure d'échantillonnage itérative qui converge rapidement vers le résultat global voulu. Pour chacun de ces deux algorithmes, nous l'implémentons dans la plateforme MapReduce Hadoop, et évaluons leurs performances. Cette performance est compétitive et passe à l'échelle beaucoup mieux que les algorithmes existants, mais exige un effort particulier (et futur) pour inventer les algorithmes spécifiques.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Adressing scaling challenges in comparative genomics

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Adressing scaling challenges in comparative genomics

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses