Soutenance de thèse - Lucas Etourneau - Contrôle FDR et imputation des valeurs manquantes pour l'analyse des données protéomiques issues de la spectrométrie de masse

Le 24 janvier 2024

Résumé

La protéomique consiste à caractériser le protéome d'un échantillon biologique, c'est-à-dire l'ensemble des protéines qu'il contient, et ce de manière aussi exhaustive que possible. En identifiant et en quantifiant les fragments de protéines qui sont analysables par spectrométrie de masse (connus sous le nom de peptides), la protéomique donne accès au niveau d'expression génique à un moment donné. Il s'agit d'une information cruciale pour améliorer la compréhension des mécanismes moléculaires en jeu au sein des organismes vivants. Ces expériences produisent de grandes quantités de données, souvent complexes à interpréter et soumises à divers biais. Elles nécessitent des méthodes de traitement des données fiables qui assurent un certain niveau de contrôle de la qualité, afin de garantir la pertinence des conclusions biologiques qui en découlent.

Les travaux de cette thèse portent sur l'amélioration de ce traitement des données, et plus précisément sur les deux points majeurs suivants :

Le premier est le contrôle du taux de fausses découvertes (FDR), lors de l'identification (1) des peptides ou (2) des biomarqueurs différentiels quantitatifs entre une condition biologique testée et son contrôle négatif. Nos contributions se concentrent sur l'établissement de liens entre les méthodes empiriques issues de la pratique protéomique et d'autres méthodes théoriquement étayées. Cela nous permet notamment de donner des orientations pour l'amélioration des méthodes de contrôle du FDR utilisées pour l'identification des peptides.

Le second point porte sur la gestion des valeurs manquantes, qui sont souvent nombreuses et complexes, ce qui les rend impossibles à ignorer. Plus précisément, nous avons développé un nouvel algorithme pour les imputer qui exploite les spécificités des données protéomiques. Notre algorithme a été testé et comparé à d'autres méthodes sur de multiples jeux de données et selon diverses métriques, et il atteint généralement les meilleures performances. De plus, il s'agit du premier algorithme qui permet l'imputation suivant le paradigme actuel du "multi-omique" : s'il est pertinent pour l'expérience, il peut imputer plus fiablement en s'appuyant sur l'information transcriptomique, qui quantifie le niveau d'expression de l'ARN messager présent dans l'échantillon. Enfin, Pirat est implémenté dans un progiciel disponible gratuitement, ce qui le rend facile à utiliser pour la communauté protéomique.

Cette thèse a été encadrée par :

- Thomas Burger, Directeur de recherche CNRS (EDyP/BGE/IRIG/CEA Grenoble)

- Nelle Varoquaux, Chargée de recherche CNRS (TrEE/TIMC)

Les membres invités du jury sont :

- Nataliya Sokolovska, Professeure des universités, Sorbonne Université

- Julie Josse, Advanced Researcher, INRIA

- Adeline Leclercq-Samson, Professeure des universités, Université Grenoble-Alpes

- Guillaume Fertin, Professeur des université, Nantes Université

- Quentin Giai-Gianetto, Ingénieur de recherche, Institut Pasteur


Une réception sera ensuite organisée à la cafétéria du TIMC au pavillon Taillefer.
Publié le 16 janvier 2024
Mis à jour le 9 avril 2025