Les algorithmes d'apprentissage par renforcement ont connu une popularité croissante et un succès considérable ces dernières années. Ils sont désormais utilisés pour résoudre des problèmes d'optimisation qui semblaient presque impossibles à résoudre il y a quelques années. Cependant, malgré ce succès empirique, ils sont très gourmands en énergie et très peu d'algorithmes offrent des garanties de performance. Les performances d'un algorithme d'apprentissage par renforcement peuvent être mesurées à l'aide de divers indicateurs : l'efficacité de l'échantillonnage mesure le nombre d'échantillons (d'un simulateur ou d'un environnement réel) dont un algorithme a besoin pour trouver une « bonne » politique, tandis que l'efficacité computationnelle mesure la quantité de calculs (ou de mémoire) nécessaire. Enfin, son regret mesure l'écart entre les récompenses séquentielles obtenues par l'algorithme d'apprentissage et les récompenses de la politique optimale (qui est inconnue).
L'objectif d'un algorithme d'apprentissage par renforcement est de recueillir des informations sur le système inconnu exploré par l'apprenant afin de mieux comprendre ses propriétés dynamiques et de les exploiter pour optimiser son comportement. Lorsque l'apprenant dispose d'informations hors ligne a priori sur le système, il peut tirer parti de ces connaissances pour apprendre plus efficacement son comportement optimal. Cette approche est désignée par le concept global d'apprentissage structuré.
Cela nous amène à la question de recherche que nous souhaitons aborder dans le cadre du projet FunRL :
Comment concevoir des algorithmes avec des garanties théoriques optimales qui exploitent une structure (connue ou inconnue) du problème à résoudre ?
Cette question sera développée dans trois directions.
Tout d'abord, nous aborderons le contrôle en ligne des réseaux de files d'attente, qui soulève la question importante de la stabilité et des états rarement visités. Les processus décisionnels markoviens (MDP), qui sont des systèmes dynamiques stochastiques pouvant être contrôlés. La principale originalité de cet axe par rapport aux autres est que ces systèmes dynamiques sont contraints par la structure du problème, le défi consistant à utiliser efficacement notre connaissance d'une telle structure. Troisièmement, nous étudierons l'apprentissage paramétrique, où un apprenant adapte sa politique à un problème dont la structure est connue mais dont les paramètres sont inconnus. Cela a des applications dans les problèmes d'auto-scaling dans le cloud computing, l'allocation des ressources et les décisions séquentielles.
ACTIVITÉS
Le projet FunRL recrutera des chercheurs hautement qualifiés et motivés sur les supports suivants :
- 2 doctorants
- 1 chercheur postdoctoral pour deux ans
- 2 stagiaires de six mois chacun, cela pourrait être une première étape avant les projets de doctorat mentionnés ci-dessus.
Par ailleurs, nous prévoyons de recruter des doctorants en formation en alternance (Cifre) en collaboration avec Criteo et EDF R&D. Ces entreprises ont déjà donné leur accord de principe. Elles prendront en charge les salaires des doctorants et apporteront un financement supplémentaire pour le fonctionnement de la chaire.
Sur le front de l'éducation, un ingénieur pédagogique sera embauché pour deux ans afin d'aider à concevoir un MOOC sur l'apprentissage par renforcement et des sessions d'exercices interactifs pour les étudiants des niveaux L3 à M2.
Publié le 18 novembre 2025 Mis à jour le 3 février 2026
Membres principaux
Jean-Yves Daniel
Pierre Gaillard
Nicolas Gast
Bruno Gaujal
Jean-Philippe Gayon
Thèmes de recherche
Apprentissage par renforcement, processus de décision de Markov, optimisation en ligne, bandits stochastiques
Partager le lienCopierCopiéFermer la fenêtre modalePartager l'URL de cette pageJe recommande :Consultable à cette adresse :La page sera alors accessible depuis votre menu "Mes favoris".Arrêter la vidéoLire la vidéoCouper le sonLire l'audioChat : Une question ?Chatbot Robo FabricaStatistiques de trafic MatomoX (anciennement Twitter)