Statistiques de grande dimension pour l'IA

DESCRIPTION

Motivation et objectifs clés:
Au cœur de l'IA se trouve un ensemble de méthodes et d'algorithmes d'apprentissage automatique élaborés, non linéaires, fondés sur des données ou définis de manière implicite. Ces derniers reposent toutefois en grande partie sur des "intuitions de petite dimension" et des heuristiques qui sont le plus souvent inappropriées et se comportent de manière étonnamment différente en grande dimension. Cette "malédiction" de la dimensionnalité explique notamment l'échec des méthodes à noyau et la difficulté à comprendre les puissants réseaux profonds. Simultanément, la forte pression et la demande d'outils d'IA fiables de la part des universités et des entreprises induisent un besoin sans précédent de nouveaux outils mathématiques et de garanties théoriques pour les algorithmes d'apprentissage automatique.
Les avancées récentes dans le domaine des statistiques en grande dimension, et en particulier dans celui des matrices aléatoires et de la physique statistique, ont fourni des indices importants et des premiers résultats frappants sur la compréhension et les directions d'amélioration des méthodes d'apprentissage automatique en grande dimension : une nouvelle approche des méthodes à noyau émerge, une méthodologie renouvelée pour l'apprentissage semi-supervisé voit le jour, et les premières avancées dans la difficile théorie des réseaux neuronaux profonds ont vu le jour. Plus surprenant encore, en exploitant une notion d'universalité, les avancées statistiques dans la théorie des matrices aléatoires se révèlent de plus en plus robustes pour les ensembles de données réels et constituent donc de puissants prédicteurs de performances pratiques. Nombre de ces découvertes récentes sont à l'initiative des membres du présent projet.

chaire et programme de chaire:
chaire LargeDATA chaire sur ces avancées récentes et propose de développer un cadre mathématique cohérent pour l'analyse, l'amélioration et la refonte de méthodes de traitement des données, des plus élémentaires aux plus avancées, dans un contexte de grande dimension. LargeDATA est une chaire théorique, organisée autour (i) de deux volets méthodologiques consacrés au développement et à l'application de la théorie des matrices aléatoires et de la physique statistique à l'apprentissage automatique pour les grands ensembles de données, et (ii) d'un volet « transfert » qui porte à la fois sur des modèles de données plus réalistes et sur des applications aux données réelles (voir détails ci-dessous).
L'ambition à long terme est que la chaire une position de premier plan dans le domaine de l'IA fondamentale au sein de l'institut MIAI, en apportant des avancées mathématiques de niveau mondial et en renforçant l'attractivité du traitement automatisé de données volumineuses, nombreuses et dynamiques.

ACTIVITÉS

WP1. Théorie des matrices aléatoires (RMT) pour l'IA. Ce workpackage analyse les modèles matriciels non linéaires (matrices aléatoires à noyau, graphes aléatoires, modèles de réseaux neuronaux aléatoires, grands tenseurs aléatoires) [Comon,Couillet,Tremblay] et leurs implications pour les algorithmes d'apprentissage automatique associés (LS-SVM, SSL, clustering spectral, réseaux neuronaux, échantillonnage DPP) [Amblard,Barthleme,Couillet]. Il étudie également la performance des solutions implicites aux optimisations en grande dimension pour la classification et la régression (SVM, régression logistique, GLMM) [Chatelain,Couillet].

WP2. Physique statistique et graphes en IA. Ce workpackage explore spécifiquement la physique statistique (et les heuristiques associées) dans des scénarios où les développements et les techniques mathématiques sont difficiles ou actuellement inaccessibles [Barthelme,Couillet,Tremblay]. Cela concerne en particulier les modèles statistiques de matrices et de graphes aléatoires épars, et les méthodes d'apprentissage non linéaires complexes telles que les réseaux neuronaux profonds.

WP3. Résultats d'universalité : de la théorie à la pratique. Ce workpackage développe des bases théoriques pour appliquer les statistiques de grande dimension à des considérations plus pratiques (telles que le traitement des signaux cérébraux [Barthelme]). L'accent sera mis sur la concentration de la théorie des mesures pour l'analyse des réseaux neuronaux [Couillet], sur les analyses de matrices et de réseaux éparses pour le clustering, la fouille de graphes [Couillet,Tremblay], ainsi que sur les méthodes heuristiques pour mieux appréhender les données réelles et les modèles d'algorithmes les plus difficiles (par exemple, pour les méthodes d'apprentissage en profondeur) [Couillet,Tremblay].

chaire

chaire régulièrement des réunions avec ses principaux partenaires industriels : HUAWEI Labs Paris, le CEA Leti/List et ST-Microelectronics.

chaire commun organisé par chaire GAIA (au GIPSA-lab) et LargeDATA a lieu chaque semaine au GIPSA-lab.

LISTE SÉLECTIVE DE PUBLICATIONS 

  • R. Couillet, F. Chatelain, N. Le Bihan, "Two-way kernel matrix puncturing : towards resource-efficient PCA and spectral clustering", International Conference on Machine Learning (ICML'21), virtual conference, 2021.[article|notebook]

  • Ch. Séjourné, R. Couillet, P. Comon, "A large-dimensional analysis of symmetric SNE", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'21), Toronto, Canada, 2021.[article]

  • M. Seddik, C. Louart, R. Couillet, M. Tamaazousti, "The Unexpected Deterministic and Universal Behavior of Large Softmax Classifiers", Artificial Intelligence and Statistics (AISTATS'21), virtual conference, 2021.[article]

  • M. Tiomoko, H. Tiomoko, R. Couillet, "Deciphering and Optimizing Multi-Task and Transfer Learning : a Random Matrix Approach", International Conference on Learning Representations (ICLR'21), conférence virtuelle, 2021. Spotlight article.[article]

  • Z. Liao, R. Couillet, M. Mahoney, "Sparse Quantized Spectral Clustering", International Conference on Learning Representations (ICLR'21), conférence virtuelle, 2021. Spotlight article. [article]

  • M. Seddik, R. Couillet, M. Tamaazousti, " A Random Matrix Analysis of Learning with α-Dropout", International Conference on Machine Learning (ICML'20), Artemiss workshop, Graz, Autria, 2020.[article]

  • Z. Liao, R. Couillet, M. Mahoney, "A random matrix analysis of random Fourier features : beyond the Gaussian kernel, a precise phase transition, and the corresponding double descent", Conference on Neural Information Processing Systems (NeurIPS'20), Vacouver, Canada, 2020.[article]

  • T. Zarrouk, R. Couillet, F. Chatelain, N. Le Bihan, "Performance-Complexity Trade-Off in Large Dimensional Statistics", International Workshop on Machine Learning for Signal Processing (MLSP'20), Espoo, Finlande, 2020.[article]

  • M. Tiomoko, C. Louart, R. Couillet, "Large Dimensional Asymptotics of Multi-Task Learning", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'20), Barcelona, Spain, 2020.[article]

  • L. Dall'Amico, R. Couillet, N. Tremblay, "A unified framework for spectral clustering in sparse graphs", Journal of Machine Learning Research, vol. 22, no. 187, pp. 1-56, 2022.[article]

  • L. Dall'Amico, R. Couillet, N. Tremblay, "Nishimori meets Bethe : a spectral method for node classification in sparse weighted graphs", (à paraître dans) Journal of Statistical Mechanics : theory and experiment, 2021.[article]

  • L. Dall'Amico, R. Couillet, N. Tremblay, "Community detection in sparse time-evolving graphs with a dynamical Bethe-Hessian", Conference on Neural Information Processing Systems (NeurIPS'20), Vacouver, Canada, 2020.[article]

  • L. Dall'Amico, R. Couillet, N. Tremblay, "Optimal Laplacian Regularization for Sparse Spectral Community Detection", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'20), Barcelona, Spain, 2020.[article|vidéo]

  • R. Couillet, Y. Cinar, E. Gaussier, M. Imran, "Word Representations Concentrate and This is Good News !", SIGNLL Conference on Computational Natural Language Learning (CoNLL'20), virtual conference, 2020.[article]

  • M. Seddik, R. Couillet, M. Tamaazousti, "Random Matrix Theory Proves that Deep Learning Representations of GAN-data Behave as Gaussian Mixtures", International Conference on Machine Learning (ICML'20), Graz, Autria, 2020.[article]
Publié le 9 janvier 2024
Mis à jour le 9 janvier 2024