Ter@tec

Accueil > Forum TERATEC > Ateliers > Atelier 8

Forum Teratec 2022
Mercredi 15 juin - Atelier technique

Atelier 08 - de 14h00 à 17h30

IA et HPC dans l'industrie
Présidé par Cristel Saudemont, France Directrice, Supercomputing & AI , Enseignement supérieur et Recherche et Frédéric Parienté, senior manager in the solutions architecture and engineering group, Nvidia

BigScience: Collaboratively training a large multilingual language model
Par Lucile Saulnier, Machine Learning Engineer and Thomas Wang, Machine Learning Engineer, Hugging Face

Ces dernière années, les modèles linguistiques pré-entrainés de manière auto-supervisé ont montré leur utilité pour de nombreuses applications. Ces modèles visent à découvrir des représentations générales à partir d’une grande quantité de texte sans nécéssiter d’annotations humaines - une tâche longue et coûteuse. La représentation produite par ces modèles est en effet extrêmement pertinente car elle permet généralement de réduire de manière significative - voire totale - le volume de données annotées et la durée d’entrainement nécésaires à une application en aval. Il n'est donc pas difficile d'imaginer l'impact que ces modèles peuvent avoir sur la société. Malheureusement seules quelques organisations dans le monde ont les moyens d’entrainer de tels modèles - d’autant plus qu’actuellement une manière d’améliorer significativement les résultats de ces modèles consiste à augmenter la taille de ces derniers de manière exponentielle, le volume de l’ensemble de données d’entrainement et donc les ressources de calculs nécéssaires pour les entraîner. Par conséquent, la communauté scientifique est dépendante de ce que ces groupes, riches en ressources, acceptent de publier pour comprendre la façon dont ils sont construits, comment ils fonctionnent et comment ils peuvent être encore amélioré.

BigScience est un projet de recherche ayant pour ambition principale d’entrainer de manière transparente, publique et collaborative un modèle de 176 milliards de paramètres du même ordre de grandeur que GPT-3 (solution propriétaire d’OpenAI). Pour cela, 1000+ chercheurs, venant à la fois du monde de la recherche académique et de l’industrie, se sont réunis autour de 30 groupes de travail pour prendre des décisions à toutes les étapes de l’élaboration du modèle: la constitution de jeux de données multilingues, l’élaboration du modèle, les contraintes d’ingénierie, l’établissement d’une licence d’utilisation du modèle, les considérations juridiques liées aux informations personnelles identifiables dans les jeux de données, le développement d’outils d’évaluation, et enfin des réflexions sur des cas applications dans différents domaines (bio-médical etc).

Ces efforts se traduisent par:

l’obtention d’un jeu de données intégrant 46 langues, fruit d’un effort communautaire
l’entraînement d’un modèle de 176 milliards de paramètres grâce au super calculateur Jean zay sur 384 GPUs (A100) sur 4 mois.
l’accès en open-source des outils utilisés et développés.
la publication de nombreux articles de recherches.

Biographie : Lucile Saulnier est ingénieure Machine Learning chez Hugging Face. Elle développe et soutient l'utilisation d'outils open source. Elle est aussi activement impliquée dans des projets de recherche dans le domaine du Deep Learning tel que BigScience - un projet collaboratif d'un an visant à produire un gros modèle de langue multilingue et un très grand ensemble de données textuelles multilingues sur le supercalculateur Jean Zay.

Biographie : Thomas Wang est ingénieur Machine Learning chez Hugging Face. Il rejoint le projet BigScience - projet collaboratif cherchant à entraîner un grand modèle linguistique sur le super calculateur Jean Zay - en particulier dans les problématiques de modélisation ainsi que d'acquisition de données. Thomas Wang est diplômé de l'École polytechnique, ainsi que du master MVA en 2019.

Inscrivez-vous dès à présent et obtenez votre badge en cliquant ici

Le Forum TERATEC est strictement réservé aux professionnels.
Participation gratuite aux conférences et aux ateliers (sous réserve des places disponibles).
L'enregistrement en ligne est obligatoire.
Le badge délivré vous donnera accès gracieusement à l'ensemble des évènements du Forum TERATEC

Forum Teratec 2022 Mercredi 15 juin - Atelier technique

Atelier 08 - de 14h00 à 17h30

IA et HPC dans l'industrie Présidé par Cristel Saudemont, France Directrice, Supercomputing & AI , Enseignement supérieur et Recherche et Frédéric Parienté, senior manager in the solutions architecture and engineering group, Nvidia

Forum Teratec 2022
Mercredi 15 juin - Atelier technique

IA et HPC dans l'industrie
Présidé par Cristel Saudemont, France Directrice, Supercomputing & AI , Enseignement supérieur et Recherche et Frédéric Parienté, senior manager in the solutions architecture and engineering group, Nvidia