La PNL doit être ouverte. Plus de 500 chercheurs tentent d'y parvenir

Rejoignez les dirigeants lors du Sommet des participants à l’IA intelligente et à l’IA conversationnelle, présenté par Five9. Voir maintenant!

L’accélération de l’intelligence artificielle (IA) et du traitement du langage naturel (NLP) aura un impact fondamental sur la société, car ces technologies sont au cœur des outils que beaucoup d’entre nous utilisent au quotidien. Cependant, les ressources nécessaires pour créer les modèles d’IA et de PNL les plus performants reposent principalement sur les géants de la technologie.

La domination des géants de la technologie sur cette technologie transformatrice soulève un certain nombre de problèmes, allant de qui décide quelle recherche est partagée à ses impacts sur les fronts environnementaux et éthiques. Par exemple, alors que les modèles NLP récents tels que GPT3 (d’OpenAI et Microsoft) montrent des comportements intéressants du point de vue de la recherche, ces modèles sont privés et seul un accès restreint, ou aucun accès, n’est fourni à de nombreuses organisations académiques, ce qui rend impossible répondre à des questions importantes sur ces modèles et étudier les capacités, les limites, les améliorations potentielles, les biais et l’équité.

Un groupe de plus de 500 chercheurs de 45 pays différents, de la France, des États-Unis et du Japon à l’Indonésie, le Ghana et l’Éthiopie, se sont réunis pour travailler à résoudre certains de ces problèmes. Le projet, auquel participent tous les auteurs de cet article, s’appelle Grande science, et notre objectif est d’améliorer la compréhension scientifique des capacités et des limites des modèles de réseaux de neurones à grande échelle en PNL et de créer un ensemble de données diversifié et multilingue et un modèle de langage à grande échelle en tant qu’artefacts de recherche, ouverts à la communauté scientifique.

BigScience s’est inspiré des schémas de création scientifique existants dans d’autres domaines scientifiques, tels que le CERN et le LHC en physique des particules, dans lesquels des collaborations scientifiques ouvertes facilitent la création d’artefacts à grande échelle utiles à l’ensemble de la communauté des chercheurs. Jusqu’à présent, un large éventail d’institutions et de disciplines ont rejoint le projet dans son effort d’un an qui a commencé en mai 2021.

READ Échantillons d'astéroïdes s'échappant d'un vaisseau spatial coincé de la NASA

Le projet compte plus de 20 groupes de travail et sous-groupes qui traitent en parallèle différents aspects de la modélisation du langage, dont certains sont étroitement liés et interdépendants. Les données jouent un rôle crucial dans le processus. Dans l’apprentissage automatique, un modèle apprend à faire des prédictions basées sur des données qu’il a vues auparavant. Les ensembles de données sur lesquels les grands modèles linguistiques s’entraînent généralement sont massifs, principalement centrés sur l’anglais et proviennent du Web, soulevant des questions sur les préjugés, l’équité, l’éthique et la confidentialité, entre autres.

Par conséquent, le collectif cherche à mettre en œuvre une constitution intentionnelle du jeu de données d’entraînement pour privilégier la représentativité linguistique, géographique et sociale plutôt que les pratiques opportunistes qui définissent actuellement les données d’entraînement utilisées dans les très grands modèles. Notre effort de données s’efforce également d’identifier les droits des propriétaires de langues, des sujets et des communautés. Il s’agit à la fois d’un défi organisationnel et social et d’un défi technique. Les groupes d’ingénierie et de modélisation sont dédiés à la détermination des lois de conception et d’échelle de l’architecture, par exemple, dans le but spécifique de former un modèle de langage d’une capacité allant jusqu’à 210 milliards de paramètres d’apprentissage automatique dans le Supercalculateur français Jean Zay et IDRIS.

L’un de nos objectifs est de découvrir et de comprendre les mécanismes qui permettent à un modèle de langage de produire des résultats valides dans toute description de tâche naturelle qui lui est donnée sans être explicitement formé pour le faire (une compétence connue sous le nom de comportement zéro feu). Un autre point d’intérêt est d’étudier comment un modèle de langage peut être mis à jour dans le temps. Nous avons également un groupe de chercheurs travaillant sur des stratégies de tokenisation pour un ensemble diversifié de langues et sur la modélisation du multilinguisme afin de garantir que toutes les capacités de la PNL sont traduites dans des langues autres que l’anglais. D’autres travaillent sur l’impact social, l’empreinte carbone, la gouvernance des données et les implications juridiques des modèles de PNL et sur la manière de les évaluer de manière extrinsèque et intrinsèque pour déterminer leur exactitude.

READ Une nouvelle étude indique que les États-Unis sont loin d'être immunisés contre le COVID-19

À la suite de cet énorme effort, BigScience vise à partager un très grand corpus multilingue constitué d’une manière responsable, diversifiée et éthique et juridique, un modèle de langue multilingue à grande échelle qui présente des comportements zéro-shot non triviaux sous une forme qui est accessible à tous les chercheurs, ainsi que le code et les outils associés à ces artefacts pour permettre une utilisation facile. En dehors de cela, c’est l’occasion de créer un plan sur la manière de mener des initiatives de recherche à grande échelle en IA. Notre effort continue d’évoluer et de croître, avec de plus en plus de chercheurs qui nous rejoignent chaque jour, ce qui en fait la plus grande contribution de la science ouverte à l’intelligence artificielle à ce jour.

Tout comme les tensions entre logiciels propriétaires et open source au début des années 2000, l’IA est à un point de basculement où elle peut aller dans une direction propriétaire, où des modèles de pointe à grande échelle se développent de plus en plus en interne dans les entreprises. et reste privé, ou dans une direction ouverte, collaborative et communautaire, combinant les meilleurs aspects de l’open source et de la science ouverte. Il est essentiel que nous tirions le meilleur parti de cette opportunité actuelle pour propulser l’IA sur cette voie axée sur la communauté afin qu’elle puisse profiter à la société dans son ensemble.

Yacine Jernite est chercheur scientifique chez HuggingFace. Il coordonne l’effort de données du projet BigScience en tant que président de zone et co-organisateur du groupe de gouvernance des données.

Matthias Gallé dirige plusieurs équipes de recherche à Naver Labs Europe, axées sur le développement de l’IA pour notre monde numérique. Son objectif pour BigScience est de savoir comment inspecter, contrôler et mettre à niveau de grands modèles pré-entraînés.

Victor Sanh est chercheur à Hugging Face. Ses recherches portent sur la robustesse des systèmes NLP aux scénarios de production et aux mécanismes de généralisation.

Samson bronzage est un doctorat de dernière année en informatique à l’Université nationale de Singapour et coprésident du groupe de travail sur la tokenisation de BigScience.

Thomas loup est co-fondateur et directeur scientifique de HuggingFace et co-leader de l’initiative BigScience.

Suzana Ilic est responsable de programme technique chez Hugging Face et co-dirige l’organisation BigScience.

Margaret Mitchell est chercheuse scientifique en IA industrielle et coprésidente du groupe de travail sur la gouvernance des données de BigScience.

VentureBeat

La mission de VentureBeat est d’être une place urbaine numérique permettant aux décideurs techniques d’avoir un aperçu de la technologie transformatrice et d’effectuer des transactions. Notre site offre des informations essentielles sur les technologies et les stratégies de données pour vous guider dans la gestion de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder à :

des informations actualisées sur les sujets qui vous intéressent
nos newsletters
Contenu exclusif de leaders d’opinion et accès à prix réduit à nos précieux événements, tels que Transformer 2021: Apprendre encore plus
fonctionnalités réseau et plus

READ La mystérieuse tache sombre de Neptune a inversé son cours et les experts sont déconcertés

Devenir membre