Meta AI présente Omnilingual ASR, améliorant la reconnaissance automatique de la parole dans plus de 1 600 langues

MpostMediaGroup

2025-11-11 13:45:37

En résumé

Meta AI a lancé le système de reconnaissance automatique de la parole Omnilingual ASR, offrant la reconnaissance vocale pour plus de 1 600 langues, et a publié des modèles open-source ainsi qu’un corpus pour 350 langues sous-représentées.

La division de recherche de la société technologique Meta, spécialisée dans l’IA et la réalité augmentée, Meta AI, a annoncé la sortie du système Meta Omnilingual Automatic Speech Recognition (ASR).

Cette suite de modèles permet la reconnaissance automatique de la parole pour plus de 1 600 langues, avec des performances de haute qualité à une échelle sans précédent. De plus, Meta AI open-source Omnilingual wav2vec 2.0, un modèle de représentation de la parole auto-supervisé, multilingue et massif, doté de 7 milliards de paramètres, conçu pour supporter une variété de tâches de traitement de la parole en aval.

Parallèlement à ces outils, l’organisation publie également le Corpus Omnilingual ASR, une collection organisée de discours transcrits provenant de 350 langues sous-représentées, développée en partenariat avec des collaborateurs mondiaux.

La reconnaissance automatique de la parole a progressé ces dernières années, atteignant une précision quasi-parfaite pour de nombreuses langues largement parlées. Cependant, l’expansion vers des langues moins dotées en ressources est restée difficile en raison des exigences élevées en données et en calcul des architectures d’IA existantes. Le système Omnilingual ASR répond à cette limitation en faisant évoluer l’encodeur de parole wav2vec 2.0 à 7 milliards de paramètres, créant des représentations multilingues riches à partir de discours brut non transcrit. Deux variantes de décodeurs transforment ces représentations en jetons de caractères : l’une utilisant la classification temporelle connectionniste (CTC) et l’autre une approche basée sur un transformeur similaire à ceux des grands modèles de langage.

Cette approche ASR inspirée des LLM atteint des performances de pointe dans plus de 1 600 langues, avec des taux d’erreur en caractères inférieurs à 10 pour 78 % d’entre elles, et introduit une méthode plus flexible pour ajouter de nouvelles langues.

Contrairement aux systèmes traditionnels nécessitant un ajustement expert, Omnilingual ASR peut intégrer une langue auparavant non supportée en utilisant seulement quelques exemples audio-texte appariés, permettant la transcription sans besoin de données étendues, d’expertise spécialisée ou de calculs coûteux. Bien que les résultats zéro-shot ne soient pas encore équivalents à ceux des systèmes entièrement entraînés, cette méthode offre une solution évolutive pour intégrer les langues sous-représentées dans l’écosystème numérique.

Meta AI pour faire progresser la reconnaissance vocale avec la suite et le corpus Omnilingual ASR

La division de recherche a publié une suite complète de modèles et un ensemble de données conçus pour faire avancer la technologie de la parole dans toutes les langues. S’appuyant sur des recherches antérieures de FAIR, Omnilingual ASR inclut deux variantes de décodeurs, allant de modèles légers de 300 millions de paramètres pour les appareils à faible consommation à des modèles de 7 milliards de paramètres offrant une grande précision dans diverses applications. Le modèle de base de la reconnaissance vocale wav2vec 2.0, polyvalent, est également disponible en plusieurs tailles, permettant une large gamme de tâches liées à la parole au-delà de l’ASR. Tous les modèles sont fournis sous licence Apache 2.0, et l’ensemble de données est accessible sous CC-BY, permettant aux chercheurs, développeurs et défenseurs des langues d’adapter et d’étendre les solutions vocales en utilisant le cadre open-source fairseq2 de FAIR dans l’écosystème PyTorch.

Omnilingual ASR a été entraîné sur l’un des plus grands et des plus diversifiés corpus de reconnaissance automatique de la parole jamais assemblés, combinant des ensembles de données publics avec des enregistrements issus de la communauté. Pour soutenir les langues avec une présence numérique limitée, Meta AI a collaboré avec des organisations locales pour recruter et rémunérer des locuteurs natifs dans des régions reculées ou peu documentées, créant ainsi le Corpus Omnilingual ASR, le plus grand ensemble de données de reconnaissance spontanée à ressources ultra-faibles à ce jour. Des collaborations supplémentaires via le Programme Partenaires en Technologie Linguistique ont rassemblé linguistes, chercheurs et communautés linguistiques du monde entier, notamment avec la Fondation Mozilla pour Common Voice et Lanfrica/NaijaVoices. Ces efforts ont permis d’apporter une compréhension linguistique approfondie et un contexte culturel, garantissant que la technologie répond aux besoins locaux tout en renforçant la diversité des communautés linguistiques à l’échelle mondiale.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.