Meta AI apresenta o ASR Omnilingual, avançando o reconhecimento automático de fala em mais de 1.600 idiomas

MpostMediaGroup

2025-11-11 13:45:37

Resumidamente

Meta AI lançou o sistema de Reconhecimento Automático de Fala Omnilinguístico, que oferece reconhecimento de fala para mais de 1.600 línguas, e divulgou modelos de código aberto e um corpus para 350 línguas pouco atendidas.

A divisão de pesquisa da empresa de tecnologia Meta, especializada em IA e realidade aumentada, Meta AI, anunciou o lançamento do sistema Meta Omnilingual de Reconhecimento Automático de Fala (ASR).

Este conjunto de modelos oferece reconhecimento de fala automática para mais de 1.600 línguas, atingindo um desempenho de alta qualidade numa escala sem precedentes. Além disso, a Meta AI está a disponibilizar open-source o wav2vec 2.0 Omnilingual, um modelo de representação de fala auto-supervisionado e altamente multilíngue, com 7 bilhões de parâmetros, projetado para suportar várias tarefas de fala downstream.

Juntamente com estas ferramentas, a organização também está a lançar o Corpus de ASR Omnilingual, uma coleção curada de fala transcrita de 350 línguas pouco atendidas, desenvolvida em parceria com colaboradores globais.

O reconhecimento automático de fala avançou nos últimos anos, atingindo precisão quase perfeita para muitas línguas amplamente faladas. No entanto, expandir a cobertura para línguas com menos recursos tem sido um desafio devido às altas exigências de dados e computação das arquiteturas de IA existentes. O sistema Omnilingual ASR resolve esta limitação ao escalar o codificador de fala wav2vec 2.0 para 7 bilhões de parâmetros, criando representações multilíngues ricas a partir de fala bruta e não transcrita. Duas variantes de decodificador mapeiam essas representações em tokens de caracteres: uma usando classificação temporal connectionist (CTC) e outra usando uma abordagem baseada em transformador semelhante às de grandes modelos de linguagem.

Esta abordagem de ASR inspirada em LLM alcança desempenho de ponta em mais de 1.600 línguas, com taxas de erro de caracteres abaixo de 10% em 78% delas, e introduz um método mais flexível para adicionar novas línguas.

Ao contrário dos sistemas tradicionais que requerem ajuste fino por especialistas, o Omnilingual ASR pode incorporar uma língua anteriormente não suportada usando apenas alguns exemplos emparelhados de áudio e texto, permitindo transcrição sem necessidade de dados extensos, expertise especializada ou hardware de alta performance. Embora os resultados de zero-shot ainda não correspondam a sistemas totalmente treinados, este método oferece uma forma escalável de integrar línguas pouco atendidas no ecossistema digital.

Meta AI Avançará no Reconhecimento de Fala com o Conjunto de Ferramentas e Corpus Omnilingual ASR

A divisão de pesquisa lançou um conjunto abrangente de modelos e um conjunto de dados projetados para avançar a tecnologia de fala para qualquer língua. Baseando-se em pesquisas anteriores da FAIR, o Omnilingual ASR inclui duas variantes de decodificador, variando de modelos leves de 300M para dispositivos de baixo consumo até modelos de 7B que oferecem alta precisão em diversas aplicações. O modelo de base de fala wav2vec 2.0, de uso geral, também está disponível em vários tamanhos, permitindo uma ampla gama de tarefas relacionadas à fala além do ASR. Todos os modelos são fornecidos sob licença Apache 2.0, e o conjunto de dados está disponível sob CC-BY, permitindo que pesquisadores, desenvolvedores e defensores de línguas adaptem e expandam soluções de fala usando o framework open-source fairseq2 da FAIR no ecossistema PyTorch.

O Omnilingual ASR foi treinado com um dos maiores e mais linguisticamente diversos corpora de ASR já reunidos, combinando conjuntos de dados públicos com gravações colaborativas da comunidade. Para apoiar línguas com presença digital limitada, a Meta AI fez parcerias com organizações locais para recrutar e compensar falantes nativos em regiões remotas ou pouco documentadas, criando o Corpus de ASR Omnilingual, o maior conjunto de dados de ASR espontâneo de recursos ultra-baixos até hoje. Colaborações adicionais por meio do Programa de Parceiros de Tecnologia Linguística reuniram linguistas, pesquisadores e comunidades linguísticas de todo o mundo, incluindo parcerias com a Fundação Mozilla’s Common Voice e Lanfrica/NaijaVoices. Esses esforços proporcionaram insights linguísticos profundos e contexto cultural, garantindo que a tecnologia atenda às necessidades locais e empodere diversas comunidades linguísticas globalmente.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.