Meta AI представляє Omnilingual ASR, що просуває автоматичне розпізнавання мовлення більш ніж на 1600 мовах

MpostMediaGroup

2025-11-11 13:45:37

Коротко

Meta AI запустила систему автоматичного розпізнавання мови Omnilingual ASR, яка забезпечує розпізнавання мовою понад 1600 мов, а також випустила відкритий код моделей і корпус для 350 малодоступних мов.

Дослідницький відділ технологічної компанії Meta, що спеціалізується на штучному інтелекті та доповненій реальності, Meta AI оголосила про випуск системи Meta Omnilingual Automatic Speech Recognition (ASR).

Цей набір моделей забезпечує автоматичне розпізнавання мови для понад 1600 мов, досягаючи високої якості роботи на безпрецедентному масштабі. Крім того, Meta AI відкриває код Omnilingual wav2vec 2.0 — самонавчальну, багатомовну модель представлення мови з 7 мільярдами параметрів, розроблену для підтримки різних завдань обробки мови.

Разом із цими інструментами організація також випускає корпус Omnilingual ASR — зібрану колекцію транскрибованої мови з 350 малодоступних мов, створену у партнерстві з глобальними колегами.

За останні роки автоматичне розпізнавання мови зробило значний прогрес, досягаючи майже ідеальної точності для багатьох широко поширених мов. Однак розширення покриття на менш ресурсні мови залишалося складним через високі вимоги до даних і обчислювальних ресурсів існуючих архітектур ШІ. Система Omnilingual ASR вирішує цю проблему, масштабуючи енкодер wav2vec 2.0 до 7 мільярдів параметрів, створюючи багатомовні представлення з необробленої, неперекладеної мови. Два варіанти декодерів перетворюють ці представлення у символи: один — з використанням класифікації за часовою зв’язком (CTC), інший — на основі трансформера, схожого на моделі великих мов.

Цей підхід, натхненний LLM, досягає передових результатів у більш ніж 1600 мовах, з рівнем помилок у символах менше 10 для 78% з них, і вводить більш гнучкий спосіб додавання нових мов.

На відміну від традиційних систем, що потребують експертної тонкої настройки, Omnilingual ASR може додати раніше непідтримувану мову, використовуючи лише кілька парних аудіо-текстових прикладів, що дозволяє транскрибувати без необхідності у великих обсягах даних, спеціалізованих знаннях або високопродуктивних обчислювальних ресурсах. Хоча результати zero-shot ще не досягають рівня повністю натренованих систем, цей метод є масштабованим способом інтеграції малодоступних мов у цифрову екосистему.

Meta AI просуватиме розпізнавання мови за допомогою пакету Omnilingual ASR і корпусу

Дослідницький відділ випустив комплексний набір моделей і датасет, спрямовані на розвиток технологій розпізнавання мови для будь-якої мови. На основі попередніх досліджень FAIR, Omnilingual ASR включає два варіанти декодерів — від легких моделей на 300М до моделей на 7B, що забезпечують високу точність у різних застосуваннях. Базова модель wav2vec 2.0 для розпізнавання мови також доступна у кількох розмірах, що дозволяє виконувати широкий спектр завдань, пов’язаних із мовою, окрім ASR. Всі моделі доступні за ліцензією Apache 2.0, а датасет — за CC-BY, що дозволяє дослідникам, розробникам і мовним активістам адаптувати й розширювати рішення для розпізнавання мови за допомогою відкритої платформи FAIR fairseq2 у екосистемі PyTorch.

Omnilingual ASR тренується на одному з найбільших і найлінгвістично різноманітніших корпусів для розпізнавання мови, що поєднує публічно доступні набори даних і записи, зібрані спільнотою. Щоб підтримати мови з обмеженою цифровою присутністю, Meta AI співпрацювала з місцевими організаціями для залучення і компенсації носіїв мови у віддалених або малодокументованих регіонах, створюючи корпус Omnilingual ASR — найбільший на сьогодні набір даних для спонтанного розпізнавання мови з дуже низькими ресурсами. Додаткові партнерства через програму Language Technology Partner Program об’єднали лінгвістів, дослідників і мовні спільноти по всьому світу, включаючи співпрацю з Mozilla Foundation’s Common Voice і Lanfrica/NaijaVoices. Ці зусилля забезпечили глибоке лінгвістичне розуміння і культурний контекст, що гарантує відповідність технології місцевим потребам і сприяє розвитку різноманітних мовних спільнот по всьому світу.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.