Meta AI Memperkenalkan Omnilingual ASR, Meningkatkan Pengakuan Ucapan Otomatis di Lebih dari 1.600 Bahasa

MpostMediaGroup

2025-11-11 13:45:37

Secara Singkat

Meta AI telah meluncurkan sistem Omnilingual ASR, menyediakan pengenalan suara untuk lebih dari 1.600 bahasa dan merilis model sumber terbuka serta korpus untuk 350 bahasa yang kurang terlayani.

Divisi riset perusahaan teknologi Meta yang mengkhususkan diri dalam AI dan realitas tertambah, Meta AI mengumumkan rilis sistem Meta Omnilingual Automatic Speech Recognition (ASR).

Kumpulan model ini menyediakan pengenalan suara otomatis untuk lebih dari 1.600 bahasa, mencapai kinerja berkualitas tinggi dalam skala yang belum pernah terjadi sebelumnya. Selain itu, Meta AI juga merilis sumber terbuka wav2vec 2.0 Omnilingual, sebuah model representasi suara multibahasa yang diawasi sendiri dengan 7 miliar parameter, dirancang untuk mendukung berbagai tugas suara downstream.

Selain alat-alat ini, organisasi juga merilis Korup Omnilingual ASR, sebuah koleksi transkripsi suara yang dikurasi dari 350 bahasa yang kurang terlayani, dikembangkan bekerja sama dengan kolaborator global.

Pengakuan suara otomatis telah berkembang dalam beberapa tahun terakhir, mencapai akurasi hampir sempurna untuk banyak bahasa yang umum digunakan. Namun, memperluas cakupan ke bahasa yang kurang sumber daya tetap menjadi tantangan karena tingginya kebutuhan data dan komputasi dari arsitektur AI yang ada. Sistem Omnilingual ASR mengatasi batasan ini dengan memperbesar encoder suara wav2vec 2.0 hingga 7 miliar parameter, menciptakan representasi multibahasa yang kaya dari suara mentah yang tidak ditranskripsi. Dua varian decoder memetakan representasi ini ke dalam token karakter: satu menggunakan klasifikasi temporal koneksionis (CTC) dan lainnya menggunakan pendekatan berbasis transformer yang mirip dengan model bahasa besar.

Pendekatan ASR yang terinspirasi dari LLM ini mencapai kinerja terbaik di lebih dari 1.600 bahasa, dengan tingkat kesalahan karakter di bawah 10 untuk 78% dari bahasa tersebut, dan memperkenalkan metode yang lebih fleksibel untuk menambahkan bahasa baru.

Berbeda dengan sistem tradisional yang memerlukan penyetelan ahli, Omnilingual ASR dapat menggabungkan bahasa yang sebelumnya tidak didukung hanya dengan beberapa contoh audio-teks yang dipasangkan, memungkinkan transkripsi tanpa data yang banyak, keahlian khusus, atau perangkat keras yang mahal. Meskipun hasil zero-shot belum sepenuhnya menyamai sistem yang terlatih penuh, metode ini menyediakan cara yang dapat diskalakan untuk membawa bahasa yang kurang terlayani ke dalam ekosistem digital.

Meta AI Akan Meningkatkan Pengakuan Suara dengan Suite dan Korup Omnilingual ASR

Divisi riset telah merilis rangkaian lengkap model dan dataset yang dirancang untuk meningkatkan teknologi suara untuk bahasa apa pun. Berdasarkan penelitian sebelumnya dari FAIR, Omnilingual ASR mencakup dua varian decoder, mulai dari model ringan 300M untuk perangkat berdaya rendah hingga model 7B yang menawarkan akurasi tinggi di berbagai aplikasi. Model dasar suara wav2vec 2.0 yang bersifat umum juga tersedia dalam berbagai ukuran, memungkinkan berbagai tugas terkait suara selain ASR. Semua model disediakan di bawah lisensi Apache 2.0, dan dataset tersedia di bawah CC-BY, memungkinkan peneliti, pengembang, dan pendukung bahasa untuk menyesuaikan dan memperluas solusi suara menggunakan kerangka kerja open-source fairseq2 dari FAIR di ekosistem PyTorch.

Omnilingual ASR dilatih pada salah satu korpora ASR terbesar dan paling beragam secara linguistik yang pernah dikumpulkan, menggabungkan dataset yang tersedia secara publik dengan rekaman yang dikumpulkan dari komunitas. Untuk mendukung bahasa dengan keberadaan digital yang terbatas, Meta AI bekerja sama dengan organisasi lokal untuk merekrut dan memberi kompensasi kepada penutur asli di daerah terpencil atau kurang terdokumentasi, menciptakan Korup Omnilingual ASR, dataset ASR spontan ultra-rendah sumber daya terbesar hingga saat ini. Kolaborasi tambahan melalui Program Mitra Teknologi Bahasa mengumpulkan ahli bahasa, peneliti, dan komunitas bahasa di seluruh dunia, termasuk kemitraan dengan Mozilla Foundation’s Common Voice dan Lanfrica/NaijaVoices. Upaya ini memberikan wawasan linguistik mendalam dan konteks budaya, memastikan teknologi memenuhi kebutuhan lokal sekaligus memberdayakan komunitas bahasa yang beragam secara global.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.