Gate 廣場|2/27 今日話題: #BTC能否重返7万美元?
🎁 帶話題發帖,抽 5 位幸運兒送出 $2,500 仓位體驗券!
Jane Street 被起訴後,持續多日的“10 點砸盤”疑似消失。BTC 目前在 $67,000 附近震盪,這波反彈能否順勢衝回 $70,000?
💬 本期熱議:
1️⃣ 你認為訴訟與“10 點拋壓”消失有關嗎?市場操縱阻力是否減弱?
2️⃣ 衝擊 $70K 的關鍵壓力區在哪?
3️⃣ 你會在當前價位分批布局,還是等待放量突破再進場?
分享觀點,瓜分好禮 👉️ https://www.gate.com/post
📅 2/27 16:00 - 3/1 12:00 (UTC+8)
Qwen 開源先進的語音識別(ASR)和強制對齊模型,具備多語言能力
簡要介紹
阿里雲已開源其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型,實現多語言和挑戰性聲學條件下的最先進語音識別與強制對齊性能。
阿里雲宣布已將其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型開源,提供先進的語音識別與強制對齊工具。
Qwen3-ASR 系列包括兩款全能模型,Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B,支持52種語言和口音的語言識別與轉錄,利用大規模語音數據和 Qwen3-Omni 基礎模型。
內部測試顯示,1.7B 模型在開源語音識別系統中達到最先進的準確率,而 0.6B 版本則在性能與效率之間取得平衡,能在一秒內轉錄2000秒的語音,並具有高併發能力。
Qwen3-ForcedAligner-0.6B 模型採用非自回歸大型語言模型(LLM)方法,在11種語言中進行文本與語音的對齊,速度與準確率均優於領先的強制對齊解決方案。
阿里雲還發布了一個基於 Apache 2.0 許可的全面推理框架,支持串流、批次處理、時間戳預測和微調,旨在加速音頻理解的研究與實踐應用。
Qwen3-ASR 和 Qwen3-ForcedAligner 模型展現領先的準確率與效率
阿里雲已發布其 Qwen3-ASR 和 Qwen3-ForcedAligner 模型的性能結果,展現多樣語音識別任務中的領先準確率與效率。
Qwen3-ASR-1.7B 模型在開源系統中達到最先進的結果,在英語、多語言和中文方言識別方面超越商業API和其他開源模型,包括粵語和22個地區變體。
在低信噪比、兒童或老年人語音,甚至歌聲轉錄等挑戰性聲學條件下,仍能保持可靠的準確率,中文平均字錯誤率為13.91%,英文為14.60%,背景有音樂。
較小的 Qwen3-ASR-0.6B 在準確率與效率之間取得平衡,在高併發下提供高吞吐量和低延遲,能在128併發的線上非同步模式下轉錄長達五小時的語音。
同時,Qwen3-ForcedAligner-0.6B 在語言覆蓋範圍、時間戳準確率和支持多樣語音與音頻長度方面,超越包括 Nemo-Forced-Aligner、WhisperX 和 Monotonic-Aligner 在內的領先端到端強制對齊模型。