11 月 11 日消息,Meta 基礎人工智慧研究(FAIR)團隊推出了“全語種自動語音識別系統”(Omnilingual ASR),該系統可支持 1600 多種語言的語音轉寫,大幅拓展了當前語音識別技術的語言覆蓋範圍。
此前,大多數語音識別工具都專注於幾百種資源豐富的語言,這些語言有大量的轉錄音頻。而全球現存 7000 餘種語言中,絕大多數因缺乏訓練數據而幾乎無法獲得人工智慧支持。Omnilingual ASR 的推出旨在彌合這一鴻溝。
據 Meta 介紹,在其支持的 1600 種語言中,有 500 種系首次被任何 AI 系統所覆蓋。FAIR 團隊將該系統視為邁向“通用語音轉寫系統”的重要一步,有望助力打破全球語言壁壘,促進跨語言溝通與資訊可及性。
據記者瞭解,系統識別精度與訓練數據量密切相關。根據 Meta 公佈的數據,Omnilingual ASR 在測試的 1600 種語言中,對其中 78% 的語言實現了低於 10% 的字元錯誤率(CER);對於至少擁有 10 小時訓練音頻的語言,達此精度標準的比例提升至 95%;即便對於音頻時長不足 10 小時的“低資源語言”,仍有 36% 實現了低於 10% CER 的表現。
為推動後續研究與實際應用落地,Meta 同步發佈了“全語種 ASR 語料庫”(Omnilingual ASR Corpus)—— 一個包含 350 種代表性不足語言的、大規模轉錄語音數據集。該語料庫採用知識共用署名許可協議(CC-BY)開放獲取,旨在支持開發者與研究人員針對特定本地語言需求,構建或適配定制化的語音識別模型。
Omnilingual ASR 的一項關鍵創新在於其“自帶語言”(Bring Your Own Language)功能,該功能依託上下文學習(in-context learning)機制實現。受大型語言模型技術啟發,用戶僅需提供少量配對的語音與文本樣本,系統即可直接從中學習,無需重新訓練或依賴高算力資源,就能添加新的語言。
Meta 指出,理論上該方法可將 Omnilingual ASR 的語言支持能力擴展至 5400 餘種,遠超當前行業標準。儘管對極低資源語言的識別品質尚不及完全訓練的水準,但該技術已首次為眾多此前完全缺乏語音識別能力的語言社區提供了切實可行的解決方案。
Meta 以 Apache 2.0 開源許可協議發佈 Omnilingual ASR 全部模型,允許研究人員與開發者自由使用、修改及商用;配套數據集則採用 CC-BY 協議開放。Omnilingual ASR 模型家族涵蓋從適用於低功耗設備的羽量級 3 億參數版本,到追求“頂尖精度”的 70 億參數版本,滿足不同應用場景需求。所有模型均基於 FAIR 自主研發的 PyTorch 框架 fairseq2 構建。
來源:中國IT之家