速途網訊 今日,小米在Xiaomi MiMo官微宣布,正式開源首個原生端到端語音模型——Xiaomi-MiMo-Audio,它基于創新預訓練架構和上億小時訓練數據,首次在語音領域實現基于 ICL 的少樣本泛化,并在預訓練觀察到明顯的“涌現”行為。

官方稱Xiaomi-MiMo-Audio的突破帶來了語音領域的 “GPT-3 時刻”。該模型首次證明把語音無損壓縮預訓練 Scaling 至 1 億小時可以“涌現”出跨任務的泛化性,表現為 Few-Shot Learning 能力。(編輯:李美涵)
Xiaomi-MiMo-Audio性能強悍,具體表現如下:
1.在通用語音理解及對話等多項標準評測基準中,MiMo-Audio 大幅超越了同參數量的開源模型,取得 7B 最佳性能
2.在音頻理解基準 MMAU 的標準測試集上,MiMo-Audio 超過 Google 閉源語音模型 Gemini-2.5-Flash
3.在面向音頻復雜推理的基準 Big Bench Audio S2T 任務中,MiMo-Audio 同樣超越了 OpenAI 閉源的語音模型 GPT-4o-Audio-Preview
模型開源地址:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base
技術報告:https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf