速途網(wǎng)11月23日消息(報(bào)道:趙佳茹)近日,Meta 正式發(fā)布了一套用于各類語音任務(wù)的新型自監(jiān)督模型——XLS-R。
據(jù)悉,XLS-R是由海量公共數(shù)據(jù)訓(xùn)練而成(數(shù)據(jù)量是過去的十倍),能夠?qū)鹘y(tǒng)多語言模型的語言支持量增加兩倍以上,目前支持 128 種語言。
Meta認(rèn)為,語音交流是人們最自然的一種交互形式。“隨著語音技術(shù)的發(fā)展,我們已經(jīng)能夠通過對(duì)話同自己的設(shè)備及未來的虛擬世界直接互動(dòng),由此將虛擬體驗(yàn)與現(xiàn)實(shí)世界融為一體。”
布支持128種語言的新語音模型230.png)
這與扎克伯格此前宣稱的“公司業(yè)務(wù)將以元宇宙優(yōu)先”不謀而合。此前,扎克伯格曾概述了他建立“元世界”愿景:一個(gè)建立在我們自己的數(shù)字世界之上的數(shù)字世界,包括虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)。“我們相信元宇宙將會(huì)接替移動(dòng)互聯(lián)網(wǎng)”。
Meta在此基礎(chǔ)上推出了包含53種語言的XLSR,而最新發(fā)布的XLS-R有128種語言之多,語種數(shù)量是XLSR的兩倍多,數(shù)據(jù)量更是XLSR的10倍——共計(jì)長(zhǎng)達(dá)43.6萬小時(shí)的語音。
作為Meta打造的有史以來最大模型,XLS-R 中包含超過 20 億個(gè)參數(shù),性能遠(yuǎn)高于其他同類模型。Meta 表示,事實(shí)證明,更多參數(shù)能夠更充分地體現(xiàn)、數(shù)據(jù)集中的各類語種。此外,Meta 還發(fā)現(xiàn),規(guī)模更大的模型在單一語言預(yù)訓(xùn)練方面的性能也同樣優(yōu)于其他較小模型。
值得注意的是,為了通過單一模型實(shí)現(xiàn)對(duì)多種語言的廣泛語音理解能力,Meta對(duì) XLS-R 進(jìn)行了微調(diào),使其獲得語音識(shí)別、語音翻譯及語言識(shí)別等功能。據(jù)介紹,XLS-R在 BABEL、CommonVoice以及 VoxPopuli語音識(shí)別基準(zhǔn)測(cè)試,CoVoST-2 的外語到英文翻譯基準(zhǔn)測(cè)試,以及 VoxLingua107 語言識(shí)別基準(zhǔn)測(cè)試中都取得了不錯(cuò)的成績(jī)。