人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

<samp id="eo0y0"><tbody id="eo0y0"></tbody></samp>

<ul id="eo0y0"><tfoot id="eo0y0"></tfoot></ul>

您的位置：首頁 > 產(chǎn)經(jīng) >

世界熱訊:規(guī)模性能雙殺OpenAI，Meta語音達(dá)LLaMA級里程碑！開源MMS模型可識別1100+語言

來源：華爾街見聞 ? 2023-05-23 20:12:14

在語音方面，Meta又達(dá)到了另一個LLaMA級的里程碑。

今天，Meta推出了一個名為MMS的大規(guī)模多語言語音項目，它將徹底改變語音技術(shù)。

MMS支持1000多種語言，用圣經(jīng)訓(xùn)練，錯誤率僅為Whisper數(shù)據(jù)集的一半。

(資料圖)

只憑一個模型，Meta就建起了一座巴別塔。

并且，Meta選擇將所有模型和代碼開源，希望為保護(hù)世界語種的多樣性做出貢獻(xiàn)。

在此之前的模型可以覆蓋大約100種語言，而這次，MMS直接把這個數(shù)字增加了10-40倍！

具體來說，Meta開放了1100多種語言的多語種語音識別/合成模型，以及4000多種語言的語音識別模型。

與OpenAI Whisper相比，多語言ASR模型支持11倍以上的語言，但在54種語言上的平均錯誤率還不到FLEURS的一半。

而且，將ASR擴(kuò)展到如此多語言之后，只造成了非常小的性能下降。

論文地址：https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

保護(hù)消失語種，MMS把語音識別增加40倍

讓機(jī)器具備識別和產(chǎn)生語音的能力，可以讓更多人獲得信息。

然而，為這些任務(wù)生成高質(zhì)量的機(jī)器學(xué)習(xí)模型，就需要大量的標(biāo)記數(shù)據(jù)，比如數(shù)千小時的音頻以及轉(zhuǎn)錄——對于大多數(shù)語言來說，這種數(shù)據(jù)根本就不存在。

現(xiàn)有的語音識別模型，只涵蓋了大約100種語言，在地球上的7000多種已知語言中，這只占很小一部分。令人擔(dān)憂的是，在我們有生之年，這些語言中有一半都面臨著消失的危險。

在Massively Multilingual Speech（MMS）項目中，研究者通過結(jié)合wav2vec 2.0（Meta在自監(jiān)督學(xué)習(xí)方面的開創(chuàng)性工作）和一個新的數(shù)據(jù)集來克服了一些挑戰(zhàn)。

這個數(shù)據(jù)集提供了超過1100種語言的標(biāo)記數(shù)據(jù)，和近4000種語言的未標(biāo)記數(shù)據(jù)。

通過跨語言訓(xùn)練，wav2vec 2.0學(xué)習(xí)了多種語言中使用的語音單元

其中一些語言，如Tatuyo語，只有幾百個使用者，而數(shù)據(jù)集中的大多數(shù)語言，以前根本就不存在語音技術(shù)。

而結(jié)果顯示，MMS模型的性能優(yōu)于現(xiàn)有的模型，覆蓋語言的數(shù)量是現(xiàn)有模型的10倍。

Meta一向?qū)Ｗ⒂诙嗾Z言工作：在文本上，Meta的NLLB項目將多語言翻譯擴(kuò)展到了200種語言，而MMS項目，則將語音技術(shù)擴(kuò)展到更多語言。

MMS支持1,107種語言的語音轉(zhuǎn)文本和文本轉(zhuǎn)語音，支持4,000多種語言的識別

圣經(jīng)解決語音數(shù)據(jù)集難題

收集數(shù)千種語言的音頻數(shù)據(jù)并不是一件簡單的事情，這也是Meta的研究人員面臨的第一個挑戰(zhàn)。

要知道，現(xiàn)有的最大語音數(shù)據(jù)集最多也只涵蓋了100種語言。為了克服這個問題，研究人員轉(zhuǎn)向了宗教文本，如《圣經(jīng)》。

這類文本已經(jīng)被翻譯成許多不同的語言，被用于廣泛的研究，還有各種公開的錄音。

為此，Meta的研究者專門創(chuàng)建了一個超過1100種語言的《新約》閱讀數(shù)據(jù)集，平均每種語言提供32小時的數(shù)據(jù)。

再加上其他各種宗教讀物的無標(biāo)簽錄音，研究者將可用的語言數(shù)量增加到了4000多種。

在MMS數(shù)據(jù)上訓(xùn)練的自動語音識別模型，在FLEURS基準(zhǔn)測試中，對男性和女性說話者具有相似的錯誤率

這些數(shù)據(jù)通常是由男性朗讀的，但模型對男性和女性的聲音表現(xiàn)得同樣好。

并且，雖然錄音的內(nèi)容是宗教性的，但這并沒有使模型過度偏向于產(chǎn)生更多的宗教語言。

研究人員分析認(rèn)為，這是因?yàn)樗麄兪褂昧诉B接主義時間分類方法，與用于語音識別的大語言模型或序列對序列模型相比，它的約束性要大得多。

模型越大，越能打？

研究人員首先對數(shù)據(jù)進(jìn)行了預(yù)處理，以提高數(shù)據(jù)的質(zhì)量，并使其能被機(jī)器學(xué)習(xí)算法所利用。

為此，研究人員在100多種語言的現(xiàn)有數(shù)據(jù)上訓(xùn)練了一個對齊模型，并將這個模型與一個高效的強(qiáng)制對齊算法一起使用，而該算法可以處理大約20分鐘或更長時間的錄音。

研究人員多次重復(fù)了這個過程，并根據(jù)模型的準(zhǔn)確性進(jìn)行了最后的交叉驗(yàn)證過濾步驟，為的是去除潛在的錯誤對齊數(shù)據(jù)。

為了使其他研究人員能夠創(chuàng)建新的語音數(shù)據(jù)集，研究人員將對齊算法添加到了PyTorch中并發(fā)布了對齊模型。

目前，每種語言都有32小時的數(shù)據(jù)，但這并不足以訓(xùn)練傳統(tǒng)的監(jiān)督式語音識別模型。

這也就是為什么研究人員在wav2vec 2.0上訓(xùn)練模型，這樣可以大大減少訓(xùn)練一個模型所需的標(biāo)注數(shù)據(jù)量。

具體來說，研究人員在超過1400種語言的約50萬小時的語音數(shù)據(jù)上訓(xùn)練了自監(jiān)督模型——這個量比過去多了近5倍。

然后針對特定的語音任務(wù)，如多語言語音識別或語言識別，研究人員再對模型進(jìn)行微調(diào)即可。

為了更好地了解在大規(guī)模多語言語音數(shù)據(jù)上訓(xùn)練的模型的表現(xiàn)，研究人員在現(xiàn)有的基準(zhǔn)數(shù)據(jù)集上對它們進(jìn)行了評估。

研究人員使用一個1B參數(shù)的wav2vec 2.0模型對超過1100種語言進(jìn)行多語言語音識別模型的訓(xùn)練。

隨著語言數(shù)量的增加，性能確實(shí)有所下降，但這種下降比較輕微——從61種語言到1107種語言，字符錯誤率只增加了約0.4%，但語言覆蓋率卻增加了18倍以上。

將每個系統(tǒng)支持的語言數(shù)量從61增加到1,107 時，使用MMS數(shù)據(jù)訓(xùn)練的多語言識別系統(tǒng)的61種FLEURS語言的錯誤率。錯誤率越高表示性能越低

在與OpenAI的Whisper進(jìn)行同類比較時，研究人員發(fā)現(xiàn)，在Massively Multilingual Speech數(shù)據(jù)上訓(xùn)練的模型有將近一半的單詞錯誤率，但Massively Multilingual Speech涵蓋的語言是Whisper的11倍。

從數(shù)據(jù)中我們可以看出，與目前最好的語音模型相比，Meta的模型表現(xiàn)的真的非常不錯。

OpenAI Whisper與Massively Multilingual Speech在54種FLEURS語言上的單詞錯誤率對比

接下來，研究人員使用自己的以及現(xiàn)有的數(shù)據(jù)集，如FLEURS和CommonVoice，為超過4000種語言訓(xùn)練了一個語言識別（LID）模型，并在FLEURS LID任務(wù)上對其進(jìn)行了評估。

事實(shí)證明，哪怕支持了將近40倍的語言數(shù)量，性能依然很能打。

在現(xiàn)有工作的VoxLingua-107基準(zhǔn)上的語言識別準(zhǔn)確性，支持的語言剛剛超過100種，而MMS則支持超過4000種語言

研究人員還為超過1100種語言建立了文本轉(zhuǎn)語音的系統(tǒng)。

大規(guī)模多語種語音數(shù)據(jù)有一個局限性，那就是對于許多語言來說，它包含的不同說話者數(shù)量相對較少，通常只有一個說話者。

然而，這個特點(diǎn)對于建立文本到語音系統(tǒng)來說是一個優(yōu)勢，因此研究人員為超過1100種語言訓(xùn)練了類似系統(tǒng)。

結(jié)果表明，這些系統(tǒng)產(chǎn)生的語音質(zhì)量還算不錯。

未來屬于單一模型

Meta的研究人員對這個結(jié)果感到很滿意，但與所有新興的AI技術(shù)一樣，Meta目前的模型并不算完美。

比方說，語音到文本模型可能會誤寫選定的單詞或短語，可能會導(dǎo)致冒犯性的或者不準(zhǔn)確的輸出結(jié)果。

同時，Meta認(rèn)為，AI巨頭的合作對于負(fù)責(zé)任的AI技術(shù)的發(fā)展至關(guān)重要。

世界上的許多語言都有消失的危險，而目前語音識別和語音生成技術(shù)的局限性只會加速這一趨勢。

研究人員設(shè)想一個技術(shù)產(chǎn)生相反效果的世界，鼓勵人們保持其語言的活力，因?yàn)樗麄兛梢酝ㄟ^說自己喜歡的語言來獲取信息和使用技術(shù)。

大規(guī)模多語言語音項目是朝著這個方向邁出的重要一步。

在未來，研究人員希望進(jìn)一步增加語言的覆蓋面，支持更多的語言，甚至還會想辦法搞定方言。要知道，方言對現(xiàn)有的語音技術(shù)來說可不簡單。

Meta的最終目標(biāo)是讓人們能更容易地用自己喜歡的語言獲取信息、使用設(shè)備。

最后，Meta的研究人員還設(shè)想了這樣一個未來場景——靠一個單一的模型就可以解決所有語言的幾個語音任務(wù)。

目前雖然Meta為語音識別、語音合成和語言識別訓(xùn)練了單獨(dú)的模型，但研究人員相信，在未來，只需一個模型就能完成所有這些任務(wù)，甚至不止。

本文來源：新智元，原文標(biāo)題：《規(guī)模性能雙殺OpenAI，Meta語音達(dá)LLaMA級里程碑！開源MMS模型可識別1100+語言》

風(fēng)險提示及免責(zé)條款市場有風(fēng)險，投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議，也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：