(相關(guān)資料圖)
繼文字生成AI模型Wordcraft、視頻生成AI模型Imagen Video后,日前谷歌方面公布了對音樂生成AI模型MusicLM的研究成果,該模型可以根據(jù)文本或圖片生成任何類型的高保真音樂。
在相關(guān)聲明中,谷歌方面展示了大量生成作品的案例,例如輸入文本“雷鬼和電子舞曲的融合,帶有空曠的、超凡脫俗的聲音,引發(fā)迷失在太空中的體驗,音樂的設(shè)計旨在喚起一種驚奇和敬畏的感覺,同時又適合跳舞”,MusicLM便可生成一段時長30秒的電子音樂;又如以世界名畫《跨越阿爾卑斯山圣伯納隘口的拿破侖》為題,MusicLM生成的音樂便莊重典雅,體現(xiàn)出冬日的凌厲肅殺和英雄主義色彩。
據(jù)悉,在MusicLM之前,同類產(chǎn)品還包括Riffusion、Dance Diffusion、人工智能研究機構(gòu)OpenAI旗下的Jukebox,以及谷歌自家的AudioML等。雖然MusicLM并非首個可以根據(jù)文本生成音樂的AI模型,但得益于集成了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多個模型的優(yōu)勢,以及龐大的訓(xùn)練數(shù)據(jù)庫(280000小時的音樂),其能制作出作曲特別復(fù)雜或保真度特別高的歌曲。
據(jù)了解,MusicLM不僅具備強大的輔助功能,可設(shè)定具體的樂器、地點、流派、年代、音樂家演奏水平等“參數(shù)”,從而對生成的音樂質(zhì)量進行調(diào)整,還能使用計算機通常難以掌握的抽象概念編寫曲目。此外MusicLM還具有“故事模式”,可編程特定時間內(nèi)的音樂風(fēng)格、氛圍和節(jié)奏的轉(zhuǎn)變,例如可采用幾個按順序編寫的文本描述來創(chuàng)建一種“故事”的敘事旋律。
但需要注意的是,MusicLM也有生成式AI普遍面臨共同的風(fēng)險,即技術(shù)不完善、素材侵權(quán)、道德爭議等。例如在要求MusicLM生成人聲時,雖然技術(shù)上可行,但結(jié)果卻可能不如人意,有時會出現(xiàn)歌詞意義不明的情況,并且MusicLM生成的音樂中,約有1%是直接從訓(xùn)練集的歌曲中復(fù)制而來。
因此谷歌方面暫未向公眾發(fā)布MusicLM,并且該公司表示,“我們承認需要在未來開展更多工作來應(yīng)對這些與音樂生成相關(guān)的風(fēng)險,目前沒有發(fā)布該模型的計劃。”
權(quán)威!全面!便捷!行業(yè)人都在關(guān)注的視頻號 ——
責(zé)任編輯:房家輝
分享到:版權(quán)聲明:凡注明來源“流媒體網(wǎng)”的文章,版權(quán)均屬流媒體網(wǎng)所有,轉(zhuǎn)載需注明出處。非本站出處的文章為轉(zhuǎn)載,觀點供業(yè)內(nèi)參考,不代表本站觀點。文中圖片均來源于網(wǎng)絡(luò)收集整理,僅供學(xué)習(xí)交流,版權(quán)歸原作者所有。如涉及侵權(quán),請及時聯(lián)系我們刪除!關(guān)鍵詞: 輔助功能 跨越阿爾卑斯山圣伯納隘口的拿破侖 責(zé)任編輯