logo-bg
logo-bg
音樂興發現|AI助披頭四發新歌曲!科技巨頭推AI技術讓音樂創作更簡單

2023.07.10(一)

音樂興發現|AI助披頭四發新歌曲!科技巨頭推AI技術讓音樂創作更簡單

 

作者:袁永興

 

當今年六月底保羅·麥卡尼(Paul McCartney)宣布、透過人工智慧將在2023年發行披頭四樂團(The Beatles)的最新歌曲,迅速帶起樂壇一陣騷動、進而引起關於AI使用的辯論。根據Billboard報導,保羅強調,歌裡頭沒有任何東西是人造加工或合成創造的,一切都是真實的聲音,這個過程已經持續探索了很多年。正如他在今年6月13日播出的BBC廣播節目受訪中解釋的那樣,人工智慧將用於把人聲軌道與背景噪音和樂器分開,而不是創建新的素材。他一直在使用AI、試著從舊的錄音中“提取”已故樂隊成員約翰·藍儂(John Lennon)的聲音,以便在尚未命名的歌曲中使用。

 

2023年可以說是AI迅速而猛烈地進到一般大眾眼簾的一年,相關概念的股票被追捧,各個領域對於如何使用、以及隨之而來的法務與版權可能遭受的疑慮進行討論,音樂產業面對的情況則顯得更加複雜與嚴峻。

最近Facebook母公司Meta研究人員開發了一個、名為MusicGen的AI文本轉製音樂生成器。Meta的基礎人工智能研究團隊將這款語言模型描述為「一個簡單且可控的音樂生成模型」,它可以接收文本提示,例如打上輸入「快節奏的民謠音樂」或「具有動聽旋律的流行舞曲」,並將其轉換為全新的12秒音樂片段。該模型作為開源發布,還可以使用旋律提示來生成新音樂。

 

 

筆者試了幾次、無論以自己哼唱的旋律(10秒以內)、或是擷取部分樂句然後輸入像是「八零年代重金屬的吉他搭配電子合成器」或是「88 bpm的Disco曲風加上弦樂」,MusicGen大多能在一到兩分鐘內、生成一段完整的音樂編曲,如果用作為Demo的參考使用,幫助確實很大。與 Riffusion、Mousai、MusicLM和Noise2Music等其他音樂模型相比,MusicGen在測試音樂與旋律的混搭匹配程度、以及作曲的完整度上、確實表現更好。

 

至於Google的MusicLM,則表明這是一種“實驗性人工智慧”工具,可以根據文本提示和哼唱生成高傳真音樂,並於今年五月正式公開發布。好比透過MusicLM、輸入諸如“晚宴上的搖擺爵士樂”之類的提示來運作。然後,MusicLM將為輸入提示的人、創建兩個版本的歌曲。Google的模型採用了 500 萬個聲音片段的訓練,總計 280,000 小時的24 kHz音樂。

 

MusicLM還有個特別的功能,除了輸入文字之外,輸入圖檔也能生成音樂,官網上就可以看到達利(Salvador Dalí)的名畫〈The Persistence of Memory〉以及孟克(Edvard Munch)的〈吶喊The Scream〉在人工智慧的處理生成後創造的音樂,有點接近環境音樂(Ambient)的風格。

 

 

 

除了Google與Meta,微軟則是正在致力於一個人工智慧音樂的龐大研究項目:“Muzic”研究人員的工作範圍從人工智慧以文本到生成音樂、生成歌詞、歌詞和旋律同時生成、歌曲綜合創作等等。 據微軟表示,“Muzic”是一個人工智慧音樂項目,透過深度學習和人工智慧增強音樂理解和生成能力。

在下圖可看到微軟的人工智慧如何對文字指令理解然後生成音樂:

 

 

然而,成立於2019年的Muzic只是微軟亞洲研究院(MSR Asia)的“深度與強化學習組”下的項目之一。MSR Asia成立於1998年,在微軟長期策略和未來運算願景的核心領域、進行基礎和應用研究。除了人工智慧音樂研究外,還在進行基於神經網絡的文本轉語音模型、神經元機器翻譯等項目。“Muzic”已經在人工智慧音樂領域至今已經做出了相當多的作品。其中幾項突出的範疇像是DeepRapper(AI饒舌說唱生成器)、Singing Voice Synthesis歌聲合成、與MuseCoCo(Music Composition Copilot)。

 

2021年,Muzic研究人員開發了一款人工智慧驅動的“說唱生成器”,名為DeepRapper。除了概述基於文本模型的開發和實驗,聲稱DeepRapper是第一個能生成帶有韻律和節奏的說唱的 AI 系統。

 

DeepRapper能夠產生富有創意且高品質的說唱音樂。研究人員為了建構DeepRapper系統,由於沒有可供使用的、具有節奏與節拍的說唱數據庫,他們開發了所謂的「以數據挖掘流程來收集大量的說唱歌曲」,其中包括大量的說唱歌曲裡的歌詞和節奏。其次,他們設計了一種所謂自然回歸的語言模型,仔細地針對押韻和節奏建模。為了挖掘大規模的說唱數據庫,先從網路上抓取大量帶有歌詞和演唱音樂的說唱歌曲。

 

 

眾所周知,生成式AI模型是根據大量數據進行訓練的,這些數據通常是從網路上蒐集而來的。由於受版權保護音樂的AI模型存在侵權風險,有趣的是,微軟團隊坦誠地解釋了DeepRapper的數據是如何獲得的,微軟擁有一項美國專利,該專利是與DeepRapper不同、完全獨立的工具,用於“語音合成參與式押韻聊天機器人”( “Voice Synthesized Participatory Rhyming Chat Bot”)。 這種“說唱機器人”技術是由位於美國的另一組微軟研究人員發明的。該專利於2021年4月獲得授權。該聊天機器人有一系列不同用途,例如它“可支援說唱 Battles”和“以社交方式參與音樂創作過程”。

 

看起來,音樂產業源頭創作端的似乎門檻愈來愈低,人人都能創作音樂歌曲、參與音樂並且成為音樂的一部分,聽來是件美事一樁,當然在音質的追求上、音色的開發、與樂手演奏和歌曲演唱的靈魂等部分,依舊有人工智慧尚未企及之處,不過今年以來,AI宣告著的「巨量生成」是否意味著質變與量變帶來更迅速的衝擊?當串流平台上AI生成的歌曲多過真人的創作時、會對版稅分潤計算方式造成什麼影響?我們真的需要這麼多的音樂嗎?人類歷史上對於「供過於求」的事物是怎麼對待的?這的確值得我們深思。