音樂興發現｜AI助披頭四發新歌曲！科技巨頭推AI技術讓音樂創作更簡單

作者：袁永興

當今年六月底保羅·麥卡尼（Paul McCartney）宣布、透過人工智慧將在2023年發行披頭四樂團（The Beatles）的最新歌曲，迅速帶起樂壇一陣騷動、進而引起關於AI使用的辯論。根據Billboard報導，保羅強調，歌裡頭沒有任何東西是人造加工或合成創造的，一切都是真實的聲音，這個過程已經持續探索了很多年。正如他在今年6月13日播出的BBC廣播節目受訪中解釋的那樣，人工智慧將用於把人聲軌道與背景噪音和樂器分開，而不是創建新的素材。他一直在使用AI、試著從舊的錄音中“提取”已故樂隊成員約翰·藍儂（John Lennon）的聲音，以便在尚未命名的歌曲中使用。

2023年可以說是AI迅速而猛烈地進到一般大眾眼簾的一年，相關概念的股票被追捧，各個領域對於如何使用、以及隨之而來的法務與版權可能遭受的疑慮進行討論，音樂產業面對的情況則顯得更加複雜與嚴峻。

最近Facebook母公司Meta研究人員開發了一個、名為MusicGen的AI文本轉製音樂生成器。Meta的基礎人工智能研究團隊將這款語言模型描述為「一個簡單且可控的音樂生成模型」，它可以接收文本提示，例如打上輸入「快節奏的民謠音樂」或「具有動聽旋律的流行舞曲」，並將其轉換為全新的12秒音樂片段。該模型作為開源發布，還可以使用旋律提示來生成新音樂。

筆者試了幾次、無論以自己哼唱的旋律（10秒以內）、或是擷取部分樂句然後輸入像是「八零年代重金屬的吉他搭配電子合成器」或是「88 bpm的Disco曲風加上弦樂」，MusicGen大多能在一到兩分鐘內、生成一段完整的音樂編曲，如果用作為Demo的參考使用，幫助確實很大。與 Riffusion、Mousai、MusicLM和Noise2Music等其他音樂模型相比，MusicGen在測試音樂與旋律的混搭匹配程度、以及作曲的完整度上、確實表現更好。

至於Google的MusicLM，則表明這是一種“實驗性人工智慧”工具，可以根據文本提示和哼唱生成高傳真音樂，並於今年五月正式公開發布。好比透過MusicLM、輸入諸如“晚宴上的搖擺爵士樂”之類的提示來運作。然後，MusicLM將為輸入提示的人、創建兩個版本的歌曲。Google的模型採用了 500 萬個聲音片段的訓練，總計 280,000 小時的24 kHz音樂。

MusicLM還有個特別的功能，除了輸入文字之外，輸入圖檔也能生成音樂，官網上就可以看到達利（Salvador Dalí）的名畫〈The Persistence of Memory〉以及孟克（Edvard Munch）的〈吶喊The Scream〉在人工智慧的處理生成後創造的音樂，有點接近環境音樂（Ambient）的風格。

除了Google與Meta，微軟則是正在致力於一個人工智慧音樂的龐大研究項目：“Muzic”。研究人員的工作範圍從人工智慧以文本到生成音樂、生成歌詞、歌詞和旋律同時生成、歌曲綜合創作等等。據微軟表示，“Muzic”是一個人工智慧音樂項目，透過深度學習和人工智慧增強音樂理解和生成能力。

在下圖可看到微軟的人工智慧如何對文字指令理解然後生成音樂：

然而，成立於2019年的Muzic只是微軟亞洲研究院（MSR Asia）的“深度與強化學習組”下的項目之一。MSR Asia成立於1998年，在微軟長期策略和未來運算願景的核心領域、進行基礎和應用研究。除了人工智慧音樂研究外，還在進行基於神經網絡的文本轉語音模型、神經元機器翻譯等項目。“Muzic”已經在人工智慧音樂領域至今已經做出了相當多的作品。其中幾項突出的範疇像是DeepRapper（AI饒舌說唱生成器）、Singing Voice Synthesis歌聲合成、與MuseCoCo（Music Composition Copilot）。

2021年，Muzic研究人員開發了一款人工智慧驅動的“說唱生成器”，名為DeepRapper。除了概述基於文本模型的開發和實驗，聲稱DeepRapper是第一個能生成帶有韻律和節奏的說唱的 AI 系統。

DeepRapper能夠產生富有創意且高品質的說唱音樂。研究人員為了建構DeepRapper系統，由於沒有可供使用的、具有節奏與節拍的說唱數據庫，他們開發了所謂的「以數據挖掘流程來收集大量的說唱歌曲」，其中包括大量的說唱歌曲裡的歌詞和節奏。其次，他們設計了一種所謂自然回歸的語言模型，仔細地針對押韻和節奏建模。為了挖掘大規模的說唱數據庫，先從網路上抓取大量帶有歌詞和演唱音樂的說唱歌曲。

眾所周知，生成式AI模型是根據大量數據進行訓練的，這些數據通常是從網路上蒐集而來的。由於受版權保護音樂的AI模型存在侵權風險，有趣的是，微軟團隊坦誠地解釋了DeepRapper的數據是如何獲得的，微軟擁有一項美國專利，該專利是與DeepRapper不同、完全獨立的工具，用於“語音合成參與式押韻聊天機器人”（ “Voice Synthesized Participatory Rhyming Chat Bot”）。這種“說唱機器人”技術是由位於美國的另一組微軟研究人員發明的。該專利於2021年4月獲得授權。該聊天機器人有一系列不同用途，例如它“可支援說唱 Battles”和“以社交方式參與音樂創作過程”。

看起來，音樂產業源頭創作端的似乎門檻愈來愈低，人人都能創作音樂歌曲、參與音樂並且成為音樂的一部分，聽來是件美事一樁，當然在音質的追求上、音色的開發、與樂手演奏和歌曲演唱的靈魂等部分，依舊有人工智慧尚未企及之處，不過今年以來，AI宣告著的「巨量生成」是否意味著質變與量變帶來更迅速的衝擊？當串流平台上AI生成的歌曲多過真人的創作時、會對版稅分潤計算方式造成什麼影響？我們真的需要這麼多的音樂嗎？人類歷史上對於「供過於求」的事物是怎麼對待的？這的確值得我們深思。

其他文章

產業

Influence Media Partners公司以九位數的價格取得安立奎的姓名、肖像與所有曲庫管理權

2023.12.20(三)

產業

美國SXSW音樂節2025年將邁進倫敦

2024.05.09(四)

音樂

The Weeknd將於今年九月在巴西舉辦僅限一場的獨特演唱會

2024.07.20(六)