以AI文本生成圖像聞名的Stability AI正式進入AI音樂領域

編譯：袁永興

以AI進行文本轉圖像生成器而聞名的Stability AI已進入AI音樂領域。這家總部位於倫敦的公司宣布推出“Stable Audio”AI音樂生成器，相當於音樂上的Stable Diffusion（圖像生成工具），去年該公司因此成為人工智慧獨角獸公司。新的文本轉音樂生成器的工作原理，同樣是以用戶輸入一系列的文字敘述並將其轉換為音樂。

其實一年前，Stability AI便發布了Dance Diffusion，該模型可以根據文本描述生成新的音樂與音效。這是Stability AI首次涉足生成音訊領域，它代表著該公司對AI音樂創作工具進行有意義的投資，而且展現出了濃厚的興趣。如今，在投資者要求將超過1億美元的資本轉化為創收產品的壓力下，Stability A重新大力投入音訊領域。

隨著Stable Audio的發布，Stability AI聲稱這是第一個能夠透過潛在擴散技術，創建用於商業用途的高質量44.1 Khz音樂的工具。所謂“潛在擴散AI架構”（Latent Diffusion Ai Architecture）是指一種特定的AI架構或技術，通常用於生成具有某種特定特質或特徵的數據、圖像或音訊。這種架構基於潛在變數（Latent Variables），而這些變數可被調整以生成不同的數據。這種方法通常用於創建具有高控性和真實感的合成音訊或圖像。

相比之前發布的音樂生成工具，Stable Audio經過音訊元數據以及音訊文件的持續時間，開始進行訓練的基礎模型大約有12億個參數，能對合成音訊的內容和長度進行更大程度的控制，不同於其它的聲音擴散模型在較長的音檔隨機裁剪區塊進行訓練。

好比輸入“後搖滾、吉他、鼓、貝斯、弦樂、輕快、振奮、流暢、原始、史詩、感傷、125 BPM”然後將這些文字敘述生成曲子。與其他一些AI產品不同的是，Stable Audio背後的AI演算是通過Stability AI和音樂庫Audiosparx之間的合作，針對授權許可的內容進行訓練。

Stability AI去年8月發布的Stable Diffusion產品已成為市場上最受歡迎的文本轉圖像生成器之一，截至去年10月，幫助推動Stability AI的市場估值達到10億美元。值得注意的是，Stability AI 聘請了Ed Newton-Rex，他創立了AI音樂製作平台Jukedeck，還曾擔任TikTok AI實驗室的產品總監，現在是Stability AI的音訊部副總裁。目前發布的生成音樂範例中，許多曲子聽來音質好、更加流暢、旋律優美，可與Meta的AudioCraft、Riffusion、OpenAI的Jukebox、Google的 MusicLM 等媲美。如果走在某個百貨或飯店大廳聽到播放這樣的AI音樂，甚至可能不會認為被是AI所創造。

Ed Newton-Rex認為，AI給音樂產業帶來的主要好處是為權利持有者增加價值，當你擁有AI時，你寫的或你擁有的音樂會變得更有價值，它不再只是一件靜態的東西，它可以不斷被修改。因此，作品可以藉由AI因應不同的要求快速作修正，也可以改變樂器好在影片中獲得精準的情緒，或是改變風格以適應某些全新的東西。有些人意識到生成式AI可以為音樂業務帶來機遇，因為人工智能不僅具有生成性，而且還有適應性。

在Stable Audio服務協議條款中，Stability AI明確表示將保留客戶在該工具上的活動等數據用於多種目的的權利，包括開發未來的模型和服務。

資料來源:◎ Tech Crunch + MusicAlly + Music Business Worldwide

立刻加入北流Line@ 訂閱北流電子報

其他文章

音樂

第35屆金曲獎特別貢獻獎劉清池、鄭華娟介紹

2024.06.29(六)

產業

索尼音樂與華納音樂陸續公布今年第一季財報

2024.05.14(二)

產業

鐵粉平台Fave從華納音樂、索尼音樂等公司籌集到200萬美元策略資金

2023.10.26(四)