11月26日訊,英偉達近日展示了其最新研發的人工智慧模型——Fugatto。
Fugatto是一款基於生成式Transformer架構的人工智慧模型,其完整版配備了25億個參數,並在由32個NVIDIA H100 Tensor Core GPU組成的NVIDIA DGX系統上進行了訓練。
這款模型的主要功能在於能夠修改和生成聲音效果,專為音樂、電影和視頻遊戲製作人設計,英偉達將其形象地稱為“聲音的瑞士軍刀”。
據NVIDIA應用音頻研究經理Rafael Valle透露,Fugatto的研發初衷是創建一個能夠像人類一樣理解和生成聲音的模型。
它支持多種音頻生成和轉換任務,是首個展示緊急屬性的基礎生成式AI模型,這得益於其各種訓練能力的交互以及組合自由格式指令的能力。
Fugatto的功能十分強大,能夠根據文本描述生成音效和音樂,例如將鋼琴演奏轉換成人聲歌唱,或改變錄音的口音和情緒。
對於音樂製作人而言,Fugatto可以幫助他們快速製作原型或編輯歌曲創意,嘗試不同的風格、聲音和樂器,同時添加效果並提高現有軌道的整體音頻品質。
廣告代理商則可以利用Fugatto快速定位多個地區或情況的現有廣告活動,將不同的口音和情感應用於畫外音。
視頻遊戲開發人員則可以使用該模型修改遊戲中預先錄製的素材,或根據文本說明和可選的音頻輸入動態創建新素材。
另外,Fugatto 的新穎性主要體現在以下方面:
首先,在推理過程中,該模型採用了稱為ComposableART的技術,能夠組合在訓練期間只能單獨看到的指令。
例如,通過組合提示,可以要求模型以法國口音說出帶有悲傷情緒的文本。
此外,該模型在指令之間進行插值的能力使用戶能夠對文本指令進行精細控制,如重音的沉重程度或悲傷的程度。
其次,Fugatto還能夠生成隨時間變化的聲音,NVIDIA將這一功能稱為時間插值。
例如,它可以模擬暴雨穿過區域的聲音,雷聲逐漸增強,然後慢慢消失在遠處。這一功能使用戶能夠精細地控制音景的演變方式。
最後,與大多數只能重現所接觸的訓練數據的模型不同,Fugatto允許用戶創建以前從未見過的音景。
例如,它可以模擬雷雨隨著鳥兒的歌聲緩和為黎明的場景。
總而言之,Fugatto憑藉其功能多樣性和創新性,在音頻領域具有廣闊的發展空間。
來源:中國快科技