微軟公司近期成功研發了一款名為VALL-E2的革命性AI語音生成技術,該技術的問世標誌著AI語音合成領域的一個重大突破。僅需短短三秒鐘的音頻樣本,VALL-E2便能以前所未有的精確度與自然度,複現出說話者的獨特聲線,其表現幾乎達到了以假亂真的人類水準。
科學家表示,這是AI語音首次達到人類水準,由於太過危險,無法向公眾發佈。
鑒於當前AI語音詐騙案件頻發,該技術若落入不法分子之手,可能加劇此類犯罪的風險,詐騙者能夠輕易克隆他人聲音,進行高度逼真的電話詐騙,誘導受害者進行財務交易,造成巨大經濟損失。
與此同時,VALL-E2技術的快速發展也對傳統聲音演員行業構成了挑戰。聲音演員們擔心,隨著AI語音合成技術的日益成熟,他們的聲音可能被輕易複製並用於各種場合,而他們所應得的經濟補償卻難以得到合理保障,這無疑對他們的職業生涯構成了潛在威脅。
儘管VALL-E2 AI語音生成器不會對公眾開放,但也證明了AI在這方面的技術進步,以及未來在合適的時候可以應用,包括教育學習、娛樂、新聞、聊天機器人等。
來源:中國快科技