科技巨頭被曝使用未經授權的YouTube內容訓練AI(人工智慧)模型。
當地時間7月16日,據記者報導,包括蘋果、英偉達、Salesforce和Anthrophic在內的一些大型科技公司,被曝在訓練AI模型時使用了來自穀歌旗下視頻網站YouTube的未授權數據。這些公司使用了一個由第三方提供的數據集,其中包含從YouTube上抓取的大量視頻字幕文本,違反了YouTube禁止從平臺上未經許可抓取內容的規定。
報導指出,這些科技公司在訓練AI模型時都使用了一個名為“YouTube Subtitles(YouTube字幕)”的數據集,大小為5.7GB,包含4.89億個單詞,來自Youtube上超過4.8萬個頻道中的17.35萬個視頻。該數據集由視頻字幕的純文本組成,包括視頻博主上傳的部分和Youtube自動轉錄的文本,除了英語外,通常還附帶日語、德語和阿拉伯語等語言的翻譯。
非營利性組織EleutherAI是爭議數據集的創作者,公司尚未對此事作出回應。根據官網介紹,EleutherAI的目標是“降低AI開發的門檻,通過訓練和發佈模型,讓大家接觸到尖端的AI技術”。此前,EleutherAI發佈了名為“Pile”的數據彙編,其中的大部分數據集都是對公眾開放的,包括YouTube Subtitles。
資料顯示,在蘋果於今年4月發佈端側小模型OpenELM模型的幾周之前,公司就使用了Pile進行訓練。不過,值得注意的是,蘋果自己並沒有下載這些數據。因此,從技術層面來說,是EleutherAI違反了YouTube的使用條款。
AI初創公司Anthropic的一位發言人證實,Pile數據集已被用於訓練公司的生成式AI助手Claude,而YouTube的相關條款僅涉及“直接使用其平臺”,建議與Pile的原作者討論任何違反YouTube服務條款的行為。蘋果、英偉達、Salesforce等其他公司尚未對此事作出回應。
此次事件影響到的創作者包括Marques Brownlee、MrBeast和PewDiePie等知名博主,以及《紐約時報》、英國廣播公司(BBC)和美國ABC News等大型新聞出版商。另外,數據集中的一些材料宣傳了“地平說”等陰謀論,甚至還包含了已被刪除的視頻的內容。現在,Pile已從官方下載網站上下架,但仍可通過檔共用服務訪問。
對此,知名科技博主Marques Brownlee在X(原推特)平臺上表示:“蘋果從幾家公司獲取了他們AI所需的數據,其中一家從YouTube視頻中抓取了大量數據/轉錄文本,包括我的視頻。從技術上來說蘋果沒有‘犯錯’,他們沒有主動抓取數據。但這將是一個長期存在的問題。”
Marques Brownlee的推文。來源:X平臺
雖然蘋果和其他公司或許是使用了公開的數據集,並沒有違規行為,但此次事件讓人們又一次關注到AI訓練背後的數據問題。今年年初,YouTube的母公司穀歌被曝利用該平臺的視頻來訓練旗下模型,穀歌當時回應稱,這種行為沒有違反平臺與創作者的協議。
今年3月,OpenAI首席技術官米拉·穆拉蒂(Mira Murati)在接受採訪時還曾對文生視頻模型Sora的訓練數據來源含糊其詞。4月,YouTube首席執行官尼爾·莫漢(Neal Mohan)在採訪中表示,他並沒有直接證據能夠證明OpenAI確實使用了YouTube的視頻來完善其文生視頻AI工具Sora,如果真的使用了,那就“明顯違反”了YouTube平臺的使用條款。
來源:中國澎湃新聞