涉17萬個視頻！英偉達等巨頭被曝違規使用YouTube數據訓練模型

ZH-CN

English

没有结果

查看所有结果

没有结果

查看所有结果

您當前的位置：新聞資訊 > 文章内容返回

涉17萬個視頻！英偉達等巨頭被曝違規使用YouTube數據訓練模型

发布：2024-07-17

科技巨頭被曝使用未經授權的YouTube內容訓練AI（人工智慧）模型。

當地時間7月16日，據記者報導，包括蘋果、英偉達、Salesforce和Anthrophic在內的一些大型科技公司，被曝在訓練AI模型時使用了來自穀歌旗下視頻網站YouTube的未授權數據。這些公司使用了一個由第三方提供的數據集，其中包含從YouTube上抓取的大量視頻字幕文本，違反了YouTube禁止從平臺上未經許可抓取內容的規定。

報導指出，這些科技公司在訓練AI模型時都使用了一個名為“YouTube Subtitles（YouTube字幕）”的數據集，大小為5.7GB，包含4.89億個單詞，來自Youtube上超過4.8萬個頻道中的17.35萬個視頻。該數據集由視頻字幕的純文本組成，包括視頻博主上傳的部分和Youtube自動轉錄的文本，除了英語外，通常還附帶日語、德語和阿拉伯語等語言的翻譯。

非營利性組織EleutherAI是爭議數據集的創作者，公司尚未對此事作出回應。根據官網介紹，EleutherAI的目標是“降低AI開發的門檻，通過訓練和發佈模型，讓大家接觸到尖端的AI技術”。此前，EleutherAI發佈了名為“Pile”的數據彙編，其中的大部分數據集都是對公眾開放的，包括YouTube Subtitles。

資料顯示，在蘋果於今年4月發佈端側小模型OpenELM模型的幾周之前，公司就使用了Pile進行訓練。不過，值得注意的是，蘋果自己並沒有下載這些數據。因此，從技術層面來說，是EleutherAI違反了YouTube的使用條款。

AI初創公司Anthropic的一位發言人證實，Pile數據集已被用於訓練公司的生成式AI助手Claude，而YouTube的相關條款僅涉及“直接使用其平臺”，建議與Pile的原作者討論任何違反YouTube服務條款的行為。蘋果、英偉達、Salesforce等其他公司尚未對此事作出回應。

此次事件影響到的創作者包括Marques Brownlee、MrBeast和PewDiePie等知名博主，以及《紐約時報》、英國廣播公司（BBC）和美國ABC News等大型新聞出版商。另外，數據集中的一些材料宣傳了“地平說”等陰謀論，甚至還包含了已被刪除的視頻的內容。現在，Pile已從官方下載網站上下架，但仍可通過檔共用服務訪問。

對此，知名科技博主Marques Brownlee在X（原推特）平臺上表示：“蘋果從幾家公司獲取了他們AI所需的數據，其中一家從YouTube視頻中抓取了大量數據/轉錄文本，包括我的視頻。從技術上來說蘋果沒有‘犯錯’，他們沒有主動抓取數據。但這將是一個長期存在的問題。”

Marques Brownlee的推文。來源：X平臺

雖然蘋果和其他公司或許是使用了公開的數據集，並沒有違規行為，但此次事件讓人們又一次關注到AI訓練背後的數據問題。今年年初，YouTube的母公司穀歌被曝利用該平臺的視頻來訓練旗下模型，穀歌當時回應稱，這種行為沒有違反平臺與創作者的協議。

今年3月，OpenAI首席技術官米拉·穆拉蒂（Mira Murati）在接受採訪時還曾對文生視頻模型Sora的訓練數據來源含糊其詞。4月，YouTube首席執行官尼爾·莫漢（Neal Mohan）在採訪中表示，他並沒有直接證據能夠證明OpenAI確實使用了YouTube的視頻來完善其文生視頻AI工具Sora，如果真的使用了，那就“明顯違反”了YouTube平臺的使用條款。

來源：中國澎湃新聞

上一篇：勞動力短缺，德國勞工部部長喊話印度技術人員“留下”

下一篇：特朗普連任期望不斷升溫投資者紛紛押注“特朗普效應”