zh-CN ZH-CN en EN
English
  • 首頁
  • 頭條新聞
  • 聚焦英國
  • 經濟觀察
    • 金融
    • 证券
    • 商业市场
    • 公司
    • 能源
    • 汽車
    • 科技
    • 醫藥
  • 全球連線
    • 軍事
    • 政治
    • 文体
  • 中國視野
  • 全球精英連線
  • 電子報紙
  • 新聞資訊
  • 旅遊
  • 英中投资
  • 深度· 言論
  • 視頻
  • 首頁
  • 頭條新聞
  • 聚焦英國
  • 經濟觀察
    • 金融
    • 证券
    • 商业市场
    • 公司
    • 能源
    • 汽車
    • 科技
    • 醫藥
  • 全球連線
    • 軍事
    • 政治
    • 文体
  • 中國視野
  • 全球精英連線
  • 電子報紙
  • 新聞資訊
  • 旅遊
  • 英中投资
  • 深度· 言論
  • 視頻
没有结果
查看所有结果
SKY ECONOMY NEWS
没有结果
查看所有结果
您當前的位置 : 科技 > 文章内容 返回
最新大模型被質疑訓練“刷分”,Meta承認有漏洞但否認作弊
发布:2025-04-08

科技巨頭Meta回應了對公司最新開源AI(人工智慧)模型Llama 4的質疑,否認該模型在訓練集中作弊“刷分”。

當地時間4月7日,Meta的生成式AI負責人Ahmad Al-Dahle在社交平臺上發佈了一篇長文,回應了對於Llama 4的質疑。Ahmad表示,由於Llama 4剛開發完就迅速發佈,所以模型“在不同服務中表現出了參差不齊的品質”,公司會儘快修復漏洞。同時,Ahmad否認了Llama 4在訓練集中作弊“刷分”的說法。

兩天前,4月5日,Meta推出了旗下最受歡迎的模型系列Llama的最新一代模型,包括較小模型Scout和標準模型Maverick這兩個版本。此外,Meta還展示了被稱為“迄今最強大、最智能”的模型Llama 4 Behemoth的預覽。

據介紹,Llama 4模型是Llama系列模型中首批採用混合專家(MoE)架構的模型,在多模態性能上表現出眾。其中,最先進的Llama 4 Behemoth的總參數高達2萬億,擔當了其他模型的“老師”;Scout和Maverick的活躍參數量為170億,Scout主要面向文檔摘要與大型代碼庫推理任務,Maverick則專注於多模態能力。

Meta一次性介紹三款Llama 4模型。來源:Meta

作為原生多模態模型,Llama 4採用了早期融合(Early Fusion)的技術,通過使用大量無標籤文本、圖片和視頻數據一起來預訓練模型,將文本和視覺token無縫整合到統一的模型框架中。此外,Llama 4在長文本能力上也取得了突破,Scout模型支持高達1000萬token的上下文窗口,Maverick模型則支持100萬token的上下文窗口。

不過,Llama 4一經發佈就遭到了質疑。Meta的發佈介面顯示,在評估代碼能力的LiveCodeBench測試集和大模型競技場(Chatbot Arena)中,Scout和Maverick都表現得很不錯。但許多開發者發現,這些模型在小型基準測試中的表現令人失望。

例如,有網友指出,在一項讓模型完成225項編程任務的名為aider polyglot的基準測試中,Llama 4 Maverick只取得了16%的成績,遠低於Gemini 2.5 Pro、Claude 3.7 Sonnet和DeepSeek -V3等規模相近的舊模型。

Llama 4 Maverick在小型測試集上成績不如人意。來源:X平臺

AI工程師和技術作家Andriy Burkov則在社交平臺X上指出,Meta稱Llama 4 Scout擁有1000萬token的上下文窗口,而這其實是一個“偽命題”:“實際上,不會有任何模型針對超過256000個token的提示詞進行訓練。如果你向它發送這麼多token,在大多數時候只會得到低質量的輸出。”

對於Llama 4令人失望的表現,一些開發者開始懷疑,為了在測試集中取得更好的成績,Meta為這些測試集製作了“特供版”Llama 4。例如,前Meta研究員、現任AI2(艾倫人工智慧研究所)的高級研究員Nathan Lambert在經過比較測試後指出,在大模型競技場中取得成績的Llama 4 Maverick與該公司公開發佈的版本不同,前者是“在對話性上進行了優化”的版本。

此外,就在Llama 4發佈的前幾天,在Meta工作了8年的AI研究主管Joelle Pineau宣佈離職。聯繫到Llama 4的表現,更加深了網友對於Llama 4“暗箱操作”的質疑。而在國內社交平臺上,也有自稱為Meta內部員工的網友稱“Llama 4的訓練存在嚴重問題”,自己已經向公司提交了離職申請,AI研究主管的離任也是出於同種原因。

這位網友表示:“經過反復訓練,其實內部模型的表現依然未能達到開源SOTA(指在研究任務中表現最好的模型),甚至與之相差甚遠。公司領導層建議將各個benchmark(基準)的測試集混合在post-training(後訓練)過程中,目的是希望能夠在各項指標上交差,拿出一個‘看起來可以’的結果。”

可以肯定的是,Llama 4的初始發佈並沒有給AI社區帶來巨大的積極反響。目前,面對進步迅速的中國AI模型,Meta急於穩住Llama系列在開源領域的領先地位。今年2月,阿裏通義千問(Qwen)系列模型的下載量已經達到了1.8億,累計衍生模型總數達到9萬個,衍生模型數超越Meta的Llama系列,成為了全球第一大開源模型系列。

7日當天,Meta(Nasdaq:META)股價漲2.28%,收於每股516.25美元,總市值1.31萬億美元。

來源:中國澎湃新聞

上一篇:首屆“中亞-歐盟”峰會舉行:聚焦關鍵原材料合作,建立戰略夥伴關係
下一篇:“雪龍”號凱旋!中國第41次南極考察隊主要任務完成
相關推荐
  • 中國核聚變裝置BEST專案建設取得關鍵突破
    链接阅读
  • 特斯拉2025年底推出第三代人形機器人 2026年開始量產
    链接阅读
  • 極米科技向港交所提交上市申請書,上半年淨利潤暴增2062%
    链接阅读
  • DeepSeek新模型降價:優化推理效率,API價格降超50%
    链接阅读
  • AI眼鏡元年:下一個智能終端,變得比手機更貼身
    链接阅读
  • 高德發佈鷹眼守護預警系統,實測重大異常事件預警準確率達90%
    链接阅读
  • 全球容量最大!中國超重力場大科學裝置核心設備正式啟動,可實現“時空壓縮”效應
    链接阅读
  • AI重構供應鏈:京東宣佈未來三年持續投入,構建萬億人工智慧生態
    链接阅读

歡迎瀏覽閱讀星空經濟新聞華文網

投稿郵件:
news@skyeconomymedia.com

法國政府上任數小時後辭職,加劇政治危機

2025-10-06

特朗普施壓結束加沙戰爭 納坦亞胡面臨極右翼反彈

右翼高市早苗有望成為日本首位女首相

隨著美聯儲重啟寬鬆政策,外國投資者可利用更便宜的美元對沖工具

特朗普干預後,加沙戰爭距離結束還有多遠?

2025-10-05

比特幣突破 12.5 萬美元創歷史新高

關於我們

星空經濟新聞華文網是一家專注於提供英中兩國最新資訊的新聞媒體,作為英中新聞分享的領導者,我們致力於打造一個全球化、多元化的新聞環境,旨在搭建東西方文化橋樑,連接同一星空下的每一處角落。

聯絡我們

編 輯 部:KINGTON UNITED KINGDOM HR5 3DJ
電子郵箱:skyeconomyandmediagroup@gmail.com

總编寄语

穿越天際,照亮世界,星空新聞,不負每一份關注。
友情:英國駐中國大使館 中國駐英國大使館 新華網 中國日報 鳳凰網 中國僑網 歐洲時報 俄羅斯龍報
没有结果
查看所有结果
  • 首頁
  • 頭條新聞
  • 聚焦英國
  • 經濟觀察
    • 金融
    • 证券
    • 商业市场
    • 公司
    • 能源
    • 汽車
    • 科技
    • 醫藥
  • 全球連線
    • 軍事
    • 政治
    • 文体
  • 中國視野
  • 全球精英連線
  • 電子報紙
  • 新聞資訊
  • 旅遊
  • 英中投资
  • 深度· 言論
  • 視頻

© 2023 SEMG.