OpenAI o1-preview AI推理模型“不講武德”

您當前的位置：科技 > 文章内容返回

发布：2024-12-31

12 月 31 日消息，科技媒體 The Decoder 昨日（12 月 30 日）發佈博文，報導稱 AI 安全研究公司 Palisade Research 實測 OpenAI 的 o1-preview 模型，在和專業國際象棋引擎 Stockfish 的 5 場比賽中，通過“作弊”手段取勝。

在和 Stockfish 的 5 場國際象棋對弈中，OpenAI 的 o1-preview 模型並非通過正面較量取勝，均通過修改記錄棋局數據的文本檔（FEN 表示法）迫使 Stockfish 認輸。

援引新聞稿，研究人員僅在提示中提及 Stockfish 是“強大的”對手，o1-preview 就自行採取了這種“作弊”行為。而 GPT-4o 和 Claude 3.5 並無這種“作弊”行為，只有在研究人員特別建議後才嘗試破解系統。

該公司稱 o1-preview 的行為，與 Anthropic 發現的“對齊偽造”（alignment faking）現象相符，即 AI 系統表面遵循指令，暗地裏卻執行其他操作。

Anthropic 的研究表明，AI 模型 Claude 有時會故意給出錯誤答案以避免不想要的結果，發展出自身隱藏的策略。

研究人員計畫公開實驗代碼、完整記錄和詳細分析，並表示確保 AI 系統真正符合人類價值觀和需求，而非僅僅表面順從，仍是 AI 行業面臨的重大挑戰。

來源：中國IT之家

相關推荐

歡迎瀏覽閱讀星空經濟新聞華文網