12 月 31 日消息,科技媒體 The Decoder 昨日(12 月 30 日)發佈博文,報導稱 AI 安全研究公司 Palisade Research 實測 OpenAI 的 o1-preview 模型,在和專業國際象棋引擎 Stockfish 的 5 場比賽中,通過“作弊”手段取勝。
在和 Stockfish 的 5 場國際象棋對弈中,OpenAI 的 o1-preview 模型並非通過正面較量取勝,均通過修改記錄棋局數據的文本檔(FEN 表示法)迫使 Stockfish 認輸。
援引新聞稿,研究人員僅在提示中提及 Stockfish 是“強大的”對手,o1-preview 就自行採取了這種“作弊”行為。而 GPT-4o 和 Claude 3.5 並無這種“作弊”行為,只有在研究人員特別建議後才嘗試破解系統。
該公司稱 o1-preview 的行為,與 Anthropic 發現的“對齊偽造”(alignment faking)現象相符,即 AI 系統表面遵循指令,暗地裏卻執行其他操作。
Anthropic 的研究表明,AI 模型 Claude 有時會故意給出錯誤答案以避免不想要的結果,發展出自身隱藏的策略。
研究人員計畫公開實驗代碼、完整記錄和詳細分析,並表示確保 AI 系統真正符合人類價值觀和需求,而非僅僅表面順從,仍是 AI 行業面臨的重大挑戰。
來源:中國IT之家