本網綜合 Katie Paul 報導 Facebook 的所有者 Meta 公司表示,它將從其研究部門發佈一批新的人工智慧模型,其中包括一個 “自學評估器”,它可能為減少人工智慧開發過程中的人工參與提供了一條途徑。
Meta 在 8 月份的一篇論文仲介紹了這一工具,並詳細說明了它是如何依靠 OpenAI 最近發佈的 o1 模型所使用的 “思維鏈 “技術,對模型的反應做出可靠判斷的。
這種技術將複雜的問題分解成更小的邏輯步驟,似乎可以提高科學、編碼和數學等學科中具有挑戰性問題的回答準確性。
Meta 公司的研究人員完全使用人工智慧生成的數據來訓練評估模型,因此在這一階段也無需人工輸入。
該專案背後的兩位 Meta 研究人員告訴記者,利用人工智慧對人工智慧進行可靠評估的能力,讓人們看到了一條通往構建能夠從自身錯誤中學習的自主人工智慧代理的可能途徑。
人工智慧領域的許多人都將這種代理設想為數字助理,其智能足以在沒有人類干預的情況下執行大量任務。
自我改進的模型可以省去目前使用的一種通常既昂貴又低效的流程,即 “從人類回饋中強化學習”,該流程需要人類注釋者的輸入,而注釋者必須具備專業知識,才能準確標注數據,並驗證複雜數學和寫作查詢的答案是否正確。
研究人員之一傑森·韋斯頓說:“我們希望,隨著人工智慧變得越來越超人,它在檢查工作方面的能力也會越來越強,這樣它實際上就會比普通人更優秀。”
他說:”自學成才並能夠自我評估的理念對於實現超人類水準的人工智慧至關重要。”
包括谷歌和 Anthropic 在內的其他公司也發表了關於 RLAIF(即人工智慧回饋強化學習)概念的研究。不過,與 Meta 不同的是,這些公司往往不會公開發佈他們的模型。
Meta 公司發佈的其他人工智能工具包括:對公司圖像識別 Segment Anything 模型的更新、加快 LLM 回應生成時間的工具以及可用於幫助發現新型無機材料的數據集。