Meta 發(fā)布新 AI 模型:利用 AI 來(lái)評(píng)估 AI 的能力,無(wú)需人類參與
IT之家 10 月 19 日消息,據(jù)路透社報(bào)道,Meta 當(dāng)?shù)貢r(shí)間周五宣布,其研究團(tuán)隊(duì)推出了一系列新的 AI 模型,其中包括一個(gè)名為“自我訓(xùn)練評(píng)估器”的工具。該工具有望推動(dòng) AI 開(kāi)發(fā)過(guò)程中減少對(duì)人類干預(yù)的依賴。這個(gè)工具早前在 8 月的論文中首次亮相,其使用與 OpenAI 新發(fā)布的 o1 模型類似的“思維鏈”技術(shù),讓 AI 對(duì)模型的輸出做出可靠判斷。
這種技術(shù)將復(fù)雜問(wèn)題分解為多個(gè)邏輯步驟,從而提高了在科學(xué)、編程和數(shù)學(xué)等高難度領(lǐng)域中的答案準(zhǔn)確性。Meta 的研究人員使用完全由 AI 生成的數(shù)據(jù)來(lái)訓(xùn)練這個(gè)評(píng)估器,從而在這一過(guò)程中完全摒棄了人類的參與。
使用 AI 來(lái)評(píng)估 AI 的能力展示了實(shí)現(xiàn)自主 AI 智能體的可能性,這類代理能夠從自身錯(cuò)誤中學(xué)習(xí)。兩位負(fù)責(zé)該項(xiàng)目的 Meta 研究人員表示,許多 AI 專家設(shè)想未來(lái)可以開(kāi)發(fā)出“智能化程度極高”的數(shù)字助手,可以自主處理大量任務(wù),而無(wú)需人類介入。
自我改進(jìn)的模型有望減少目前使用的“基于人類反饋的強(qiáng)化學(xué)習(xí)”(RLHF)過(guò)程的需求。這一過(guò)程往往昂貴且低效,因?yàn)樗蕾囉趽碛袑I(yè)知識(shí)的人類來(lái)標(biāo)注數(shù)據(jù)和驗(yàn)證復(fù)雜問(wèn)題的答案是否正確。
“我們希望,隨著 AI 的發(fā)展,它能超越人類,逐漸具備自行檢查工作的能力,并在準(zhǔn)確性上超過(guò)普通人類水平,”項(xiàng)目研究員之一 Jason Weston 說(shuō)。“自我訓(xùn)練和評(píng)估的能力是實(shí)現(xiàn)超人級(jí) AI 的關(guān)鍵因素之一。”他補(bǔ)充道。
IT之家從報(bào)道中獲悉,包括谷歌和 Anthropic 在內(nèi)的其他科技公司也在研究 RLAIF(基于 AI 反饋的強(qiáng)化學(xué)習(xí))這一概念,但與 Meta 不同,這些公司通常不會(huì)公開(kāi)發(fā)布其研究模型。
Meta 此次發(fā)布的其他 AI 工具還包括對(duì)其圖像識(shí)別模型“Segment Anything”的更新,一個(gè)加速大語(yǔ)言模型響應(yīng)時(shí)間的工具,以及一些有助于發(fā)現(xiàn)新型無(wú)機(jī)材料的數(shù)據(jù)集。