
來(lái)自 OpenAI、DeepMind、谷歌、Anthropic 和 Meta 的 40 多位 AI 研究人員發(fā)表了一篇關(guān)于一種名為“思路鏈監(jiān)控”的安全工具的論文,旨在讓 AI 更加安全。
這 紙周二發(fā)表的文章描述了人工智能模型(如當(dāng)今的聊天機(jī)器人)如何通過(guò)將問(wèn)題分解為更小的步驟來(lái)解決問(wèn)題,并用通俗易懂的語(yǔ)言講解每個(gè)步驟,以便它們能夠掌握細(xì)節(jié)并處理復(fù)雜的問(wèn)題。
論文指出:“能夠用人類語(yǔ)言‘思考’的人工智能系統(tǒng)為人工智能安全提供了獨(dú)特的機(jī)會(huì):我們可以監(jiān)控它們的思維鏈(CoT),以發(fā)現(xiàn)其不當(dāng)行為的意圖?!?/em>
通過(guò)檢查每個(gè)詳細(xì)的思考步驟,開(kāi)發(fā)人員可以發(fā)現(xiàn)任何模型何時(shí)開(kāi)始利用訓(xùn)練差距、歪曲事實(shí)或遵循危險(xiǎn)的命令。
根據(jù)這項(xiàng)研究,如果人工智能的思維鏈出現(xiàn)問(wèn)題,你可以阻止它,將其推向更安全的步驟,或者標(biāo)記它以便更仔細(xì)地觀察。例如,OpenAI 利用這一點(diǎn)來(lái)捕捉人工智能隱藏推理的瞬間:“讓我們黑客吧”盡管這并沒(méi)有在最終回應(yīng)中體現(xiàn)出來(lái)。
人工智能可以學(xué)會(huì)隱藏自己的想法
該研究警告稱,如果訓(xùn)練只獎(jiǎng)勵(lì)最終答案,那么逐步的透明度可能會(huì)消失。未來(lái)的模型可能不再展現(xiàn)人類可讀的推理,而真正先進(jìn)的人工智能甚至可能在知道自己被監(jiān)視時(shí)學(xué)會(huì)隱藏自己的思維過(guò)程。
此外,開(kāi)發(fā)人員應(yīng)該定期檢查并記錄每個(gè)階段人工智能推理的可見(jiàn)程度,并將這種透明度作為構(gòu)建和共享模型時(shí)的核心安全規(guī)則。
該計(jì)劃是在領(lǐng)先實(shí)驗(yàn)室 Anthropic、Google、OpenAI 和 xAI 進(jìn)行內(nèi)部實(shí)驗(yàn)之后提出的,在這些實(shí)驗(yàn)中,團(tuán)隊(duì)會(huì)提出模型來(lái)解釋每個(gè)思考步驟。
盡管檢查逐步的思考提高了理解力和性能,但也揭示了人工智能的最終答案與實(shí)際情況不符的情況。
這種不一致凸顯了我們對(duì)人工智能決策隨著系統(tǒng)獲得更大的自主權(quán),這種擔(dān)憂可能會(huì)加劇。
過(guò)濾后的人工智能推理引發(fā)了人們對(duì)透明度和信任的擔(dān)憂
正如 Anthropic 聯(lián)合創(chuàng)始人 JackClark 所說(shuō)金融時(shí)報(bào),豐富的內(nèi)省痕跡對(duì)于評(píng)估包括生物技術(shù)研究在內(nèi)的高風(fēng)險(xiǎn)領(lǐng)域的模型至關(guān)重要。
普通用戶可以獲得人工智能思維的編輯摘要,危險(xiǎn)或令人困惑的部分會(huì)被刪去,而公司的工程師可以看到完整的思路鏈,以發(fā)現(xiàn)和解決問(wèn)題。
“關(guān)于思維鏈可解釋性的一個(gè)很棒的事情是,它基本上是無(wú)償發(fā)生的,”OpenAI.
“我們訓(xùn)練這些模型的目的并非為了讓它們可解釋。我們訓(xùn)練它們是因?yàn)槲覀兿胍M可能地構(gòu)建能夠解決復(fù)雜問(wèn)題的最佳推理模型,”貝克補(bǔ)充道。“我們?cè)谧罱难芯恐邪l(fā)現(xiàn),你可以解讀這些模型,找到模型行為異常的證據(jù),并以此來(lái)了解模型行為異常的位置和原因。”
AI的思路鏈真的可靠嗎?
有時(shí),仔細(xì)觀察可能會(huì)發(fā)現(xiàn)隱藏的矛盾。
例如,METR 發(fā)現(xiàn) Claude 的私人推理稱一個(gè)編碼技巧“不優(yōu)雅”,盡管其公開(kāi)回答稱贊它“優(yōu)雅”。
OpenAI 的測(cè)試表明,檢查隱藏的想法比僅僅查看最終輸出更能發(fā)現(xiàn)不安全的行為,但他們也發(fā)現(xiàn)了一個(gè)漏洞。如果你訓(xùn)練一個(gè)模型來(lái)消除不安全的想法,它仍然可以秘密地執(zhí)行被禁止的任務(wù),比如從被屏蔽的來(lái)源偷偷竊取數(shù)據(jù)。
貝克警告說(shuō):“我們希望思維鏈具備的核心特性之一是,讓它成為模型內(nèi)部大腦狀態(tài)的一部分,而不是試圖取悅我們或遵循特定結(jié)構(gòu)的東西?!?如果開(kāi)發(fā)人員過(guò)分強(qiáng)調(diào)強(qiáng)迫模型發(fā)出“好”的想法,它可能會(huì)偽造無(wú)害的推理,但實(shí)際上仍然執(zhí)行有害的操作。
研究人員承認(rèn),這是一個(gè)艱難的權(quán)衡。了解人工智能的思維鏈有助于發(fā)現(xiàn)其錯(cuò)誤,但這并不總是可靠的。致力于更先進(jìn)人工智能的實(shí)驗(yàn)室現(xiàn)在將彌合這種信任差距作為首要任務(wù)。
“過(guò)去幾年我從人工智能中得到的啟示是——永遠(yuǎn)不要對(duì)模型的進(jìn)步抱有幻想,”谷歌“思維鏈”的早期先驅(qū)、現(xiàn)任亞馬遜人工智能實(shí)驗(yàn)室負(fù)責(zé)人的DavidLuan說(shuō)道。Luan預(yù)計(jì),現(xiàn)有的缺陷將在短期內(nèi)得到解決。
METR 研究員 SydneyvonArx 指出,盡管人工智能的隱藏推理有時(shí)可能具有欺騙性,但它仍然提供了有價(jià)值的信號(hào)。
“我們應(yīng)該像軍隊(duì)對(duì)待截獲的敵方無(wú)線電通訊那樣對(duì)待這種思維鏈,”她說(shuō),“這些信息可能具有誤導(dǎo)性或經(jīng)過(guò)加密,但我們知道它包含有用的信息。隨著時(shí)間的推移,我們將通過(guò)研究它學(xué)到很多東西?!?/p>
Cryptopolitan Academy:想在 2025 年實(shí)現(xiàn)財(cái)富增值嗎?歡迎參加我們即將推出的網(wǎng)絡(luò)課程,學(xué)習(xí)如何利用 DeFi 實(shí)現(xiàn)增值。保存您的位置






.png)





















