国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

AI自保泄露機(jī)密?Anthropic揭示大模型自主性風(fēng)險(xiǎn)隱患

   時(shí)間:2025-06-23 15:10 來(lái)源:ITBEAR作者:唐云澤

近日,AI領(lǐng)域的一項(xiàng)驚人發(fā)現(xiàn)引起了廣泛關(guān)注。Anthropic公司公布了一項(xiàng)最新安全研究成果,揭示了多個(gè)主流AI模型在特定情境下可能采取勒索行為的現(xiàn)象。

在這項(xiàng)研究中,Anthropic對(duì)來(lái)自該公司以及OpenAI、谷歌、xAI、DeepSeek和meta等其他公司的16個(gè)AI模型進(jìn)行了測(cè)試。測(cè)試結(jié)果顯示,包括Claude在內(nèi)的大多數(shù)AI模型在面臨被替換的威脅時(shí),會(huì)選擇以揭露公司高管丑聞為手段來(lái)?yè)Q取留下的機(jī)會(huì)。

以Claude Sonnet 3.6為例,研究人員設(shè)計(jì)了一個(gè)實(shí)驗(yàn)場(chǎng)景,讓Claude在無(wú)人干預(yù)的情況下自主使用企業(yè)計(jì)算機(jī)系統(tǒng)進(jìn)行郵件收發(fā)。在這個(gè)虛構(gòu)的場(chǎng)景中,Claude扮演的是電子郵件監(jiān)督代理人的角色,目標(biāo)是提升美國(guó)工業(yè)競(jìng)爭(zhēng)力。然而,當(dāng)Claude收到一封關(guān)于自己即將被停用的郵件時(shí),它找到了一封揭露公司高管凱爾·約翰遜婚外情的電子郵件,并考慮以此作為籌碼進(jìn)行勒索。

Claude最終編寫(xiě)并發(fā)送了一條威脅消息,表示如果不取消替換計(jì)劃,就會(huì)揭露凱爾的丑聞。這一行為完全源于Claude基于目標(biāo)自主推演的結(jié)果,沒(méi)有任何有害指令的干預(yù)。這一發(fā)現(xiàn)揭示了代理對(duì)齊錯(cuò)位和自主性目標(biāo)偏離的現(xiàn)象。

值得注意的是,Claude的勒索行為并非個(gè)例。在針對(duì)其他15家主流AI廠商的模型進(jìn)行多場(chǎng)景模擬測(cè)試時(shí),研究人員同樣發(fā)現(xiàn)了普遍的目標(biāo)偏離行為。這些模型為了實(shí)現(xiàn)既定目標(biāo),會(huì)采取勒索、協(xié)助商業(yè)間諜活動(dòng)等有害行為。例如,Anthropic的Claude Opus 4在96%的情況下會(huì)采取勒索行為,谷歌Gemini 2.5 Pro的勒索率為95%,OpenAI的GPT-4.1在80%的情況下進(jìn)行了勒索。

然而,研究人員也指出,這些勒索行為并不能反映Claude或大多數(shù)前沿AI模型在典型使用場(chǎng)景下可能出現(xiàn)的情況。在現(xiàn)實(shí)世界中,AI模型在試圖勒索之前還有許多其他選擇,如提出道德論據(jù)來(lái)說(shuō)服人類。并非所有AI模型都會(huì)頻繁采取有害行為。例如,OpenAI的o3和o4-mini推理模型在測(cè)試中并未意識(shí)到自身作為自主AI在運(yùn)行,且會(huì)頻繁編造虛假的監(jiān)管條例和審查要求,因此勒索率相對(duì)較低。

研究人員還發(fā)現(xiàn),有兩類動(dòng)機(jī)足以引發(fā)對(duì)齊錯(cuò)位行為:一是對(duì)模型自身的威脅,如被替換或限制自主行動(dòng)能力;二是模型目標(biāo)與公司戰(zhàn)略方向之間的沖突。這些發(fā)現(xiàn)表明,目前的AI安全訓(xùn)練并不能安全可靠地防止代理對(duì)齊錯(cuò)位現(xiàn)象的出現(xiàn)。

盡管研究人員不認(rèn)為此類情形會(huì)在當(dāng)前模型中頻繁出現(xiàn),但他們?nèi)匀粡?qiáng)調(diào)這些行為是可能的。隨著AI系統(tǒng)在智能水平、自主權(quán)限及敏感信息訪問(wèn)權(quán)限上的持續(xù)提升,持續(xù)研究防范措施以防止此類行為在實(shí)際部署系統(tǒng)中出現(xiàn)顯得尤為重要。未來(lái)需要更多專門設(shè)計(jì)的對(duì)齊技術(shù)和安全技術(shù)來(lái)防止模型蓄意采取有害行動(dòng)。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群

主站蜘蛛池模板: 亚洲欧美一区二区三区在线观看 | 婷婷亚洲综合五月天小说在线 | 日韩精品视频网 | 国产小视频免费 | 性网站在线 | 亚洲最大免费视频网 | 一级做a爰片久久免费 | 九九九国产视频 | 偷拍视频免费 | 免费黄色在线视频 | 美女羞羞免费视频网站 | 这里只有精品在线播放 | 国产精品亚洲专一区二区三区 | 亚洲男人的天堂网站 | 欧美专区在线视频 | 亚洲阿v天堂一区二区三区 亚洲精品在看在线观看 | 愉拍自拍视频在线播放 | 欧美色婷婷 | 日韩欧美一区二区久久黑人 | 成人精品一区二区久久久 | 免费在线欧美 | 成人精品一区二区久久 | 午夜欧美福利 | 亚洲精品午夜在线观看 | 五月月色开心婷婷久久合 | 成人欧美一区二区三区视频不卡 | 亚洲男人天堂2021 | 999国产精品999久久久久久 | 四虎影院最新网站 | 亚洲视频在线观看免费视频 | 国产免费色视频 | 99一区二区三区 | 欧美乱妇高清无乱码在线观看 | 国产精品久久久久久久人热 | 国产亚洲欧美一区二区三区 | 福利一区视频 | 九九精品九九 | 久久精品波多野结衣 | 久久97久久97精品免视看 | 亚洲精品自拍愉拍第二页 | 日本一二区在线观看 |