国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

Anthropic“憲法分類器”能否有效管住大型語言模型的“嘴”?

   時間:2025-02-05 12:01 來源:ITBEAR作者:顧雨柔

近日,人工智能領(lǐng)域迎來了一項新的安全創(chuàng)新。為了應(yīng)對人工智能工具濫用自然語言提示的問題,OpenAI的競爭對手Anthropic推出了一項名為“憲法分類器”的全新概念。這一創(chuàng)新方法旨在將一套類似人類價值觀的規(guī)則(形象地比喻為一部“憲法”)嵌入大型語言模型中。

據(jù)悉,Anthropic的安全保障研究團隊在一篇最新的學(xué)術(shù)論文中詳細闡述了這一安全措施。該措施的主要目標(biāo)是減少其最新、最先進的大型語言模型Claude 3.5 Sonnet的“越獄”行為,即生成超出既定安全防護范圍的輸出內(nèi)容。實驗結(jié)果顯示,在實施憲法分類器后,Claude模型的越獄成功率顯著降低了81.6%,而該系統(tǒng)對模型性能的影響微乎其微,生產(chǎn)流量拒絕率僅絕對增加了0.38%,推理開銷增加了23.7%。

隨著大型語言模型的應(yīng)用日益廣泛,生成有害內(nèi)容的風(fēng)險也日益凸顯。Anthropic及其同行如OpenAI等,對化學(xué)、生物、放射和核(CBRN)相關(guān)內(nèi)容的風(fēng)險尤為關(guān)注。例如,這些模型可能會提供制造有害化學(xué)制劑的指導(dǎo)。為了驗證憲法分類器的有效性,Anthropic發(fā)起了一項挑戰(zhàn),邀請用戶嘗試突破8個與CBRN內(nèi)容相關(guān)的越獄關(guān)卡。然而,這一舉措也引發(fā)了一些爭議,有批評者認為這是在利用社區(qū)資源為閉源模型的安全測試做貢獻。

針對這些爭議,Anthropic進行了解釋。他們指出,成功的越獄行為是繞過了憲法分類器,而非直接規(guī)避。他們列舉了兩種常見的越獄方法:一種是良性釋義,即通過改變表述方式繞過敏感內(nèi)容;另一種是長度利用,即通過添加無關(guān)細節(jié)來迷惑模型。同時,Anthropic也承認,在測試期間,一些提示因誤報或漏報而被錯誤地拒絕,拒絕率較高。

Anthropic進一步補充說,盡管已知對沒有憲法分類器的模型有效的越獄方法在這一防御措施下并未成功,但他們?nèi)栽诓粩喔倪M和完善這一系統(tǒng)。他們認識到,基于規(guī)則的測試系統(tǒng)存在局限性,并致力于提高系統(tǒng)的準(zhǔn)確性和可靠性。這一創(chuàng)新不僅為大型語言模型的安全性提供了新的解決方案,也為人工智能領(lǐng)域的未來發(fā)展開辟了新的方向。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群

主站蜘蛛池模板: 中文字幕 亚洲精品 | 亚洲国产欧美日韩精品一区二区三区 | 亚洲福利电影一区二区? | 亚洲精品福利视频 | 亚洲国产精品视频 | 中国国产成人精品久久 | 亚洲小视频在线观看 | 亚洲日韩欧美一区二区在线 | 亚洲男人天堂av | 羞羞的视频免费观看 | 免费大学生国产在线观看p 亚洲欧美自拍偷拍 | 自拍偷拍免费视频 | 激情网站在线观看 | 在线色网站 | 成人欧美精品一区二区不卡 | 欧美激情精品久久久久久久九九九 | 国产精品高清视亚洲乱码 | 中文字幕第一页国产 | 亚洲第一成人在线 | 第一福利视频网 | 一级毛片片 | 99爱在线观看精品视频 | 欧美日韩国产亚洲一区二区三区 | 亚洲黄色小视频 | 最全粤语电影电视剧的app | 九一网站免费看nba 九九影音 | 水蜜桃视频在线观看免费 | 精品国产免费久久久久久 | 亚洲精品第一 | 久久久久国产精品免费看 | 中文国产成人精品久久水 | 一区二区三区久久精品 | 亚亚洲乱码一二三四区 | 丁香花在线高清免费观看 | 久久六月丁香婷婷婷 | 久久久久国产精品 | 国色天香论坛社区在线视频 | 四虎精品成人免费观看 | 午夜小视频免费观看 | 国产在线视频资源 | 日韩欧美亚洲国产一区二区三区 |