国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領先的互聯網科技媒體

Anthropic“憲法分類器”能否有效管住大型語言模型的“嘴”?

   時間:2025-02-05 12:01 來源:ITBEAR作者:顧雨柔

近日,人工智能領域迎來了一項新的安全創新。為了應對人工智能工具濫用自然語言提示的問題,OpenAI的競爭對手Anthropic推出了一項名為“憲法分類器”的全新概念。這一創新方法旨在將一套類似人類價值觀的規則(形象地比喻為一部“憲法”)嵌入大型語言模型中。

據悉,Anthropic的安全保障研究團隊在一篇最新的學術論文中詳細闡述了這一安全措施。該措施的主要目標是減少其最新、最先進的大型語言模型Claude 3.5 Sonnet的“越獄”行為,即生成超出既定安全防護范圍的輸出內容。實驗結果顯示,在實施憲法分類器后,Claude模型的越獄成功率顯著降低了81.6%,而該系統對模型性能的影響微乎其微,生產流量拒絕率僅絕對增加了0.38%,推理開銷增加了23.7%。

隨著大型語言模型的應用日益廣泛,生成有害內容的風險也日益凸顯。Anthropic及其同行如OpenAI等,對化學、生物、放射和核(CBRN)相關內容的風險尤為關注。例如,這些模型可能會提供制造有害化學制劑的指導。為了驗證憲法分類器的有效性,Anthropic發起了一項挑戰,邀請用戶嘗試突破8個與CBRN內容相關的越獄關卡。然而,這一舉措也引發了一些爭議,有批評者認為這是在利用社區資源為閉源模型的安全測試做貢獻。

針對這些爭議,Anthropic進行了解釋。他們指出,成功的越獄行為是繞過了憲法分類器,而非直接規避。他們列舉了兩種常見的越獄方法:一種是良性釋義,即通過改變表述方式繞過敏感內容;另一種是長度利用,即通過添加無關細節來迷惑模型。同時,Anthropic也承認,在測試期間,一些提示因誤報或漏報而被錯誤地拒絕,拒絕率較高。

Anthropic進一步補充說,盡管已知對沒有憲法分類器的模型有效的越獄方法在這一防御措施下并未成功,但他們仍在不斷改進和完善這一系統。他們認識到,基于規則的測試系統存在局限性,并致力于提高系統的準確性和可靠性。這一創新不僅為大型語言模型的安全性提供了新的解決方案,也為人工智能領域的未來發展開辟了新的方向。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

主站蜘蛛池模板: 尤物精品国产第一福利三区 | 成人精品一区二区久久久 | 色婷婷色综合激情国产日韩 | 日韩亚洲欧美在线观看 | 在线欧美日韩 | 一二三区免费视频 | 欧美日韩在线观看视频 | 试看a级看一毛片二十分钟 色婷婷六月天 | 久久国产精品二国产精品 | 欧美日韩免费看 | 亚洲国产日韩成人综合天堂 | 欧美视频在线免费播放 | 九九精品视频免费 | 午夜欧美精品久久久久久久久 | www.自拍| 五月激情综合丁香色婷婷 | 波多野结衣在线观看免费 | 中文字幕亚洲日本岛国片 | 日本波多野结衣字幕久久 | 国产第一页视频 | 香蕉午夜| 中文字幕不卡免费视频 | 久久99九九99九九99精品 | 国产高清一级毛片在线不卡 | 自拍偷拍亚洲视频 | 精品在线一区 | 自拍偷拍视频网 | 丁香影视| 国产精品福利一区二区 | 欧美日韩视频在线一区二区 | 欧美日韩视频在线观看高清免费网站 | 国内精品 大秀视频 日韩精品 | 九九影院在线观看 | 免费精品久久 | 在线色网址 | 久久精品国产波多野结衣 | 亚洲精品乱码久久久久久蜜桃欧美 | 日本一区二区视频 | 日本一区二区不卡久久入口 | 全国男人天堂网 | 亚洲图片偷拍区 |