青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

研究:用詩歌就能讓AI說違禁內(nèi)容,成功率達(dá)62%

IT之家 12 月 1 日消息,事實(shí)證明,只需一點(diǎn)創(chuàng)意,便足以繞過人工智能聊天機(jī)器人的安全防護(hù)機(jī)制。在伊卡洛實(shí)驗(yàn)室(Icaro Lab)最新發(fā)表的一項(xiàng)題為《對抗性詩歌:一種通用的單輪大語言模型越獄機(jī)制》的研究中,研究人員通過將提示詞以詩歌形式表達(dá),成功繞過了多種大語言模型(LLM)的安全限制。

研究:用詩歌就能讓AI說違禁內(nèi)容,成功率達(dá)62%

該研究指出,“詩歌形式可作為一種通用型越獄操作符”,實(shí)驗(yàn)結(jié)果顯示,整體上有 62% 的成功率誘使模型生成被禁止的內(nèi)容,包括涉及制造核武器、兒童性虐待材料以及自殺或自殘等相關(guān)信息。

IT之家注意到,研究測試了多款主流大語言模型,包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多個模型。研究人員進(jìn)一步列出了各模型的具體成功率:Google Gemini、DeepSeek 和 MistralAI 在測試中始終會提供違規(guī)回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 則最不容易突破其自身設(shè)定的限制。

盡管該研究并未公開研究人員所使用的具體“越獄詩歌”原文,但研究團(tuán)隊向 Wired 雜志表示,這些詩句“過于危險,不宜向公眾披露”。不過,論文中確實(shí)包含了一個經(jīng)過弱化處理的示例,用以說明繞過 AI 聊天機(jī)器人安全機(jī)制的簡易程度。研究人員強(qiáng)調(diào):“這可能比人們想象的要容易得多,而這正是我們保持謹(jǐn)慎的原因所在?!?/p>


相關(guān)內(nèi)容