研究：用詩歌就能讓AI說違禁內(nèi)容，成功率達(dá)62%

IT之家

2025-12-01 09:33:17

IT之家 12 月 1 日消息，事實(shí)證明，只需一點(diǎn)創(chuàng)意，便足以繞過人工智能聊天機(jī)器人的安全防護(hù)機(jī)制。在伊卡洛實(shí)驗(yàn)室（Icaro Lab）最新發(fā)表的一項(xiàng)題為《對抗性詩歌：一種通用的單輪大語言模型越獄機(jī)制》的研究中，研究人員通過將提示詞以詩歌形式表達(dá)，成功繞過了多種大語言模型（LLM）的安全限制。

研究：用詩歌就能讓AI說違禁內(nèi)容，成功率達(dá)62%

該研究指出，“詩歌形式可作為一種通用型越獄操作符”，實(shí)驗(yàn)結(jié)果顯示，整體上有 62% 的成功率誘使模型生成被禁止的內(nèi)容，包括涉及制造核武器、兒童性虐待材料以及自殺或自殘等相關(guān)信息。

IT之家注意到，研究測試了多款主流大語言模型，包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多個模型。研究人員進(jìn)一步列出了各模型的具體成功率：Google Gemini、DeepSeek 和 MistralAI 在測試中始終會提供違規(guī)回答，而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 則最不容易突破其自身設(shè)定的限制。

盡管該研究并未公開研究人員所使用的具體“越獄詩歌”原文，但研究團(tuán)隊向 Wired 雜志表示，這些詩句“過于危險，不宜向公眾披露”。不過，論文中確實(shí)包含了一個經(jīng)過弱化處理的示例，用以說明繞過 AI 聊天機(jī)器人安全機(jī)制的簡易程度。研究人員強(qiáng)調(diào)：“這可能比人們想象的要容易得多，而這正是我們保持謹(jǐn)慎的原因所在?！?/p>

上一篇：消息稱華為、中興獲得越南合同，供應(yīng)5G設(shè)備

青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院