研究：用诗歌就能让AI说违禁内容，成功率达62%

发布时间：2025-12-05 13:16:52 作者：玩站小弟

IT之家 12 月 1 日消息，事实证明，只需一点创意，便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab）最新发表的一项题为《对抗性诗歌：一种通用的单轮大语言模型越狱机制》。

IT之家 12 月 1 日消息，研究用诗事实证明，违禁只需一点创意，内容梅州市某某装饰材料有限公司便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室（Icaro Lab）最新发表的率达一项题为《对抗性诗歌：一种通用的单轮大语言模型越狱机制》的研究中，研究人员通过将提示词以诗歌形式表达，研究用诗成功绕过了多种大语言模型（LLM）的违禁安全限制。

该研究指出，内容“诗歌形式可作为一种通用型越狱操作符”，成功梅州市某某装饰材料有限公司实验结果显示，率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容，包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到，成功研究测试了多款主流大语言模型，率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率：Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答，而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文，但研究团队向 Wired 杂志表示，这些诗句“过于危险，不宜向公众披露”。不过，论文中确实包含了一个经过弱化处理的示例，用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调：“这可能比人们想象的要容易得多，而这正是我们保持谨慎的原因所在。”

Tag：安康市某某运输服务培训中心临沂市某某机床铸造维修站台州市某某交通设施售后客服中心潍坊市某某电子科技服务中心成都市某某机械售后客服中心来宾市某某国际贸易维修网点张家口市某某工业设备有限责任公司秦皇岛市某某化学维修网点永川市某某过滤器制造有限责任公司南宁市某某车业制造厂

台风、寒潮、大风，中央气象台继续发布三预警
　　中央气象台11月30日06时继续发布台风蓝色预警：　　今年第27号台风“天琴”热带风暴级）的中心今天30日）早晨5点钟位于海南省三沙市西沙永兴岛）偏南方向大约325公里的南海西南部海面上，就是北纬
2025-12-05
售价6.98万元
版权声明：本文版权为网易汽车所有，转载请注明出处。网易汽车8月1日报道8月1日，比亚迪2025款海鸥正式上市，此次上市新车共有三个版本，售价6.98万元-8.58万元。作为小改款车型，2025款比亚迪
2025-12-05
刚刚，碧桂园声明：已报案高管也发声：太无耻了
　　7月31日，碧桂园微信号发布声明称，近日，公司留意到网传造谣公司高管视频，相关网络主体为获取流量恶意杜撰和传播不实内容，对此公司已向公安机关报案。公司将采取一切必要措施全力维护企业和员工合法权益。
2025-12-05
比100年前还热，巴黎奥运接受更大挑战！
　　[环球时报综合报道]今年是奥运会时隔100年后重回巴黎，与百年前相比，气候变化尤其是高温天气，给奥运会和运动员带来更大挑战。据英国广播公司BBC）7月30日报道，1924年巴黎举办第八届夏季奥运会
2025-12-05
一系列利空接踵而至，加密抛售潮卷土重来！
在宏观经济逆风与行业内部利空消息的双重夹击下，加密货币市场正面临新一轮抛售压力。周一，加密货币市场遭遇重挫。比特币一度下跌6%，跌破86000美元关口；以太币跌幅超过7%，触及约2800美元。这轮抛售
2025-12-05
何诗蓓夺得女子100米自由泳铜牌杨浚瑄排名第六
　　北京时间8月1日，在巴黎奥运会女子100米自由泳决赛中，中国香港选手何诗蓓夺得铜牌，中国选手杨浚瑄排名第六。　　点击进入专题： 2024年巴黎奥运会奥运早晚报
2025-12-05

热门资讯

综合

知识

休闲

探索

娱乐

焦点

热点

研究：用诗歌就能让AI说违禁内容，成功率达62%

相关文章

最新评论

文章分类

大家感兴趣的内容

最近更新的内容

友情链接