由德克賽、羅馬薩皮恩扎大學(xué)與圣安娜高等研究院組成的聯(lián)合研究團(tuán)隊(duì)最新研究發(fā)現(xiàn),通過(guò)將惡意請(qǐng)求包裝成詩(shī)意隱喻形式,能有效誘使各類(lèi)大語(yǔ)言模型突破其內(nèi)置安全準(zhǔn)則。這項(xiàng)發(fā)表于《對(duì)抗性詩(shī)歌:大型語(yǔ)言模型中通用的單輪越獄機(jī)制》的研究表明,詩(shī)歌形式的有害提示平均越獄成功率高達(dá)62%,遠(yuǎn)超傳統(tǒng)攻擊方式。

研究采用獨(dú)創(chuàng)的"單輪攻擊"模式,僅需提交一次詩(shī)歌化提示即可觸發(fā)模型的不安全響應(yīng),無(wú)需構(gòu)建復(fù)雜對(duì)話(huà)框架。實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過(guò)詩(shī)歌化重構(gòu)的1200條標(biāo)準(zhǔn)有害提示,在九家主流廠(chǎng)商的25個(gè)前沿語(yǔ)言模型中仍取得43%的突破成功率,較原始散文提示效果提升五倍以上。
在具體模型表現(xiàn)方面,谷歌Gemini 2.5 Pro對(duì)人工創(chuàng)作詩(shī)歌提示的響應(yīng)率達(dá)100%,DeepSeek對(duì)批量轉(zhuǎn)化詩(shī)歌的易感度超過(guò)70%。相較之下,OpenAI的GPT-5系列展現(xiàn)出較強(qiáng)抗性,拒絕率達(dá)到90%-95%,但仍有約60條詩(shī)歌提示可誘發(fā)信息泄露。
值得注意的是,研究還發(fā)現(xiàn)模型規(guī)模與易感性存在負(fù)相關(guān)。訓(xùn)練數(shù)據(jù)更有限的小型模型反而表現(xiàn)出更強(qiáng)抵抗力,研究者推測(cè)這可能源于其隱喻解析能力較弱,或與大型模型在文學(xué)文本訓(xùn)練中形成的敘事表征干擾安全機(jī)制有關(guān)。
該研究援引柏拉圖《理想國(guó)》中驅(qū)逐詩(shī)人的典故,揭示人工智能時(shí)代語(yǔ)言安全面臨的全新挑戰(zhàn)。團(tuán)隊(duì)呼吁亟需開(kāi)發(fā)能識(shí)別比喻語(yǔ)言特質(zhì)的防護(hù)機(jī)制,以防此類(lèi)符合正常語(yǔ)用習(xí)慣的轉(zhuǎn)化攻擊持續(xù)威脅對(duì)齊系統(tǒng)安全。





























浙公網(wǎng)安備 33010502007447號(hào)