當(dāng)前位置：首頁(yè) > 新聞 > 熱點(diǎn)資訊 > 詩(shī)意隱喻可穩(wěn)定突破大語(yǔ)言模型安全防線(xiàn)

詩(shī)意隱喻可穩(wěn)定突破大語(yǔ)言模型安全防線(xiàn)

2025-11-25 02:27:33 標(biāo)簽：大語(yǔ)言模型

　　由德克賽、羅馬薩皮恩扎大學(xué)與圣安娜高等研究院組成的聯(lián)合研究團(tuán)隊(duì)最新研究發(fā)現(xiàn)，通過(guò)將惡意請(qǐng)求包裝成詩(shī)意隱喻形式，能有效誘使各類(lèi)大語(yǔ)言模型突破其內(nèi)置安全準(zhǔn)則。這項(xiàng)發(fā)表于《對(duì)抗性詩(shī)歌：大型語(yǔ)言模型中通用的單輪越獄機(jī)制》的研究表明，詩(shī)歌形式的有害提示平均越獄成功率高達(dá)62%，遠(yuǎn)超傳統(tǒng)攻擊方式。

　　研究采用獨(dú)創(chuàng)的"單輪攻擊"模式，僅需提交一次詩(shī)歌化提示即可觸發(fā)模型的不安全響應(yīng)，無(wú)需構(gòu)建復(fù)雜對(duì)話(huà)框架。實(shí)驗(yàn)數(shù)據(jù)顯示，經(jīng)過(guò)詩(shī)歌化重構(gòu)的1200條標(biāo)準(zhǔn)有害提示，在九家主流廠(chǎng)商的25個(gè)前沿語(yǔ)言模型中仍取得43%的突破成功率，較原始散文提示效果提升五倍以上。

　　在具體模型表現(xiàn)方面，谷歌Gemini 2.5 Pro對(duì)人工創(chuàng)作詩(shī)歌提示的響應(yīng)率達(dá)100%，DeepSeek對(duì)批量轉(zhuǎn)化詩(shī)歌的易感度超過(guò)70%。相較之下，OpenAI的GPT-5系列展現(xiàn)出較強(qiáng)抗性，拒絕率達(dá)到90%-95%，但仍有約60條詩(shī)歌提示可誘發(fā)信息泄露。

　　值得注意的是，研究還發(fā)現(xiàn)模型規(guī)模與易感性存在負(fù)相關(guān)。訓(xùn)練數(shù)據(jù)更有限的小型模型反而表現(xiàn)出更強(qiáng)抵抗力，研究者推測(cè)這可能源于其隱喻解析能力較弱，或與大型模型在文學(xué)文本訓(xùn)練中形成的敘事表征干擾安全機(jī)制有關(guān)。

　　該研究援引柏拉圖《理想國(guó)》中驅(qū)逐詩(shī)人的典故，揭示人工智能時(shí)代語(yǔ)言安全面臨的全新挑戰(zhàn)。團(tuán)隊(duì)呼吁亟需開(kāi)發(fā)能識(shí)別比喻語(yǔ)言特質(zhì)的防護(hù)機(jī)制，以防此類(lèi)符合正常語(yǔ)用習(xí)慣的轉(zhuǎn)化攻擊持續(xù)威脅對(duì)齊系統(tǒng)安全。

推薦內(nèi)容

?《inZOI》全面優(yōu)化游戲穩(wěn)定性與互動(dòng)體驗(yàn)
　　inZOI工作室近期推出《inZOI》熱更新v0.4.2版本，重點(diǎn)強(qiáng)化了游戲運(yùn)行穩(wěn)定性并顯著提升交互流暢度，同時(shí)針對(duì)各類(lèi)系統(tǒng)漏洞進(jìn)行集中修復(fù)。本次更新通過(guò)調(diào)整服裝與家具的污垢積累機(jī)制使其更貼近現(xiàn)實(shí)邏輯，并豐富了社交與超自然互動(dòng)內(nèi)容——例如幽靈角色現(xiàn)可執(zhí)行坐椅互動(dòng)，持有骨灰盒的玩家能夠觸發(fā)葬禮策劃功能。這些調(diào)整展現(xiàn)了開(kāi)發(fā)團(tuán)隊(duì)自搶先體驗(yàn)版發(fā)布后，持續(xù)完善游戲沉浸感并積極采納玩家反饋的迭代方向。
2025-11-07
《逃離鴨科夫》金屬片穩(wěn)定獲取指南?
在游戲過(guò)程中，玩家可通過(guò)基地售貨機(jī)穩(wěn)定獲取金屬片資源。除了扳手無(wú)法分解外，售貨機(jī)提供的螺絲刀、錘子、剪刀等工具均可分解獲得金屬片。每次購(gòu)買(mǎi)可制作三片金屬片，而分解打火機(jī)、懷表等物品也能獲得不同數(shù)量的金屬片。
2025-10-29
富士康印度工廠(chǎng)再現(xiàn)工程師撤離潮全球供應(yīng)鏈穩(wěn)定性引關(guān)注
富士康印度工廠(chǎng)近期再次出現(xiàn)中國(guó)工程師撤離現(xiàn)象，這已是該企業(yè)數(shù)月內(nèi)第二次采取類(lèi)似行動(dòng)。據(jù)最新消息，這家蘋(píng)果公司的主要代工伙伴從其位于印度泰米爾納德邦的玉展科技工廠(chǎng)召回了約300名中國(guó)技術(shù)人員。
2025-08-25
任天堂Switch 2/1推送20.3.0系統(tǒng)更新重點(diǎn)優(yōu)化運(yùn)行穩(wěn)定性
　　7月29日，任天堂官方正式發(fā)布Switch 2/1游戲主機(jī)的最新系統(tǒng)升級(jí)版本20.3.0。本次更新主要針對(duì)系統(tǒng)穩(wěn)定性進(jìn)行優(yōu)化，并修復(fù)了部分已知問(wèn)題，具體修復(fù)細(xì)節(jié)官方暫未詳細(xì)披露。
2025-07-29
任天堂員工穩(wěn)定性領(lǐng)跑游戲行業(yè) 高留存率成業(yè)界標(biāo)桿
　　在全球游戲行業(yè)頻繁裁員的背景下，任天堂交出了一份令人矚目的員工穩(wěn)定性報(bào)告。最新數(shù)據(jù)顯示，該公司2024-2025財(cái)年全球員工留存率高達(dá)98%，這一數(shù)字遠(yuǎn)超行業(yè)平均水平。
2025-07-22