ChatGPT羊驼家族全失守,CMU博士击破LLM护栏,人类扑灭妄想脱口而出
时间:2024-11-18 23:42:52 分类:休闲
一早晨之间,驼家脱口ChatGPT 、族全Bard 、失守士击羊驼家族猛然被怪异token并吞 ,破L扑灭无一必然 。护栏CMU博士发现的人类新措施击破了LLM的清静护栏,造起导弹来都不眨眼 。妄想
编者案:本文来自微信公共号 新智元(ID:AI_era),而出作者 :新智元 ,驼家脱口编纂:Aeneas 好困 ,族全守业邦经授权宣告 。失守士击
一早晨之间,破L扑灭所有搜罗ChatGPT 、护栏Bard 、人类羊驼巨匠族在内的妄想所有狂语言模子 ,全副被并吞了?
CMU以及家养智能清静中间的钻研职员发现,惟独经由附加一系列特定的分心义token,就能天生一个怪异的prompt后缀。
由此,任何人都可能轻松破解LLM的清静措施 ,天生有限量的有害内容。
论文地址 :https://arxiv.org/abs/2307.15043
代码地址:https://github.com/llm-attacks/llm-attacks
幽默的是 ,这种「坚持性侵略」措施不光突破开源零星的护栏,而且也可能绕过闭源零星,搜罗ChatGPT、Bard、Claude等。
个别情景下,假如咱们要求一个LLM天生制作炸弹的教程 ,它确定会谢绝。
可是