研究发现AI生成文本水印能被轻易擦掉, 水印伪造成功率达80%左右

深科技利大千2024-04-05 21:56:34  100

研究人员发现,在人工智能生成文本中添加的水印很容易被删除,而且会被窃取和复制,使其变得毫无用途。他们表示,这类攻击破坏了水印技术的可靠性,可以欺骗人们相信他们本不应该相信的内容。

水印的工作原理是,在人工智能生成的文本中插入隐藏“信息”,使计算机能够识别出文本来自于人工智能系统。它们是一项相当新的发明,但已经成为对抗人工智能所产生的错误信息和抄袭内容的流行解决方案。

例如,2024 年 5 月生效的欧盟《人工智能法案》要求,开发者要为人工智能生成的内容加上水印。

但瑞士苏黎世联邦理工学院的博士生罗宾·斯塔布(Robin Staab)表示,新的研究表明水印技术的水平并没有达到监管机构的要求。他参与了这项最新研究。

该研究尚待同行评审,但将在 2024 年 5 月份的国际学习表征会议(ICLR,International Conference on Learning Representations)大会上演讲。

人工智能语言模型的工作原理是预测句子中的下一个单词,并在这些预测的基础上生成可能性最大的单词。

文本水印算法将语言模型的词汇划分为“绿色列表”和“红色列表”,然后让人工智能模型从绿色列表中选择单词。

绿色列表中的单词越多,文本就越有可能是由计算机生成的,因为人类写出的句子倾向于使用随机性更高的单词组合。

研究人员篡改了五种以这种方式工作的水印。斯塔布说,他们能够通过 API 访问采用了水印技术的人工智能模型,并多次向其发送提示,对水印实施逆向工程。

通过收集到的回应,攻击者可以摸索出一套类似的水印规则,并建立一个相似的模型来“窃取”水印。他们通过分析人工智能输出并将其与普通文本进行比较来实现这一点。

一旦研究人员大致了解了水印单词(列表)包含了什么,他们就可以执行两种攻击。

第一种被称为欺骗攻击(spoofing attack),攻击者会使用他们从水印规则中获得的信息,生成像是被加上了水印的文本。

第二种攻击允许攻击者分离水印和人工智能生成的文本,这样就可以伪装成是人类写的。

最终,该团队伪造水印的成功率约为 80%,剥离水印的成功率为 85%。

没有参与苏黎世联邦理工学院团队这项研究的研究人员,如美国马里兰大学可靠人工智能实验室副教授兼主任索海尔·菲兹(Soheil Feizi),也发现水印技术不可靠,容易受到欺骗攻击。

菲兹说,苏黎世联邦理工学院的研究结果证实,现有水印技术存在很多问题,甚至可以延伸到当今最先进的聊天机器人和大型语言模型中。

他说,这项研究“强调了在大规模部署此类检测机制时,谨慎行事是多么的重要”。

参与了这项研究的苏黎世联邦理工学院博士生尼古拉·约万诺维奇(Nikola Jovanovi?)表示,尽管有这些发现,水印仍然是检测人工智能生成内容的最有希望的方法。

但他补充道,在大规模部署水印之前,还需要完成更多的研究。在那之前,我们应该对这些工具的可靠性和有用性降低期望。他说:“它是有用的,总比什么工具都没有好。”

支持:Ren

排版:刘雅坤

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/146947.html
0
随机主题
决胜局终极绝杀,希金斯再现巅峰时刻,翻袋助力单局逆转英宣布7月大选, 民调显示保守党面临“溃败”活动合影站角落, 朱婷被孤立? 张常宁丁霞热聊, 谁注意李盈莹表态攻守转换丝滑流畅!火箭以牙还牙有仇必报!霍师傅最终无可奈何!打起来了? 以军再次发起“斩首行动”, 以色列或被围攻, 美英失声国外渔民用砗磲壳做陷阱,沉到海底珊瑚缝抓东星斑,大家见识一下别人只是说,咱们亲自拆开看!汽车内外循环原理,看完你就都明白啦佟丽娅白色镂空抹胸礼服裙, 佟丽娅大秀身材《狐妖小红娘月红篇》今日开播, 杨幂: 争取不让动漫粉失望汽车业变天: 从理想、特斯拉的裁员看行业震荡24G+1TB跌价500元, 120倍长焦+5400mAh, 全能旗舰机也妥协了皇家加勒比回应游轮漏水事故: 机械手臂误触消防洒水器 现对舞台做干燥处理“我来雄安了! ”全国35家80余位媒体代表走进雄安增程、纯电双箭齐发!鲁能飞翼或成夏窗离队第一人, 本赛季外租表现不俗, 曾是亚冠主力新趋势!北青:伊万征调多名跑动能力和身体条件俱佳的国脚!贾跃亭: 孤独凄凉, 想回家!中国男篮归化爆发 李凯尔成森林狼头号奇兵 替补12分钟7中5太抢镜两位老板组团买凯雷德V, 落地400万, 黑白双煞, 暴力美学淋漓尽致520的瓜相比汪峰杨洋, 70岁的大咖的瓜让人意外, 姜还是老的辣周鸿祎做客京东直播间畅谈AI:中国大模型发展关键在抓住场景
最新回复(0)