文本对抗攻击和防御的难点
图像对抗攻防变硬核的同时,其他模态的对抗攻防看似风生水起。以文本领域为例,其研究意义、核心问题与难点究竟是何?还能做多久?
NLP上和图像上的对抗攻击最大的区别在于:句子的定义域是不连续甚至是难定义的。
举个例子,图片你修改一个像素还是一个正常的图片,但一个句子修改一个词甚至是一个字母,就会使这个句子出现语法错误。
而语法错误本身不是well-defined,也就说你不能用一个公式表达出来然后每次更新的时候做Projection。为了解决这个问题,1-2年前还在做对抗的时候基本上就是基于两种思路:(1)不管语法错误随便来;(2)基于类似启发式搜索的方式给每种替换算score,然后选最好的。
此外,就算你对词做embeddeding把one-hot变成看似连续的东西,但是即使基于的是比较高级的embeddeding (语义类似的词的embedding接近/同向), 其实也还是不能直接用PGD更新。