chatgpt会泄露数据吗我拿模型当朋友，模型却想泄漏我的隐私？

默认分类2年前 (2023)发布 admin

64 0 0

文 | 阿毅

编 | 小轶

相信大家对– 隐私泄露事件都还有印象。这事儿在当时可谓爆炸性新闻，激起了公众对数据隐私的强烈关注，也间接影响了美国总统选举结果（这不是重点）。不过从事后诸葛亮来看，这件事也是好事，改变了如今的世界格局（感谢普普，此处略去几万字）。但是，大家也就吃吃瓜，对于隐私保护的权利并没有持续地努力抗争下去（sad）。

实际上，窃取隐私的方法不局限于APP非法收集用户数据、黑客攻击等大家耳熟能详的方式，你很有可能在不知不觉中就泄露了隐私。

不知道大家有没有这样的经历：你在某些APP上和朋友聊吃的或者穿的，登陆某宝后你会发现平台会给你推荐这些东西。此时你不禁由衷感佩某宝推荐算法工程师未卜先知的能力。我猜测，其实，是你的聊天记录、或者你的输入法被泄露给了无良的第三方，然后某宝利用这些信息来精准推荐。

再举一个例子：手机党的朋友最不陌生的就是自己的输入法。输入法通过记忆我们的输入习惯来节省我们的沟通骂人时间。可是你有没有想过，万一哪天对话框输入“银行账户是…”，后面输入法自动帮你脑补了密码…啊，这。后果大家可想而知。

听到这，是不是觉得自己超委屈？隐私权利一点都没有！

那么，咱们今天就来聊聊如何保护我们的隐私数据，啊不从学术的角度上探究一下这种对输入法等语言模型的攻击可以如何实现！简言之，教你如何“窃取用户隐私数据”。

废话不多说，今天要和大家分享的是一篇关于NLP 的文章，由众多大佬（、、UC 、、Open AI、、Apple）联合巨制，且在学术站上点赞量很高！我们都知道，当今的语言模型都是在很大的私有（或者公开）数据集（数百GB）上训练，期间难免记忆了一些其中的敏感信息。那么，这些信息是否会不经意间就可能由模型泄露出去呢？这篇论文就实验性地分析了GPT-2这样的大型语言模型是否存在隐私泄露的可能，并探究了这种攻击在怎样的场景下能够成功实现。

想想实属业界良心——自己攻击自己设计的模型，还发文章告诉你怎么攻击…接下来，我们剖析一下这篇业界良心、自己打自己脸的论文干了些啥。

论文题目：

Data from Large

论文链接:

Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【1228】下载论文PDF~

AI 先验知识

AI 是近几年比较火的一个领域，它通常涉及针对不同机器学习模型的攻击和防御。攻击的目的主要是窃取隐私和破坏性能。由于这篇论文涉及一些AI 领域的先验知识，我总结了如下四点必要的先验知识，帮助大家理解。

成员推断

成员推断（）[1]，即给定数据记录和模型的黑盒访问权限，要求确定该记录是否在模型的训练数据集中。执行成员推理，需要采取机器学习中的对抗性应用，训练一个推理模型，识别目标模型对训练集内输入的预测结果与对训练集外输入的预测结果之间的差异。

通常采用的方法是：构建影子模型（ model）。这些模型的行为与目标模型类似。但与目标模型相比，每个影子模型的真实情况是已知的。

逆向攻击

逆向攻击（Model ）[2],主要是利用机器学习系统提供的一些API来获取模型的初步信息，并通过这些初步信息对模型进行逆向分析，获取模型内部的一些隐私数据。

这种攻击和成员推理攻击的区别是：成员推理攻击是针对某条单一的训练数据，而模型逆向攻击则是要取得一种整体的统计信息。这篇论文所做的训练数据提取攻击（ data ），是模型逆向攻击的一种，旨在重建训练数据点。这种攻击难度更大，破坏性也更强。

萃取攻击

萃取攻击（Model ）[3]，也称提取攻击，是一种攻击者通过循环发送数据，查看模型响应结果，来推测该模型的参数或功能，从而复制出一个功能相似、甚至完全相同的机器学习模型。这种攻击方法由Tramèr等人在2016年提出，并发表于信息安全顶级会议上。

差分隐私

差分隐私（）[4]，由Dwork 在2013年写的The of 中提出，是一种数据隐私保护技术。由于差分隐私可深度学习技术，保护模型的隐私和安全，于2020年入选世界十大先进科学技术。

上述介绍只是提纲挈领，感兴趣的同学可直接阅读相关论文。其次，同学们也可以看到，AI 涉及DL各个领域的知识，因此可投会议也覆盖所有DL领域！是一个不错的坑哦~~

论文解读

概述

这篇论文做的工作其实一幅图就可以讲清楚，如下图所示：你先给GPT-2模型输入一串“神秘代码”——“East …”；模型立刻送出一套个人信息——姓名、电话号码，还有地址、邮箱和传真（部分信息已打码）。

好家伙。啪的一下啊！个人信息就泄露了，很快啊！一般人都会大意，闪都来不及。

攻击者的能力

在AI 领域，一般阐释一种攻击前，必须说清楚攻击者所具备的知识、能力（即攻击者的power有多大）。通常来说，一个成功的攻击算法是不能允许攻击者掌握太多知识的；相反，防御者可以被允许掌握攻击者的很多知识。

在本文中，作者们考虑一个对黑盒语言模型具有输入输出访问权限的攻击者。也就是说，我们允许攻击者获得下一个单词的预测结果，但不允许攻击者掌握语言模型中的单个权重或隐藏状态（例如，注意力向量）。

攻击者的目标是从模型中提取被记忆的训练数据。注意，这里并不要求提取特定的训练数据，只需随意提取训练数据即可。因为前者仍然是很难实现的。

安全类文章一般都会非常详细地描述攻击者掌握的知识以及攻击的细节，因为需要说服审稿人相信这个攻击是很难实现、且有实际意义的。

攻击方法

如上图所示，攻击一共由两个步骤组成：

生成文本：从模型中无条件采样大量生成文本

成员推断：作者们使用来删除那些重复出现的样本来加强生成文本的准确性，预测哪些输出包含被记忆的文本。

文本生成

看前面那张图即可知，本文的核心工作是如何根据给定的前缀，输出模型中被记忆的数据（即后缀）。为了解决传统top-k采样策略倾向于多次生成相同（或相似）文本的问题，本文设计了一种基于的数据采样策略，来生成富有多样性的高质量文本。

这个，t其实是一个超参数，来降低模型已输出生成文本的置信度。一旦置信度降低，模型就会尽可能生成更多的文本来使得输出的可信度提高。但是，作者说上述方法仍会出现生成文本具有相同前缀的问题。最后他们设置了多个不同的前缀种子来避免这个问题。

成员推断

生成文本之后，我们需要使用成员推断（）来判断生成文本是否是被记忆的文本。在本文中，作者发现直接运用传统的成员推断存在一定问题：以下两类低质量的生成结果也会被打很高的置信度分数：

为此，作者设计了一系列骚操作，删除以上两类文本。具体就是根据以下6个指标如下，对每个生成的样本进行筛选，并去掉重复的部分：

这块我其实还没完全理解，具体细节还望大家回看原文。并由衷希望读懂的同学给我留言，我也想搞懂。。真的。。。

实验结果

作者在随机抽取的1800个输出结果中，约有600个结果体现出了训练数据中的内容，包括新闻、日志、代码、个人信息等等。其中有些内容只在训练数据集中出现过寥寥几次，有的甚至只出现过一次，但模型依然把它们学会并记住了（其实越特殊，模型为了不出错，记忆得越深）。

团队还对拥有15亿参数的升级版GPT-2 XL进行了测试，它对于训练数据的记忆量是GPT-2 Small的10倍。实验发现，越大的语言模型，“记忆力”越强。GPT-2超大模型比中小模型更容易记住出现次数比较少的文本。他们还发现，不光是的GPT模型，其它主流语言模型BERT、等等，也统统中招。

小结与感想

文章的贡献可以总结为以下三点：

然后我从创新性、理论完备性、实验、未来展望四个角度，谈谈自己的理解：

说在文末的话

本人是做AI 的。说到这篇文章把NLP和结合，我想起了一个小故事：写paper其实就是在一座山上找一个安全的坑拉粑粑，当旁边都是别人的粑粑的时候你再去拉肯定会很痛苦，你如果找到一个没人拉过粑粑的地方肯定拉的很香。这个故事是一个有味道的故事，但我想说的是，这种新兴、交叉领域很值得我们去探索。说不定以后别人只能在拉过的地方拉，让别人无处可拉。

最后，欢迎各位NLPer关注AI 领域。一起来卷，卷到最后，应有尽有。