破解大模型隐私防线，华科清华联手实现微调数据90%精准识别

IT科技类资讯2025-11-05 04:58:351

微调大模型的破解数据隐私可能泄露？

最近华科和清华的研究团队联合提出了一种成员推理攻击方法，能够有效地利用大模型强大的大模调数生成能力，通过自校正机制来检测给定文本是型隐线华现微否属于大模型的微调数据集。

NeurIPS24论文《Membership inference attacks against fine-tuned large language models via self-prompt calibration》，私防手实提出了一种基于自校正概率波动的科清成员推理攻击算法SPV-MIA，首次在微调大模型场景下将攻击准确度提高至90%以上。华联

成员推理攻击（Membership Inference Attack）是据精一种常见的针对机器学习模型的隐私攻击方法。该攻击可以判断某个特定的准识输入数据是否是模型训练数据集的一部分，从而导致训练数据集相关的破解隐私被泄露。例如，大模调数该攻击通过判断某个用户的型隐线华现微信息是否被用于模型训练来推断该用户是否使用了对应的服务。此外，私防手实该攻击还可用于鉴别非授权训练数据，科清为机器学习模型训练集的华联版权鉴别提供了一个极具前景的解决方案。b2b信息网

尽管该攻击在传统机器学习领域，据精包括分类、分割、推荐等模型上已经取得了大量的研究进展并且发展迅速。然而针对大模型（Large Language Model，LLM）的成员推理攻击方法尚未取得令人满意的进展。由于大模型的大尺度数据集，高度泛化性等特征，限制了成员推理攻击的准确性。

得益于大模型自身的强大的拟合和泛化能力，算法集成了一种自提示（Self-Prompt）方法，通过提示大模型自身生成在分布上近似训练集的校正数据集，从而获得更好的成员推理分数校正性能。此外，算法基于大模型的记忆性现象进一步设计了一种概率波动（Probabilistic Variation）成员推理攻击分数，以保证攻击算法在现实场景中稳定的鉴别性能。基于上述两种方法，该攻击算法实现了微调大模型场景下精确的成员推理攻击，促进了未来针对大模型数据隐私及版权鉴别的相关研究。

现实场景中成员推理接近于随机猜测

现有的IT技术网针对语言模型的成员推理攻击方法可以分为基于校正（Reference-based）和无校正（Reference-free）的两种范式。其中无校正的成员推理攻击假设训练集中的文本数据具有更高的生成概率（即在目标语言模型上更低的Loss），因此无校正的攻击范式可简单地通过判断样本生成概率是否高于预设阈值来鉴别训练集文本。

△Reference-free 无校正的成员推理攻击流程图

基于校正的成员推理攻击认为部分常用文本可能存在过度表征（Over-representative）的特征，即天然倾向于具有更高的概率被生成。因此该攻击范式使用了一种困难度校正（Difficulty Calibration）的方法，假设训练集文本会在目标模型上取得相较于校正模型更高的生成概率，通过比较目标大模型和校正大模型之间的生成概率差异来筛选出生成概率相对较高的文本。

△Reference-based 基于校正的成员推理攻击流程图

然而，现有的两种成员推理攻击范式依赖于两个在现实场景中无法成立的假设：1）可以获得与训练集具有相同数据分布的校正数据集，2）目标大型语言模型存在过拟合现象。如下图 (a)所示，我们分别使用与目标模型训练集同分布、网站模板同领域、不相关的三个不同的校正数据集用于微调校正模型。无校正的攻击性能始终较低，并且与数据集来源无关。对于基于校正的攻击，随着校正数据集与目标数据集之间相似性的下降，攻击性能呈现出灾难性地下降。如下图（b）所示，现有的两种攻击范式都仅能在呈现出过拟合现象的大模型中取得良好的攻击性能。因此，现有的范式在现实场景中只能取得接近于随机猜测的鉴别性能。

△现有攻击范式在现实场景中的鉴别性能接近于随机猜测

为了解决上述的两点挑战，我们提出了一种基于自校正概率波动的成员推断攻击（Self-calibrated Probabilistic Variation based Membership Inference Attack，SPV-MIA），由两个相应模块组成：1）大模型自校正机制：利用大模型本身生成高质量校正数据集，2）概率波动估计方法：提出概率波动指标刻画大模型记忆现象特征，避免对模型过拟合的假设。

大模型自校正机制

在现实场景中，用于微调大模型的数据集通常具有极高的隐私性，因此从相同分布中采样高质量的校正数据集成为了一个看似不可能的挑战。

我们注意到大模型具有革命性的拟合和泛化能力，使它们能够学习训练集的数据分布，并生成大量富含创造力的文本。因此，大模型自身有潜力刻画训练数据的分布。

因此，我们考虑一种自提示方法，通过用少量单词提示目标大模型自身，从目标大模型本身收集校正数据集。

△大模型自校正机制方法流程图

具体而言，我们首先从同一领域的公共数据集中收集一组长度为l的文本块，其中领域可从目标大模型的任务中轻松推断出来（例如，用于总结任务的大模型大概率在总结数据集上微调）。然后，我们将长度为l的每个文本块用作提示文本，并请求目标大模型生成文本。

所有生成的文本可以构成一个大小为N的数据集，用于微调自提示校正模型。因此，利用自提示校正模型校正的成员推理分数可写为：其中校正数据集从目标大模型中采样得到：， and 分别是在目标模型和校正模型上评估得到的成员推理分数。

概率波动估计方法

现有的攻击范式隐式假设了训练集文本被生成的概率比非训练集文本更高，而这一假设仅在过拟合模型中得到满足。

然而现实场景中的微调大模型通常仅存在一定程度的记忆现象。尽管记忆与过拟合有关，但过拟合本身并不能完全解释记忆的一些特性。记忆和过拟合之间的关键差异可以总结为以下三点：

发生时间：过拟合在验证集困惑度（PPL）首次上升时开始，而记忆更早发生并贯穿训练全程。危害程度：过拟合通常，而记忆对某些任务（如QA）可能至关重要。避免难度：记忆不可避免，即使早停止（Early-stopping）也无法消除，且减轻非预期记忆（如逐字记忆）极为困难。

因此，记忆现象更适合作为鉴别训练集文本的信号。生成模型中的记忆会导致成员记录比数据分布中的邻近记录具有更高的生成概率。

△过拟合与记忆现象在模型概率分布上的差异

这一原则可以与大模型共享，因为它们可以被视为文本生成模型。

因此，我们设计了一个更有前景的成员推理分数，通过确定该文本是否位于目标模型概率分布上的局部最大值点：其中是由改写模型采样得到的一组对称的文本对，这种改写可被视为在文本高维表征空间上的微小扰动。本文中使用了Mask Filling Language Model （T5-base）分别在语义空间和表征空间上对目标文本进行扰动。

实验结果：仅需1,000次查询，达到超过90%的准确度

为了评估攻击算法SPV-MIA的有效性，本研究在四个开源的大模型GPT-2，GPT-J，Falcon-7B，LLaMA-7B和三个不同领域的微调数据集Wikitext-103, AG News， XSum上进行实验评估。

该研究采用了七种先进的基线算法作为对比：

无校正的攻击方法（Loss Attack、Neighbour Attack、DetectGPT、Min-K%、Min-K%++）基于校正的攻击方法 (LiRA-Base、LiRA-Candidate)

对比实验验证了在上述大模型和微调数据集下所提方法相对于最先进基线方法的显著性能提升，从AUC分数上看，提升幅度达30%。

△使用AUC分数的性能对比（加粗处为最佳性能，下划线处为次佳性能）

从1%假阳率下的真阳率（TPR@1% FPR）来看，提升幅度高达260%，表明SPV-MIA可以在极低的误报率情况下取得极高的召回率。

△使用1%假阳率下的真阳率的性能对比（加粗处为最佳性能，下划线处为次佳性能）

此外，本文探究了基于校正的成员推理攻击方法如何依赖于校正数据集的质量，并评估我们提出的方法是否能构建出高质量的校正数据集。本实验评估了在同分布、同领域、不相关数据集和通过自提示机制构建的数据集上，基于校正的成员推理攻击性能。实验结果表明提出的自提示机制可以构建出近似于同分布的高质量数据集。

△使用不同校正数据集时成员推理攻击的性能

在现实世界中，攻击者可用的自提示文本来源通常受到实际部署环境的限制，有时甚至无法获取特定领域的文本。并且自提示文本的规模通常受限于大模型 API 的访问频率上限和可用自提示文本的数量。为了进一步探究SPV-MIA在复杂的实际场景下的鲁棒性，本文从自提示文本来源，尺度，长度三个角度探究在极端情况下的成员推理攻击性能。

实验结果表明对于不同来源的提示文本，自提示方法对提示文本来源的依赖性低得令人难以置信。即使使用完全不相关的提示文本，攻击性能也只会出现轻微下降（最多 3.6%）。因此自提示方法在不同先验信息的攻击者面前具有很强的通用性。

△SPV-MIA在不同来源自提示文本下的攻击性能

并且自提示方法受查询频率的影响极低，只需要1,000次查询即可达到接近于0.9的AUC分数。此外，当仅有8个tokens的自提示文本也可引导大模型生成高质量的校正模型。

△SPV-MIA在不同尺度、长度自提示文本下的攻击性能

结论：

本文首先从两个角度揭示了现有的成员推理攻击在现实场景中无法对微调大模型造成有效的隐私泄露风险。为了解决这些问题，我们提出了一种基于自校正概率波动的成员推理攻击（SPV-MIA），其中我们提出了一种自提示方法，实现了在实际场景中从大型语言模型中提取校正数据集，然后引入了一种基于记忆而非过拟合的更可靠的成员推理分数。我们进行了大量实验证明了SPV-MIA相对于所有基线的优越性，并验证了其在极端条件下的有效性。

论文链接：https://openreview.net/forum?id=PAWQvrForJ。代码链接：https://github.com/tsinghua-fib-lab/NeurIPS2024_SPV-MIA。

本文地址：http://www.bzve.cn/news/425c2799547.html

版权声明

本文仅代表作者观点，不代表本站立场。
本文系作者授权发表，未经许可，不得转载。

全站热门

苹果XR电脑升级iOS教程（简明易懂的操作指南，让你的苹果XR电脑焕发新生）

图解演示环境版本：本机系统: WIN7虚拟机：VMware Workstation 8 （英文版）安装目标：Ubuntu Desktop 12.04 LTS （请点击这里）先下载好iso镜像文件详细过程图解：0. 初始画面，点击“Create a New Virtual Machine”（左上Ubuntu为本人已有开发环境机，请忽略）1. 点击“Custom（自定义）”2. 无需选择，直接Next（上面是选Workstation版本的兼容性的，这里默认为当前版本8.0，之前版本的不同在于Limitations（局限），如内存更少，不支持HD Audio等）3. 选择“I will install the operating system later”这里无严格要求的同学，是可以选择第二项“Installer disc image file (ios)”的，之后会VMware会自动得知你的iso是Linux（Ubuntu），只要求你输入Full name，和用户名密码等简单的用户设定，但是这是一个Easy install，如VMware原文所说“When the New Virtual Wizard detects an operating system that supports Easy Install, the wizard prompts you for information about the guest operating system. After the virtual machine is created, the guest operating system installation is automated and VMware Tools is installed.” 我觉得是因为这个OS的自动安装，不完全，导致一些核心命令无法使用、无反应等一些问题。所以有更高要求的同学，不能选这项，需要完全、自定义的安装。4. 在Version下选择“Ubuntu”，注：64位Ubuntu需要选下面那个“Ubuntu 64-bit”5. 设置虚拟机名称（即每次启动VMware左上方显示的名字），之后选择你想的在WIN7里的安装路径（默认在C盘，很不方便）。6. Number of processors（处理器个数）选择为2我是i7处理器，配置较好无压力的，感觉双核比单核好一些（假如没用VMware不会这么设计，但是对于更多的，没必要），下面那个应该没必要选，有非常懂的同学，请留言赐教。7. 内存大小选择，使用自动推荐的1G内存（本机内存8G）。同学们在虚拟机里，应该不会跑什么惊天地泣鬼神的大程序，内存大不等于快，而是更多的数据放在内存里而非硬盘里，对于内存消耗大的程序、系统会变快。去年做本科毕设的时候，调整过虚拟机的内存从1G为2G，结果竟然变慢了，应该是外面WIN7被占用了的问题。8. Network Type网络类型选择，本次选择默认的“NAT”注：这里有一点本人经历的非常重要需要说明，使用“NAT”的话，需要外面的WIN7使用一根线连接上网，才能在Ubuntu里上网（如同Ubuntu是你的真正OS的感觉，不需要手工配置任何IP信息），不能默认使用无线连接。这点对有些笔记本同学可能会造成麻烦。当然不是说不能通过手动配置IP相关解决，但是为了避免每次都配置的麻烦，请直接使用“bridged”桥接手动配置。9. 默认即可，直接“Next”10. 默认即可，直接“Next”第三项为直接划分硬盘给该虚拟机使用，意思应为绕过WIN7的那个文件夹管理，直接给虚拟机只用一块硬盘空间，有高级需要的同学可以选择。所以，注：默认的那个可以轻松实现copy，move，当你想拷给另外一个人，或者换机器的时候。11. 磁盘选择，默认即可，直接“Next”12. 选择“Store virtual disk as a single file”上面那个方框，是说现在就立即分20G给这个虚拟机，假如不够，还是会一点一点随着你的使用增加（跟不选一样）。假如同时没有很多个虚拟机装在WIN7上，或者硬盘空间太大又不放东西，可选。13. 虚拟机文件的存放地址，选个D盘的位置就行了。14. 点击“Finish”，完成了虚拟机的配置工作这里点击“Customize Hardware”的话，有机会对前面不满意的虚拟机硬件设置（处理器个数，内存大小等）重新设置，所以前面不满意的同学，不用点cancel重来，实际上在以后的使用过程，也是可以随时改变虚拟机的配置的，这点不用担心。15. 完成后，可以看到左上角多出了“Ubuntu 12.04”，先别急着Power on，还没装ubuntu呢。。。点击“Edit virtual machine settings”16. 在弹出的settings里，点击“CD/DVD(IDE)”，然后在右侧点击“Use ISO image file”，再选择你开始下载好的Ubuntu 12.04的iso镜像文件的路径然后点“OK”。17. 启动虚拟机，即点击step 15里的“Power on this virtual machine”，之后Ubuntu 12.04开始了安装，先选择语言，然后点击“Install Ubuntu”18. 假如选择“Download updates while installing”为安装过程直接安装最近的更新，假如选择“Install this third-party software”为安装第三方软件19. 选择“Something else”，将要对虚拟机的20G硬盘做手动分区20. 点击“New Partation Table”（新建分区表）21. 在弹出的对话框里，选择“Contunie”22. 选中新出现的“free space”（空闲空间），点击“Add”23. 注意下图中的“Primary”，“Beginning”， “Ext4 ...”均为默认，不需要修改；数字为大小，以MB为单位（注：不用追求1024凑整，硬盘实际上是凑不整的。。。），这里选择10000=10G；最后的“Mount point（挂载点）”下拉列表中，选中“/”，完成该步，点“OK”注意：“/ ” 建议大小在5GB以上。（根据关于“Ubuntu手动分区”的多个相关文章一致得来）非常注意：本人上次弄了个6G，结果进去下libraries，一下就满了，那叫一个悲剧！所以，同学们千万别抱着“5G以上”来想，ubuntu应该自己就占了4、5G，不想悲剧的同学至少8G以上吧，20G确实不大，但是假如打算长期的同学，应该不会使用虚拟机了，20G跑程序，绰绰有余，等喜欢了熟悉了，再来个真的吧。24. 再次选中“free space”（同step 22图中），点击“Add”；注意下图中“Logical”，“Beginning”均为默认，大小选择1000（1G）；在Use as的下拉列表中选择“swap area”，注：最后的下拉列表为灰色，意为swap area不用选择挂载点；完成该步，点“OK”注意：“swap area” 即交换分区，建议大小是物理内存的1~2倍。（根据关于“Ubuntu手动分区”的多个相关文章一致得来）不需要太大，1G足以。25. 再次选中“free space”（同step 22图中），点击“Add”；注意下图中“Logical”，“Beginning”， “Ext4 ...”均为默认；注：大小选择也为默认，即所有的剩余空间；最后的“Mount point”下拉列表中，选中“/home”；完成该步，点“OK”注意：“/home” 存放普通用户的数据，是普通用户的宿主目录，建议大小为剩下的空间。（根据关于“Ubuntu手动分区”的多个相关文章一致得来）注：三个分区的顺序不要变，因为/home在最后便于默认选择“剩余的空间”，避免手工分配。26. 至此，所有分区工作已经完成，如下图所示。注：假如不满意可以点击“Revert（还原）”来重新分区，直到满意和准确无误为止。假如感到满意，点击“Install Now”注：上图为悲剧图，6G的/是不够的，这个图没有更新，仅供参考，不比看数字。27. 选择你所在的时区，自动调整时间，夏令时什么的手动调不方便，之后都点击“Continue”以继续28. 键盘选择US，一般国内买的电脑都是这样的，可根据情况自己选择29. Ubuntu的个人设置，根据自己需要填写用户名密码等30. 最后安装完成，点击“Restart Now”重启Ubuntu即可31. 停止在如下画面，按“回车”即可至此，全部安装过程完毕，我们可以进入到Ubuntu 12.04的桌面工作了。一定要注意：由于未使用自动安装，所以现在我们的虚拟机不含有VM Tools，导致无法全屏虚拟机等等问题，需要安装VM tools，详情请搜索即可。

Ubuntu 的笔记本来到一个局域网里，插上网线，网线指示灯亮，但是连不上网，点击网络连接图标，显示“网络未托管”。突然想起这台笔记本前阵子设置过 PPPOE（有线宽带虚拟拨号），于是进行了一番设置改动，最终解决了问题。1、Ubuntu 的笔记本来到一个局域网里，有点认生。插上网线，网线指示灯亮，但是连不上网，点击网络连接图标，显示“网络未托管”。突然想起这台笔记本前阵子设置过 PPPOE（有线宽带虚拟拨号），怀疑是它的原因。2、按 Ctrl + Alt + t，调出终端。3、键入命令：cd /etc/network，转入 /etc/network 这个目录，它里面有个文件叫 interfaces。4、然后键入命令：sudo gedit interfaces，意思是调用 gedit 文本编辑器，并打开 interfaces 这个文件。这个文件的最后一行是：iface eth0 inet manual，意思是，eth0 这个网络界面（个人电脑上，eth0 一般指的就是唯一的一个网线接口），需要手动设置网络。5、但是，当前的这个局域网，明显是 DHCP 网络，也就是接入的电脑需要“自动获取网络”地址。我们在这行字符前面加个英文的“#”，“注释”掉这一行，意思是不要手动设置网络了，而是转为自动设置。注意一定是英文的“#”，否则输入中文的话，就起不到“注释”的作用了。6、保存文件、关闭 gedit 文本编辑器，回到终端，键入命令：sudo service network-manager restart，意思是重新启动网络管理服务。按下回车，网络立刻连接。以后离开这个局域网，需要重新使用虚拟拨号时，只要按照第 4、5 步骤的方法，把加上的那个“#”去掉，然后再重启网络管理服务，就行了。

allen：用root帐户怎么也登陆不了。原来默认是关闭的。汗一个…-_-!! 帐户已经启用哈哈YES

Asus装机教程（亲手打造属于自己的高性能电脑，一步步学习Asus装机技巧！）

电脑6008错误意外关机的原因及解决方法（电脑出现6008错误，如何应对和解决？）

又该升级系统了，然而14.10版ubuntu该如何才能正常的升级到ubuntu15.04呢？下面我将升级我自己的系统。1、点击菜单中的设置。因为桌面软件的改变，所以，现在有设置直接能对我们电脑进行配置调整，我们这里先点击设置图标。2。在设置中。里面有很多项目，其中系统项目里面，我们点击【软件和更新】这个图标，如下图3、软件和更新窗口可以更新系统，也可以更新软件。点击【更新】栏，设置成提示更新的方式为【每天】和有新版本时通知我设置为【适用任何新版本】，然后关掉软件和更新窗口，之后系统假如在联网就会提示你是否更新。4、在更新提示窗口。我们目的是为了更新，那么就点击【立即安装】5、然后是一个全英文的界面。因为我现在的系统版本是14.10，然后提示有15.04这个新的ubuntu版本，那么我就点击【升级(U)】6、系统根据你的点击升级进入到下一个界面。点击升级按钮后，我的系统便开始下载升级安装包啦。一共有六步，等待前一步完成后才会进入下一步。7、建议不要再升级过程中点击【取消】按钮。但是系统会再一次提示你【您要开始升级么？】。此时，假如你不想升级，那么点击取消按钮还来得及，否则请点击【立即升级】按钮。8、这样系统开始正式升级啦，期间不要断电，或者点击取消，否则会发生意料之外的结果9、最后，系统升级完成，询问你是否清除安装包。建议您点击【删除】，然后点击【现在重启】，系统重启后，则升级完成！

Ubuntu装上后，就立刻把php开发装上了，不过在打开zend studio 的时候，不支持中文。网上查了一下，原来是zend自带的jre不支持中文字体。在这把解决方法记下，以备后用。　　1.在 /usr/local/Zend/ZendStudio-5.5.1/jre/lib/fonts/ 中建立文件夹 fallback　　2.拷字体 simsun.ttc到这个目录。这个字体可以在windows系统中找到(比如C:windowsfonts).　　重启zend，ok。