1、移动计算模式下联邦学习数据安全研究 马鑫迪 马卓然 李清华 张 颖 马建峰 /西安电子科技大学网络与信息安全学院【摘 要】近年来,数据安全与隐私泄露问题日益突出,尤其随着人工智能技术的发展,移动计算模式下联邦学习中的数据安全问题受到学术界与产业界的高度关注。本文重点分析了移动计算模式下联邦学习面临的数据安全威胁及其挑战,并从数据隐私保护、模型抗拜占庭攻击、模型数据遗忘 3 个方面对典型的前沿技术进行了梳理。【关键词】联邦学习 数据安全 隐私保护【中图分类号】TP393.08;TP309 【文献标识码】A1 引言全 球 已 进 入 数 字 化 时 代,基 于 移 动 计 算模 式 的 数 字 经
2、 济 成 为 国 家 综 合 国 力 的 重 要支 撑,数 据 是 驱 动 数 字 经 济 深 化 发 展 的 核心 引 擎。特 别 是 在 移 动 互 联 网、大 数 据、超 级 计 算、脑 科 学 等 新 理 论 新 技 术 以 及 经济 社 会 强 烈 需 求 的 共 同 驱 动 下,数 据 资 源已 成 为 国 家 基 础 性 战 略 资 源。数 字 经 济 的下 一 阶 段 是 智 能 经 济。国 家 “十 四 五”规 划 中 指 出:培 育 壮 大 人 工 智 能、大 数据、网 络 安 全 等 新 兴 数 字 产 业,提 升 核 心40|保密科学技术|2022 年 10 月网络防护
3、产业水平,加快推动数字产业化。数 据 是 智 能 经 济 发 展 的 基 础,其 安 全性 是 决 定 移 动 计 算 模 式 下 智 能 经 济 发 展 的关 键 因 素。联 邦 学 习 的 提 出 从 系 统 架 构 上避 免 了 用 户 将 数 据 发 送 给 服 务 提 供 商,使得 用 户 在 移 动 模 式 下 可 以 依 托 自 身 数 据 在本 地 进 行 模 型 训 练。然 而,尽 管 联 邦 学 习框 架 在 一 定 程 度 上 避 免 了 用 户 数 据 泄 露,但 其 仍 然 面 临 着 严 重 的 数 据 安 全 威 胁 与 隐私 泄 露 问 题,如 模 型 训 练
4、中 与 发 布 后 的 数据 推 理 攻 击、拜 占 庭 节 点 数 据 投 毒 攻 击、模 型 发 布 后 的 数 据 遗 忘 等,给 移 动 计 算 环境 下 的 数 据 安 全 利 用 带 来 新 的 挑 战。2 联邦学习下的数据隐私保护联 邦 学 习 把 数 据 拥 有 方 的 私 有 数 据 和模 型 保 存 在 本 地,通 过 共 享 中 间 参 数 来 完成 模 型 训 练。在 移 动 计 算 场 景 下,联 邦 学习 保 证 了 原 始 数 据 不 出 域,同 时 使 数 据 的价 值 得 以 流 通,解 决 了 数 据 孤 岛 问 题。然而,联 邦 学 习 模 型 训 练 中
5、 共 享 的 中 间 参 数可 能 也 会 泄 露 隐 私,因 此,需 要 通 过 隐 私保 护 技 术 来 保 护 这 些 共 享 的 中 间 参 数,实现 联 邦 学 习 下 的 数 据 隐 私 保 护。在 联 邦 学习 框 架 中,需 要 保 护 的 参 数 包 括 中 心 服 务器 下 发 的 全 局 参 数(例 如 全 局 梯 度 或 全 局模 型 参 数)、客 户 端 上 传 的 局 部 参 数(例如 局 部 梯 度 或 局 部 模 型 参 数)等。实 现 联邦 学 习 下 的 数 据 隐 私 保 护 主 要 分 为 基 于 差分 隐 私 的 联 邦 学 习 数 据 隐 私 保 护
6、 和 基 于 密码 学 的 联 邦 学 习 数 据 隐 私 保 护。2.1 基于差分隐私的联邦学习数据隐私保护差 分 隐 私 最 初 被 用 来 实 现 隐 私 保 护 的 数据 分 析,如 数 据 库 的 个 体 查 询、数 据 的 统计 等。其 核 心 思 想 是 随 机 性,通 常 的 做 法就 是 对 原 始 数 据 进 行 扰 动,使 得 查 询 结 果不 会 关 联 到 个 体。近 些 年,差 分 隐 私 技 术也 被 用 来 实 现 隐 私 保 护 的 机 器 学 习1。在移 动 计 算 环 境 下 的 联 邦 学 习 中,对 于 客 户端 面 临 的 数 据 隐 私 问 题,客
7、 户 端 可 以 用 本地 差 分 隐 私 技 术 对 局 部 参 数 进 行 随 机 化,为 局 部 参 数 提 供 隐 私 保 护,降 低 客 户 端 数据 隐 私 被 攻 击 的 风 险。同 时,针 对 联 邦 学习 中 高 维 参 数 的 保 护,需 要 以 本 地 差 分 隐私 为 基 础,设 计 合 理 的 隐 私 预 算 分 配 策 略并 优 化 噪 声 扰 动 的 输 出,使 得 在 达 到 隐 私保 护 需 求 的 同 时 提 升 模 型 的 准 确 率,保 证联 邦 学 习 模 型 的 可 用 性。差 分 隐 私 技 术 虽然 具 有 计 算 效 率 高、适 用 范 围 广
8、 等 特 点,但 加 入 的 噪 声 扰 动 会 降 低 模 型 的 准 确 率。2.2 基于密码学的联邦学习数据隐私保护在 移 动 计 算 模 式 下,部 分 场 景 需 要 提供 精 确 的 联 邦 模 型 及 其 推 理 结 果,因 此,需 要 引 入 密 码 学 的 工 具 来 保 护 中 间 参 数 的隐 私 信 息2,3,实 现 精 确 的 模 型 训 练 与 推理。能 够 保 护 数 据 隐 私 的 加 密 技 术 很 多,例 如 秘 密 共 享、不 经 意 传 输、混 淆 电 路、同 态 加 密 等。本 文 主 要 介 绍 联 邦 学 习 中 两种 常 用 的 技 术秘 密 共
9、 享 和 同 态 加 密。秘 密 共 享 通 过 特 定 的 运 算,将 秘 密 数 据 拆分 成 若 干 份,当 需 要 恢 复 秘 密 时 需 要 联 合多 方 的 数 据 进 行 恢 复。在 联 邦 学 习 中,客 户 端 按 照 秘 密 共 享 协 议,客 户 端 之 间 先协 商 一 个 随 机 向 量,然 后 利 用 随 机 向 量 对局 部 参 数 进 行 盲 化 并 将 其 发 送 至 中 心 服 务器,中 心 服 务 器 恢 复 秘 密 后 得 到 聚 合 的 全局 参 数。考 虑 到 会 出 现 因 若 干 客 户 端 掉 线而 导 致 秘 密 无 法 恢 复 的 情 况,
10、因 此 迫 切 需要 提 出 具 有 高 安 全 性、高 效 率、高 可 用 性的 基 于 秘 密 共 享 的 联 邦 学 习 聚 合 方 案。基于 秘 密 共 享 的 联 邦 聚 合 方 案 不 会 有 精 度 损失,计 算 效 率 高,计 算 成 本 低,但 是 也 存在 通 信 成 本 高、信 息 传 输 信 道 要 求 高 等 缺2022 年 10 月|保密科学技术|41网络防护点。在 移 动 计 算 环 境 下,通 信 瓶 颈 也 成 为关 键 挑 战。在 联 邦 学 习 数 据 隐 私 保 护 方 面,同 态加 密 技 术 提 供 了 一 种 密 码 学 解 决 方 案,客户 端
11、对 数 据 加 密 后 发 送 给 中 心 服 务 器,而中 心 服 务 器 在 不 获 取 明 文 数 据 隐 私 的 情 况下,在 密 文 下 完 成 特 定 运 算 得 到 计 算 结果。客 户 端 收 到 加 密 计 算 结 果 后 解 密,其结 果 与 明 文 运 算 结 果 一 致。具 体 地,各 个客 户 端 在 更 新 完 局 部 梯 度 后,采 用 同 态 加密 对 其 进 行 加 密 后 上 传 服 务 器。利 用 同 态加 密 的 性 质,中 心 服 务 器 对 收 集 的 局 部 梯度 聚 合 得 到 全 局 梯 度,并 分 发 给 所 有 客 户端。客 户 端 解 密
12、 后 得 到 全 局 梯 度 并 对 本 地模 型 进 行 更 新。同 态 加 密 的 运 算 不 需 要 多方 参 与,具 有 非 互 动 性 的 优 点。但 密 态 数据 运 算 和 密 文 的 传 输 会 带 来 巨 大 的 开 销,不 适 合 在 复 杂 的 深 度 学 习 模 型 训 练 中 使用,同 时 在 移 动 计 算 环 境 下 对 终 端 设 备 的计 算 能 力 要 求 较 高。尽 管 有 多 种 方 法 能 够 实 现 联 邦 学 习 数据 的 隐 私 保 护,但 是 各 种 方 法 优 缺 点 明显,尤 其 在 移 动 计 算 环 境 下,给 终 端 设 备带 来 的
13、 通 信 开 销 和 计 算 开 销 较 大。因 此,要 根 据 不 同 的 场 景 选 用 合 适 的 隐 私 保 护 技术。必 要 时,可 以 结 合 差 分 隐 私 和 多 种 密码 学 工 具 设 计 效 用 更 高 的 数 据 隐 私 保 护 策略,同 时 实 现 联 邦 学 习 中 客 户 端 和 中 心 服务 器 端 的 数 据 隐 私 保 护。3 抗拜占庭攻击的安全鲁棒联合建模在 移 动 计 算 环 境 下,部 分 终 端 设 备 难以 监 管,而 且 联 邦 学 习 本 地 训 练 数 据 和 训练 过 程 对 外 不 可 见,从 而 导 致 移 动 计 算 环境 下 联 邦
14、 学 习 极 易 在 训 练 阶 段 中 遭 受 拜 占庭 攻 击4。攻 击 者 通 过 支 配 训 练 过 程 以 使得 联 邦 模 型 在 测 试 阶 段 错 误 率 较 高。错 误的 预 测 结 果 可 能 会 导 致 用 户 对 模 型 失 去 信任 并 放 弃 训 练 模 型,进 而 造 成 经 济 损 失。面 向 联 邦 学 习 的 拜 占 庭 攻 击 可 划 分 为 数 据投 毒 攻 击5和 模 型 投 毒 攻 击6。由 于 联 邦学 习 架 构 引 入 聚 合 协 议,其 通 过 加 密 协 议将 用 户 训 练 的 本 地 模 型 更 新 聚 合 到 一 个 全局 模 型,原
15、 始 的 本 地 模 型 信 息 无 法 从 加 密数 据 中 获 取,加 大 了 拜 占 庭 攻 击 检 测 的 难度。因 此 作 为 一 种 新 型 的 分 布 式 机 器 学 习架 构,在 联 邦 学 习 中 构 建 具 有 拜 占 庭 容 错机 制 的 安 全 聚 合 机 制 尤 为 重 要。针 对 上 述挑 战,根 据 联 邦 学 习 架 构 中 是 否 需 要 中 心节 点 识 别 拜 占 庭 用 户 的 需 求,将 当 前 抗 拜占 庭 攻 击 的 鲁 棒 性 联 邦 学 习 的 研 究 工 作 分为 以 下2种 类 型。3.1 有中心的拜占庭攻击识别大 量 研 究 工 作 集
16、中 于 在 中 心 节 点 上 部署 抗 拜 占 庭 攻 击 机 制,其 基 于 相 似 度 机 制设 计 防 御 策 略。在 基 于 相 似 度 的 拜 占 庭 攻击 识 别 中,中 心 节 点 在 本 地 模 型 更 新(即本 地 梯 度)上 根 据 欧 几 里 德 距 离、余 弦 相似 度 及 聚 类 算 法 等 方 法 识 别 异 常 值。其中,K r u m方 案7采 用 欧 几 里 德 距 离 识 别 用户 提 交 的 本 地 梯 度 中 的 离 群 值,并 选 择 与相 邻 梯 度 距 离 最 近 的 梯 度 作 为 全 局 梯 度。A u r o r方 案8采 用k-m e a
17、 n s聚 类 算 法 在 上传 的 本 地 梯 度 上 识 别 并 删 除 异 常 值。F L-t r u s t方 案9提 出 基 于 余 弦 相 似 度 的 拜 占 庭容 错 机 制,度 量 每 个 本 地 梯 度 与 在 验 证 数据 上 训 练 的 良 性 梯 度 的 余 弦 相 似 度,从 而实 现 对 恶 意 梯 度 的 检 测。3.2 无中心的拜占庭攻击识别无 中 心 的 拜 占 庭 攻 击 识 别 方 案 无 需 依赖 于 可 信 任 的 中 心 节 点。F u n g等 人1 0将中 心 化 的 抗 拜 占 庭 攻 击 联 邦 学 习 方 案 迁 移至 不 信 任 的 去
18、中 心 环 境 中,并 根 据 本 地 模42|保密科学技术|2022 年 10 月网络防护型 更 新 对 可 信 全 局 模 型 性 能 的 影 响 进 行评 估,以 识 别 恶 意 的 本 地 模 型 更 新。Y i n等 人1 1通 过 修 改 本 地 训 练 过 程 和 聚 合 机制 以 增 强 抗 拜 占 庭 攻 击 的 鲁 棒 性,设 计 基于 中 值 定 理 和 剪 枝 均 值 的 分 布 式 梯 度 下降 算 法,避 免 异 常 梯 度 参 与 梯 度 聚 合。A l i s t a r h等 人1 2提 出 了 抗 拜 占 庭 攻 击 的 随机 梯 度 下 降,在 安 全 聚
19、 合 中 随 机 选 取 本 地模 型 更 新 增 强 训 练 过 程 的 鲁 棒 性。S h a y a n等 人1 3提 出 一 种 分 布 式 的 安 全 多 方 联 邦 学习 方 法,使 用 区 块 链 和 加 密 原 语 来 协 调 用户 之 间 的 训 练 过 程,其 将K r u m防 御 方 案部 署 于 安 全 多 方 计 算 的 链 上 联 邦 学 习 架 构中,具 有 可 扩 展 性、容 错 性 和 防 御 已 知 攻击 的 能 力。4 联邦模型部署应用后的数据遗忘联 邦 模 型 部 署 应 用 之 后,移 动 终 端 用户 因 为 某 些 原 因 需 要 对 特 定 的
20、 数 据 点 进 行撤 销 操 作,以 此 来 消 除 特 定 数 据 点 对 已 部署 联 邦 模 型 的 影 响,达 到 数 据 遗 忘 的 目的,同 时 不 影 响 模 型 对 其 他 数 据 的 预 测。最 简 单 的 方 法 就 是 在 去 除 掉 特 定 数 据点 之 后,各 终 端 用 户 与 服 务 器 利 用 剩 余 的数 据 从 最 初 始 的 状 态 重 新 进 行 联 邦 模 型 的训 练,该 类 方 法 能 够 确 保 有 效 地 删 除 特 定数 据 点,但 是 会 浪 费 更 多 资 源,如 时 间 资源、计 算 资 源、通 信 资 源 等,从 而 大 大 降低
21、联 邦 学 习 的 效 率,增 加 了 很 多 重 复 性 的工作。除 了 重 训 练 的 方 法 外,使 用 较 多的 方 法 是 利 用 梯 度 进 行 数 据 遗 忘。F e d E r a s e r1 4是 一 种 以 存 储 空 间 来 换 取重 新 构 建 模 型 时 间 的 数 据 遗 忘 方 法。在 全局 模 型 的 训 练 过 程 中,中 心 服 务 器 会 每 隔固 定 轮 数 存 储 移 动 终 端 用 户 上 传 的 本 地 模型 更 新 梯 度 及 相 应 轮 数 的 索 引。由 于 联邦 模 型 是 由 各 移 动 用 户 进 行 迭 代 训 练 得 到的,所 以
22、 在 当 有 用 户 要 求 联 邦 模 型 对 其 数据 进 行 遗 忘 训 练 时,中 心 服 务 器 与 其 他 剩余 移 动 用 户 就 会 利 用 之 前 存 储 的 各 用 户 上传 的 模 型 更 新 梯 度 来 进 行 多 轮 模 型 信 息 解耦 训 练,当 满 足 终 止 条 件 时,就 会 得 到 一个 新 的 完 成 数 据 遗 忘 的 联 邦 模 型。另 一 类方 法 则 是 利 用 一 个 可 训 练 的 虚 拟 梯 度 生 成器 生 成 的 梯 度 来 进 行 数 据 的 遗 忘 训 练,如F o r s a k e n1 5是 模 仿 人 类 神 经 细 胞 的
23、 主 动遗 忘 机 制 来 实 现 数 据 遗 忘 的 方 法。在 主 动遗 忘 机 制 中,会 有 遗 忘 细 胞 来 产 生 一 种 特殊 的 多 巴 胺,对 记 忆 细 胞 产 生 刺 激,加 速记 忆 细 胞 对 信 息 的 遗 忘 进 程。在F o r s a k e n中,由 一 个 可 训 练 的 掩 模 梯 度 产 生 器 来 充当 遗 忘 细 胞,生 成 用 于 刺 激 神 经 元 进 行 遗忘 的 掩 模 梯 度,这 些 梯 度 被 用 来 消 除 联 邦模 型 对 特 殊 数 据 点 的 记 忆,以 达 到 数 据 遗忘 的 目 的。上 述 的 方 法 只 实 现 了 遗
24、 忘 操 作,无 法验 证 数 据 是 否 被 联 邦 模 型 彻 底 遗 忘。G a o等 人1 6将 联 邦 学 习 下 的 数 据 遗 忘 与 验证 集 成 到 一 个 统 一 的 框 架 下1 6。其 运 行机 制 是:有 撤 销 需 求 的 移 动 终 端 用 户(即目 标 客 户 端)向 服 务 器 提 出 数 据 遗 忘 请求 后,目 标 客 户 端 会 利 用 特 定 的 标 记 方 法来 对 需 要 进 行 遗 忘 效 果 验 证 的 数 据 进 行 标记,完 成 标 记 之 后 会 通 知 服 务 器 进 行 遗 忘训 练,训 练 完 成 后 目 标 客 户 端 立 刻 进
25、 行 遗忘 验 证。标 记 时 注 入 精 心 设 计 的 标 记 以 对目 标 客 户 端 的 数 据 进 行 指 纹 识 别,而 检 查时 检 查 全 局 模 型 在 标 记 上 的 性 能 变 化。数据 遗 忘 过 程 的 原 理 是 放 大 或 缩 小 模 型 更 新会 改 变 其 对 全 局 模 型 的 影 响,服 务 器 在 对更 新 进 行 聚 合 时,会 缩 小 目 标 客 户 端 上 传的 模 型 更 新,放 大 其 他 终 端 用 户 的 模 型 更新,增 加 了 目 标 客 户 端 与 其 他 终 端 用 户 的本 地 模 型 的 距 离,使 全 局 模 型 更 接 近
26、其 他2022 年 10 月|保密科学技术|43网络防护移 动 终 端 用 户 的 本 地 模 型,迫 使 联 邦 模 型主 动 放 弃 目 标 客 户 端,实 现 数 据 遗 忘。5 结语移 动 计 算 模 式 下 的 数 据 安 全 问 题 已 成为 阻 碍 人 工 智 能 技 术 健 康 发 展 的 关 键,在国 家 十 四 五 规 划 与2 0 3 5年 远 景 目 标 纲要 中 明 确 提 出 要 确 保 人 工 智 能 战 略 实 施中 的 数 据 安 全 问 题。因 此,在 联 邦 学 习 等人 工 智 能 技 术 应 用 中,应 切 实 考 虑 移 动 计算 模 式 的 特 点
27、,结 合 我 国 发 展 现 状,确 保数 据 价 值 流 通 的 同 时 保 障 移 动 终 端 用 户 的元 数 据 安 全,从 而 实 现 人 工 智 能 战 略 的 安全 实 施。参考文献1 M.Abadi,A.Chu,I.J.Goodfellow,H.B.McMahan,I.Mironov,K.Talwar,and L.Zhang.Deep Learning with Differential PrivacyC.Proceedings of the ACM SIGSAC Conference on Computer and Communications Security,2016:3
28、08318.2 P.Mohassel and Y.Zhang.Secureml:A System for ScalablePrivacy-preserving Machine LearningJ.IEEE Symposium on Security and Privacy,2017:1938.3 L.T.Phong,Y.Aono,T.Hayashi,L.Wang,and S.Moriai.Privacy-preserving Deep Learning via Additively Homomorphic EncryptionJ.IEEE Transactions on Information
29、 Forensics and Security,2018,13(05):13331345.4 Bhagoji A N,Chakraborty S,Mittal P,et al.Analyzing Federated Learning Through an Adversarial LensC.International Conference on Machine Learning,2019:634643.5 Tolpegin V,Truex S,Gursoy M E,et al.Data Poisoning Attacks Against Federated Learning SystemsC.
30、Proc.European Symposium on Research in Computer Security(ESORICS20).Springer,2020:480501.6 Fang M,Cao X,Jia J,et al.Local Model Poisoning Attacks to Byzantine-robust Federated LearningC.Proc.USENIX Security Symposium,2020.7 Blanchard P,Mhamdi E M E,Guerroui R,et al.Machine Learning with Adversaries:
31、Byzantine Tolerant Gradient DescentC.Proc.Neural Information Processing Systems,(NIPS17),2017.8 Shen S,Topls S,SaxenaAXENA P.Auror:Defending Against Poisoning Attacks in Collaborative Deeplearning SystemsC.Proc.Annual Conference on Computer Security Applications,(ACSAC16).ACM,2016:508519.9 Cao X,Fan
32、g M,Liu J,et al.Fltrust:Byzantine-robustFederated Learning via Trust BootstrappingC/OL.Pro.Network and Distributed Systems Security(NDSS21).10 Fung C,Koerner J,Grant S,et al.Dancing in the Dark:Private Multi-party Machine Learning in an Untrusted SettingJ.arXiv preprint arXiv:1811.09712,2018.11 Yin
33、D,Chen Y,Kannan R,et al.Byzantine-robust Distributed Learning:towards Optimal Statistical RatesC.International Conference on Machine Learning.PMLR,2018:56505659.12 Alistarh D,Allen-Zhu Z,Li J.Byzantine StochasticGradient DescentJ.Advances in Neural Information Processing Systems,2018,31.13 Shayan M,
34、Fung C,Yoon C J M,et al.Biscotti:A Blockchain System for Private and Secure Federated LearningJ.IEEE Transactions on Parallel and Distributed Systems,2020,32(07):15131525.14 Liu G,Ma X,Yang Y,et al.FedEraser:Enabling EfficientClient-Level Data Removal from Federated Learning ModelsC.2021 IEEE/ACM 29
35、th International Symposium on Quality of Service(IWQOS).IEEE,2021:110.15 Liu Y,Ma Z,Liu X,et al.Learn to Forget:Machine Unlearning via Neuron MaskingJ.arXiv preprint arXiv:2003.10933,2020.16 Gao X,Ma X,Wang J,et al.VeriFi:Towards Verifiable Federated UnlearningJ.arXiv preprint arXiv:2205.12709,2022.44|保密科学技术|2022 年 10 月网络防护
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100