跳转至

第二讲:数据合规与安全

数据安全事件频发 (page 2)

随着大数据时代的到来,数据量呈爆炸式增长,个人隐私数据泄露问题日益突出,亟待解决。

典型数据安全事件
  • 滴滴出行:因严重违法违规收集使用个人信息被勒令下架整改。
  • Facebook:用户数据遭窃,5.33 亿用户的个人隐私数据被泄露。
  • Quora:系统遭第三方未授权访问,1 亿用户数据可能泄露。
  • Exactis:失误泄露 2TB 隐私信息,含 3.4 亿条数据,涉及 2.3 亿人。
  • 万豪酒店:客房预订数据库遭黑客入侵,约 5 亿名客人的信息可能被泄露。
  • 美国医疗机构:数据泄露造成 130 亿美元损失。

这些事件凸显了数据安全和隐私保护的严峻挑战。

数据安全法制化建设越来越完善 (page 3-4)

为了应对日益严峻的数据安全挑战,各国纷纷加强数据安全法制化建设。中国已初步形成了以法律、法规、标准为核心的数据安全法律体系。

中国数据安全法律框架 (page 3)

  1. 法律

    • 《中华人民共和国网络安全法》
    • 《中华人民共和国个人信息保护法》
    • 《中华人民共和国数据安全法》
    • 《中华人民共和国未成年人保护法》
    • 《中华人民共和国密码法》
    • 《中华人民共和国国家安全法》
  2. 法规

    • 《网络数据安全管理条例(征求意见稿)
    • 《深圳经济特区智能网联汽车管理条例》
    • 《深圳经济特区数字经济产业促进条例》
    • 《浙江省公共数据开放与安全管理暂行办法》
    • 《上海市数据条例》
    • 《数据出境安全评估办法》
    • 《网络安全审查办法》
  3. 标准

    • 《信息安全技术个人信息安全规范(GB/T 35273-2020)
    • 《信息安全技术数据安全能力成熟度模型(GB/T 37988-2019)
    • 《工业互联网数据安全保护要求(YD/T 3865-2021)
    • 《公共数据安全体系评估规范(DB33/T 2488-2022)

“三驾马车”法律架构 (page 59)

2021 年《数据安全法》与《个人信息保护法》的出台,与 2017 年《网络安全法》共同构成了数据要素合规领域的“三驾马车”,标志着我国数据要素合规的基本法律架构已初步搭建完成。

  • 《网络安全法》:强调国家实行网络安全等级保护制度,要求采取数据分类、重要数据备份和加密等措施。
  • 《数据安全法》:规定开展数据处理活动应建立健全全流程数据安全管理制度,组织数据安全教育培训,采取技术措施保障数据安全。
  • 《个人信息保护法》:首次明确对个人信息保护合规提出了要求,例如采取加密、去标识化等安全技术措施,并对违法行为规定了高额罚款。

这些法律法规共同构筑了数据要素合规的基石,为数据的合法处理、流通和价值挖掘提供了保障。

隐私计算常见技术 (page 5-56)

为了在数据流通和使用中有效保护隐私,一系列隐私计算技术应运而生。

隐私计算技术概述

隐私计算是一类信息技术,旨在实现数据价值的流通和利用,同时保障数据本身的隐私安全。

1. 安全多方计算 (Secure Multi-Party Computation, MPC) (page 5, 7-11)

定义:安全多方计算是一种密码学技术,允许多个互不信任的参与方在不泄露各自原始数据的前提下,共同完成一项计算任务。

安全多方计算

互不信任的参与方协同计算而不泄露隐私信息。

核心思想:通过密码学手段(如同态加密、混淆电路、秘密共享等,将数据加密或进行数学变换,使得计算可以在密文上进行,最终得到计算结果,但无法还原出任何一方的原始输入数据。

经典问题姚氏百万富翁问题1

姚氏百万富翁问题

假设 Alice Bob 都是百万富翁,他们想知道谁更富有,但又不想泄露各自的具体财产金额。如何设计一个协议,使得他们可以比较出谁的钱更多,而除了最终的比较结果外,无法得知对方的具体金额?

通俗理解方法

  1. 第一个百万富翁(Alice)准备十个盒子,分别代表 1 10
  2. Alice 将自己的财产数字与每个盒子的数字进行比较:如果小于盒子数字,就在盒子里放一个苹果;如果大于等于,就放一个香蕉。
  3. 第二个百万富翁(Bob)在第一个百万富翁不参与的情况下,选择自己财产数额对应的盒子。
  4. Bob 销毁所有剩余的盒子。
  5. 最后,两个百万富翁一起打开 Bob 选择的盒子,根据里面是苹果还是香蕉,就可以判断谁更富有,但具体金额不被泄露。

数学协议示例: 假设 Alice 有 \(i\) 百万美元,Bob 有 \(j\) 百万美元,其中 \(1 \le i, j \le 10\)。目标是确定 \(i < j\) 是否成立,且不泄露 \(i\)\(j\) 的具体值。

  1. Bob 生成密钥对 \((PK_A, SK_A)\),选择一个大的随机数 \(x\),并用 Alice 的公钥 \(PK_A\) 加密得到 \(E_{PK_A}(x) = k\)
  2. Bob 计算并发送给 Alice\(k' = k - j + 1\)
  3. Alice 解密Alice 用自己的私钥 \(SK_A\) 解密 \(k'\),得到 \(D_{SK_A}(k')\). 接着 Alice 计算 \(y_u = D_{SK_A}(k - j + u)\) for \(u = 1, \dots, 10\)
  4. Alice 引入随机性Alice 生成一个大的随机素数 \(p\),并计算 \(z_u = y_u \pmod p\)。为了保证隐私,Alice 会多次尝试不同的 \(p\),直到所有的 \(z_u\) 值彼此之间相隔至少 2
  5. Alice 发送信息给 BobAlice 将素数 \(p\) 10 个数字序列发送给 Bob。该序列是 \(z_1, z_2, \dots, z_i\) 以及 \(z_i+1, z_{i+1}+1, \dots, z_{10}+1\)(模 \(p\) 意义下
  6. Bob 比较Bob 检查他收到的第 \(j\) 个数字(不包括 \(p\),是否等于 \(x \pmod p\)
    • 如果相等,则说明 \(j \le i\)
    • 如果不相等,则说明 \(j > i\)
  7. Bob 告知 Alice 结论

协议背后的原理: - 第一步:通过特定操作,Alice 构造 \(n\) 把锁,Bob 拥有且仅拥有第 \(j\) 把锁的钥匙,但 Alice 不知道 \(j\) 是多少。 - 第二步Alice Bob \(n\) 把锁着的标志位,其中前 \(i\) 个标志位置为 0,后 \(n-i\) 个置为 1。 - 第三步Bob 检查第 \(j\) 把锁锁着的标志位是否为 0。如果为 0 \(i \ge j\),否则 \(i < j\)

2. 联邦学习 (Federated Learning, FL) (page 5, 13-15)

定义:联邦学习是一种分布式机器学习技术,在不共享原始数据的前提下,多个参与方(数据拥有方)通过加密传输模型参数,共同训练一个机器学习模型。

联邦学习

在分布式设备或系统上训练模型,参与方仅传输模型参数,在不共享数据的基础上联合建模。原始数据不出域、通信量低、计算负载均衡,但是上传参数存在隐私泄露风险。

核心特征

  • 多方协作:多个数据拥有方协作构建一个共享的机器学习模型,每个参与方都拥有各自的训练数据。
  • 各方平等:所有参与方在训练过程中地位平等。
  • 数据隐私保护:原始数据不离开数据拥有方,且其他参与方无法推测出原始数据。

技术类别

  • 横向联邦学习 (Horizontal Federated Learning):适用于单一数据库用户量不足但属性维度相似的场景,多个数据库联合训练。例如,不同医院的病历数据,病种相似但患者数量不足。
  • 纵向联邦学习 (Vertical Federated Learning):适用于单一数据库属性维度不足但用户重叠度高的场景,多个数据库联合训练。例如,同一用户在银行和电商平台的金融和消费数据。
  • 迁移联邦学习 (Federated Transfer Learning):适用于数据库之间样本和属性重叠均较少的场景,通过迁移学习技术实现多个数据库的联合训练。

优势: - 更好的隐私保护:相比集中式学习,原始数据不离开本地。 - 减少通信开销:只传输模型参数,通信量通常小于传输原始数据。 - 可扩展性:相比安全多方计算,计算和通信复杂度更低,可扩展到百万级参与者。

劣势: - 精度损失:相比集中式学习,可能存在一定的模型精度损失。 - 信息泄露风险:尽管不传输原始数据,但模型参数本身可能泄露部分信息。 - 计算任务局限:主要局限于模型训练任务。

实用化挑战: - 降低隐私泄漏:需要结合密码学、差分隐私等技术,降低联邦学习中间结果的隐私泄漏风险。 - 兼容大模型:模型参数量巨大,需要研究新的联邦学习方法以降低通信复杂度。

3. 数据脱敏 (Data Masking) (page 5, 17-27)

定义:数据脱敏是根据制定的脱敏规则,对敏感信息进行数据变形或遮蔽,以降低数据的敏感级别,扩大数据可共享和被使用的范围,从而达到保护隐私数据的安全目的。

数据脱敏

数据脱敏 (Data Masking) 是根据制定的脱敏规则,针对敏感信息进行数据变形或遮蔽,降低数据的敏感级别,扩大数据可共享和被使用的范围,达到保护隐私数据安全的目的。

分类

  • 动态数据脱敏:适用于不脱离生产环境的场景,对敏感数据的查询和调用结果进行实时脱敏。不同角色、权限和数据类型可以应用不同的脱敏方案,确保返回数据的可用性和安全性。
  • 静态数据脱敏:适用于脱离生产环境的场景,脱敏后分发至测试、开发、数据分析等环节。通过“搬移并仿真替换”的方式,将敏感数据处理后下发给下游环节,使脱敏数据与生产环境相隔离,满足业务需求同时保障生产数据库安全。

常见技术

  • 无效化:对字段数据值进行截断、加密、隐藏,使其不再具有利用价值。通常用特殊字符(如 *)代替真值。
  • 随机值替换:将字母替换为随机字母,数字替换为随机数字,文字随机替换。优点是保留原有数据格式,用户不易察觉。
  • 数据替换:用一个设定的虚拟值替换真值,不使用特殊字符遮挡。
  • 对称加密:一种可逆脱敏方法,通过加密密钥和算法对敏感数据加密。密文格式与原始数据在逻辑规则上一致,通过密钥解密可恢复原始数据。关键在于密钥的安全性。
  • 平均值:常用于统计场景,针对数值型数据。先计算均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。
  • 偏移和取整:通过随机移位改变数字数据,在保持数据安全性的同时保证范围的大致真实性。在大数据分析场景中意义较大。

脱敏标准 / 要求

  • 遮蔽脱敏:对数据的全部或部分用符号替换。
  • 一致性脱敏:脱敏后数据间的关联关系保持不变。
  • 保持数据格式脱敏:保留数据的主要格式。
  • 保持数据特征脱敏:保留数据的主要特征。
  • 泛化脱敏:在保留原始数据局部特征的前提下,使用其他方式替代原始数据。
  • 可逆性脱敏:脱敏后数据可使用对应表进行恢复操作。

整体架构 (page 27): 数据脱敏的整体架构通常包括:

  1. 敏感数据识别:识别原始数据中的敏感信息。
  2. 敏感数据处理:根据脱敏规则,进行动态脱敏或静态脱敏。
  3. 脱敏数据使用:将脱敏后的数据用于外部访问、开发测试环境或外部开发环境。

4. 差分隐私 (Differential Privacy, DP) (page 5, 29-49)

定义:差分隐私是一种严格的数学隐私保护模型,旨在通过向数据添加随机噪声来保护个体隐私,同时仍能进行有意义的统计分析。

差分隐私 (Differential Privacy) 2

第一次用可证明的数学模型定义了隐私和隐私保护(Dwork06。它通过引入随机扰动,在实现数据分析 / 挖掘应用的同时保护用户的数据隐私。

核心思想:通过对真实数据添加随机噪声进行扰动,实现用户隐私的量化保护。

  • 安全性:随机噪声对真实数据的扰动是差分隐私安全性的来源。
  • 可用性:独立随机噪声叠加后的相互抵消使得扰动数据的统计结果仍具有较高准确度。
隐私困境 (page 30)

如果一个数据集中包含某个个体的敏感信息(如 HIV+ 状态,直接发布统计直方图可能暴露个体隐私。差分隐私的目标是:不学习关于个体的任何信息,同时学习关于总体的有用统计信息。

数学定义: 对于任意两个相邻数据集 \(D_1\)\(D_2\)(只相差一行记录,即一个记录的添加或移除),以及算法 \(A\) 的任意输出 \(O\),差分隐私要求满足:

\[ \log \left( \frac{\Pr[A(D_1) = O]}{\Pr[A(D_2) = O]} \right) < \epsilon \quad (\epsilon > 0) \]

等价于:

\[ \Pr[A(D_1) = O] \le e^\epsilon \Pr[A(D_2) = O] \]

其中,\(\epsilon\) 是隐私预算(privacy budget,控制隐私保护的强度: - \(\epsilon\) 越小,隐私性越强,但数据可用性越差(噪声越大)。 - \(\epsilon\) 越大,隐私性越弱,但数据可用性越好(噪声越小)。

为什么是“只相差一行”的数据集? 这是为了模拟单个记录的存在或缺失对查询结果的影响,从而保证即使攻击者知道数据集中除目标个体外的所有信息,也无法推断出该目标个体是否在数据集中。

为什么是“所有”数据集对? 这是为了保证无论数据集中其他记录是什么,该隐私保证都成立,提供强大的抗背景知识攻击能力。

实现机制:Laplace 机制 (page 36-42)

Laplace 机制 3

Laplace 机制是一种常用的差分隐私实现方法,通过向查询结果中添加服从 Laplace 分布的随机噪声来实现差分隐私。

敏感度 (Sensitivity) 4: 对于查询函数 \(q: \mathcal{I} \to \mathbb{R}\),其敏感度 \(S(q)\) 是指对于任意两个相邻数据集 \(D, D'\),查询结果 \(|q(D) - q(D')|\) 的最大可能变化量中的最小上界。

\[ S(q) = \max_{D, D'} |q(D) - q(D')| \]

Laplace 机制定理: 如果查询 \(q\) 的敏感度是 \(S(q)\),那么算法 \(A(D) = q(D) + \text{Lap}(S(q)/\epsilon)\) 能够保证 \(\epsilon\) -差分隐私。 其中,\(\text{Lap}(\lambda)\) 表示服从参数为 \(\lambda\) 的 Laplace 分布,其概率密度函数为:

\[ f(x | \mu, \lambda) = \frac{1}{2\lambda} \exp\left(-\frac{|x-\mu|}{\lambda}\right) \]

在差分隐私中,通常 \(\mu=0\),噪声 \(\eta\) 服从 \(\text{Lap}(S(q)/\epsilon)\)

Laplace 机制示例 (COUNT Query): 假设有一个数据集,包含个体是否患病的信息(Y/N)。我们想查询患病人数。 - 当一个记录从 Y 变为 N 时,COUNT query 的结果变化是 1。因此,敏感度 \(S(COUNT) = 1\)。 - 为了实现 \(\epsilon\) -差分隐私,我们在真实计数上添加服从 \(\text{Lap}(1/\epsilon)\) 分布的噪声。

\[ \text{Solution: Actual Count} + \eta, \quad \text{where } \eta \sim \text{Lap}(1/\epsilon) \]

差分隐私的组合性 (page 43)

  • 顺序组合 (Sequential Composition):当在同一数据集上进行一系列查询时,总隐私预算是每个查询的隐私预算之和。
  • 并行组合 (Parallel Composition):当在不相交的数据集上进行并行查询时,总隐私预算是所有查询中隐私预算的最大值。

为什么是差分隐私? (page 44)

  • 功能需求:加密方法解决了数据计算过程中的隐私泄露,而差分隐私解决了计算结果的隐私泄露。
  • 性能需求:在海量数据收集的场景中,加密方法(如全同态加密)计算开销过大,而差分隐私通过添加噪声的方式,性能开销相对较小。
  • 风控需求:企业需要一种“一劳永逸”的用户数据脱敏方法,即在数据收集后,存储、处理、分析阶段不需要额外的用户隐私保护措施,从而有效控制风险责任。

全局差分隐私 vs 本地差分隐私 (page 45)

  • 全局差分隐私 (Global Differential Privacy):可信的数据管理者收集所有数据,并在数据集的统计结果上添加扰动。优点是噪声较少,数据可用性较高。
  • 本地差分隐私 (Local Differential Privacy):用户在本地对数据添加扰动后,再发送给非可信的数据管理者。优点是用户数据在离开设备前就得到保护,隐私性更强。缺点是噪声通常更大,数据可用性相对较低。

差分隐私应用概览 (page 46-49)

  • Google (2014):推出基于布隆过滤器和随机响应技术的 RAPPOR 本地差分方案,应用于 Chrome 浏览器,采集用户系统设定和域名访问数据。
  • Apple (2016):在 WWDC 大会宣布使用基于 CM-Sketch 和阿达马变换的本地化差分隐私技术,保护 iOS/MAC 用户隐私,用于统计表情符号、键盘输入、高频域名等。
  • Microsoft (2017):在 Windows 10 中部署本地化差分隐私方案,引入 1BitMeandBitFlip Memoization 等方法,用于统计应用使用时长和用户使用模式。
  • 其他:Uber(用户数据采集分析、美国人口普查(微观普查数据、IBM(开源库 Diffprivlib、阿里巴巴(DataTrust 平台、领英(广告客户查询、TensorFlow(隐私保护机器学习开源库

5. 全同态加密 (Fully Homomorphic Encryption, FHE) (page 5, 51-52)

定义:全同态加密是一种加密技术,允许在密文域上直接对数据进行任意计算(如加法和乘法,而无需先解密。计算结果仍为密文,解密后与明文数据直接计算的结果相同。

全同态加密

在密文域的操作等效于明文域的对应操作,支持加法和乘法数据操作的同时不泄露任何数据信息。

简单示例 ( 加法同态 ): 假设加密算法是将明文乘以密钥 73。 - 明文 \(m_1=6, m_2=8\)。 - 加密 \(E(m_1)=6 \times 73 = 438\), \(E(m_2)=8 \times 73 = 584\)。 - 密文域相加:\(438 + 584 = 1022\)。 - 解密:\(1022 \div 73 = 14\)。 - 明文域相加:\(6+8=14\)。 - 结果一致,实现了加法同态。

技术发展: - 第一代同态加密 (Gentry09):首次提出全同态加密算法,证明其可行性。 - 第二代同态加密 (BV11, BGV12):基于标准安全假设构造,效率有所提升。 - 第三代同态加密 (GSW13):设计了基于近似特征向量的方案,进一步提升了效率。 - 第四代同态加密 (CKKS16):支持浮点数同态运算,使其能应用于联邦学习等场景。

优势: - 数据可用不可见:实现了在密文域上的任意运算,运算过程中无需解密,避免敏感信息泄露。 - 隐私保护严格:理论上能提供最高级别的隐私保护。

劣势: - 计算成本高:尽管技术不断发展,但全同态加密的计算开销依然巨大,限制了其实际应用。

6. 零知识证明 (Zero Knowledge Proof, ZKP) (page 5, 54-56)

定义:零知识证明是一种密码学协议,证明者能够在不向验证者透露任何额外信息(除了要证明的论断本身)的情况下,使验证者相信某个论断是真实的。

零知识证明 (Zero Knowledge Proof) 5

证明者 (Prover) 能够在不向验证者 (Verifier) 提供任何有用的信息的情况下,使验证者相信某个论断是正确的。

核心特征: - 完整性 (Completeness):如果论断是真实的,诚实的证明者总能使诚实的验证者相信。 - 可靠性 (Soundness):如果论断是虚假的,不诚实的证明者几乎不可能使诚实的验证者相信(即无法作弊。 - 零知识性 (Zero-Knowledge):验证者除了得知论断的正确性外,无法获得任何关于论断的额外信息。

魔法门示例 (page 54)

Alice 知道一个魔法洞穴中某扇门的开门暗号,洞穴是环形,入口在一侧,对侧有魔法门隔断。Bob 想知道 Alice 是否知道暗号,但 Alice 不想泄露暗号。

协议过程

  1. Alice 随机选择一条路进入洞穴(A B
  2. Bob 进入山洞,随机选择 A B 作为他想让 Alice 返回的路径名称并大喊。
  3. 如果 Alice 确实知道暗号,她可以在必要时打开门,永远能够沿着 Bob 要求的路径返回。
  4. 如果 Alice 不知道暗号,她只能在 Bob 碰巧做出与她所选路径相同的选择时返回(50% 的机会
  5. 重复多次(例如连续进行 20 ,如果 Alice 每次都能成功返回,那么 Bob 相信 Alice 知道暗号的概率会呈指数级增长,但 Bob 从未真正得知暗号本身。

零知识证明技术分类

  • 交互式零知识证明:通过证明者和验证者之间的多轮交互完成论断的证明。
  • 简洁非交互式零知识证明 (zk-SNARKs)
    • 简洁:证明大小和验证时间都很短,可以快速验证。
    • 非交互式:证明者和验证者之间只需要交互一次(或者无交互,通过公共参数
  • 非交互式可扩容透明零知识证明 (zk-STARKs)
    • 可扩容:验证时间与电路规模呈亚线性增长,适用于大规模计算。
    • 透明:依赖可公开验证的随机数来生成公共参数,无需可信设置。

优势: - 严格的隐私保护:通过密码学可证明的安全理论,实现对用户信息的隐私保护。 - 广泛的应用场景:包括匿名支付、身份认证、区块链扩容等,未来市场潜力巨大。

劣势: - 证明生产成本高:证明者的时间和空间复杂度较高,难以在低算力设备上执行。 - 需要不可证伪假设:大多数零知识证明技术需要某种不可证伪的密码学假设(如知识假设,这可能引入新的攻击面。 - 存在量子计算威胁:部分零知识证明依赖双线性曲线群,量子计算机可能打破其安全模型。

实用化挑战: - 性能优化:需要优化执行引擎,改进算法和电路,实现线性证明者执行时间。 - 硬件加速:设计新型基于硬件(GPU、ASIC)加速的安全零知识证明方案。 - 零知识证明编译器:开发高兼容性零知识证明编译器,包括高级开发框架、布尔电路、R1CS 编译器。

数据要素合规背景 (page 58-61)

数据要素合规是当前数字经济发展的关键议题。

合规面临的挑战 (page 60)

  • 数据体量与维度激增:多模态海量数据与多维属性使得合规工作量和处理难度呈双重挑战,传统合规方式存在明显瓶颈。
  • 管理与产品挑战:为应对数据要素合规时代的到来,企业纷纷设立合规部、合规官,但在实施个人信息保护合规管理过程中,仍面临来自管理层、支持部门、产品本身等各方面的诸多挑战。
  • 强监管信号:网信办、工信部、公安部、市场监督总局等部门持续释放个人信息保护强监管信号,执法常态化趋势,导致各行业数据要素合规需求大幅增加。

消费者权力与企业责任 (page 61)

数据合规旨在平衡消费者的数据权利与企业的数据责任,同时解决大数据融合需求和隐私保护合规之间的矛盾。

消费者权力 企业的数据责任
知情权:了解数据收集和使用方式。 限制查看权限:仅授权个体可访问数据。
被遗忘权:要求删除个人数据。 数据记录:记录数据加工过程、类型、期限、是否输出第三方。
数据保护要求:全球适用安全保护。 数据安全合规:条款含隐私设计原则,缺乏具体实现手段。
个人数据可携权:将数据转移到其他系统。 持续评估:持续检查被保护数据。
访问权:拥有更改不准确数据。 影响评估:加工敏感数据前进行预先评估。
反对权:明确撤回数据收集意愿。 限制加工:仅限数据收集目的。
限制数据收集:限制并保护数据。

核心目标是:满足数据隐私性、可用性和高效性的业务要求。

数据要素合规技术 (page 62, 64-66)

数据安全合规治理面临多项技术挑战,也需要技术创新来推动。

技术挑战与解决方案 (page 62)

  1. 海量异构数据全量扫描

    • 挑战:组织内数据存储方式多元异构,结构复杂,难以高效准确识别和分类海量数据。
    • 解决方案:需高效准确识别与分类。
  2. 多模态数据敏感信息提取

    • 挑战:敏感信息存在于文本、图像、语音等多种模态载体中,难以统一识别。
    • 解决方案:集成 NLP、OCR、ASR 等技术对多模态数据进行敏感信息识别与定位。
  3. 全周期数据安全风险评估

    • 挑战:从项目立项到数据销毁,数据在收集、存储、使用、删除、共享、出境等全生命周期各环节存在风险。
    • 解决方案:需要全周期风险管理。
  4. 数据合规法律知识库搭建

    • 挑战:法律法规数量庞大、更新频繁,难以人工全面理解和应用。
    • 解决方案:结合法律专家知识,将现有法律拆分,建立可量化、可分析、可复用的数据合规法律知识库。
  5. 数据合规量化评价指标制定

    • 挑战:缺乏统一的合规性评价标准。
    • 解决方案:根据法规和国家标准,从合规性、隐私性等维度对数据进行评价,并用于模型训练。
  6. 司法 +AI 智能化合规分析

    • 挑战:人工分析法律法规耗时耗力。
    • 解决方案:平台对法律法规进行深度模型训练与特征提取,通过神经网络模型将违规数据映射到特定法律条款。

合规技术工具 (page 65)

合规工具是数字化转型的关键,技术创新配合易用工具能极大提升工作效率和质量。

  • 数据分析工具:优化数据分析工具,建立全流程易学易用的可视化平台。
  • 专业工具封装:高度封装各类专业工具,降低人员学习和使用门槛。
  • RPA(机器人流程自动化):利用 RPA 等工具,实现文本、报表和数据的自动批量下载和加工,减少重复劳动。

AI 赋能的数据安全技术 (page 66)

  • 基础技术OCR ( 光学字符识别 )ASR ( 自动语音识别 )NLP ( 自然语言处理 ) 用于数据提取和处理。
  • 机器学习、神经网络、深度学习:用于数据分析、模式识别、风险预测等。
  • 区块链技术:应用于数据溯源、存证、确权,保障数据完整性和不可篡改性。

数据要素合规平台 (page 67-79)

数据要素合规平台旨在集人工智能、法律、数据安全于一体,提供个人信息保护合规的一站式解决方案,有效解决合规业务“最后一公里”问题。

平台目标与挑战 (page 68-69)

  • 个人信息隐私保护与安全备受关注:数据过度收集、滥用、泄露等事件频发,引发广泛关注。
  • 数据要素合规是新兴交叉学科:融合了计算机、法律、行业等多领域专业知识。
  • 平台致力于高效审核:帮助数据审核方和处理方高效审核数据,保证数据合规合法流通和处理。

核心功能

  • 个人信息盘点:自动从海量数据中对与个人信息相关的敏感数据进行盘点。
  • 数据分类分级:对各种类型的数据进行自动分类分级。
  • 数据要素合规:自动分析与个人信息关联数据,根据规则进行合规处理。
  • 数据合规处理:根据分析结果自动推荐合规策略,并提供合规处理功能。

“人有人所长,器有器所专” (page 70)

该平台通过发挥人工智能的优势,解放专家精力,使其聚焦于合规要点。海量数据挖掘和分析筛查交由 AI 完成,实现人机协同。 平台需实现数据最小化、数据分类分级和数据匿名化,这三点与隐私保护计算高度相关。

平台技术架构 (page 71)

  • 应用场景:数据交易审计、数据出海审计、自动化合规处理、周期化数据审计。
  • 核心技术
    • 模型化开发:个人信息抽取算法、机器学习分类模型、深度分类模型。
    • 数据安全技术:分布式敏感信息数据库、企业级数据脱敏、数据去标识化 / 匿名化。
    • 赋能:数据合规核心库(个人信息保护合规库、国内 / 国外相关法律法规
  • 理论支持:自然语言处理、图像处理、音频处理、视频处理、安全法律分析。
  • 硬件支持:存储服务器、计算服务器、GPU 服务器。

平台功能模块 (page 72)

平台系统能够对用户上传的数据进行自动化合规性审查,涵盖文本、表格、图片、视频、音频等数据类型。

  • 数据抽取:格式化和非格式化数据的个人信息抽取。
  • 合规性分类与评估:个人信息数据合规性分类,个人信息保护合规。
  • 策略与处理:个人信息保护合规策略推荐,违规数据一键合规,数据要素合规性可视化,违规数据快速定位查询。
  • 报告与技术:个人信息保护合规报告,敏感数据加密分布式存储,数据库敏感信息数据脱敏,个人中高风险信息去标识化 / 匿名化。

个人信息合规审计平台 (page 73)

该平台提供了一整套审计功能:

  • 合规策略设置:设置审计业务基础信息、数据基础信息、数据合规审计规则、合规策略自动调度。
  • 审计规则配置:文本 / 图片黑白名单、敏感信息设置、个人信息设置、法律库设置。
  • AI 自动化合规审计:个人信息抽取(结构化、非结构化、特殊信息,利用个人信息合规核心库(敏感信息库、黑白名单库、定制法律合规清单库,进行文本、图像、音频、视频审计。
  • 合规审计处理:生成审计证据、审计报告、可视化展示,提供合规意见和一键合规功能。

平台适用场景 (page 74-78)

  1. 数据交易:交易主体、交易过程、数据产品合规。
  2. 汽车数据:人机交互(生物识别、语音识别、车内摄像头,车内收集数据合规、敏感数据匿名化、车联网业务数据合规。
  3. 医疗服务:病例数据、生物体征数据、医疗 APP,医疗数据共享合规、生物体征数据匿名化、医疗 APP 采集数据合规。
  4. 数据出海:元数据出境、外企数据入境、数据共享,出境 / 入境数据要素合规、国家重要数据合规。
  5. 内部合规:产品合规、业务合规、管理经营、人员培训,存储数据合规、产品数据合规、供应商数据产品合规。

基于深度学习的个人信息抽取算法 (page 79)

平台利用深度学习技术,提供个人信息抽取算法支持:

  • 应用场景:结构化 / 非结构化个人信息识别、自动化个人信息打标。
  • 工程实现:智能文本 / 图片 / 音频过滤引擎。
  • 模型构建NLP 模型、CV 模型、音频模型。
  • 理论支持:自监督学习、预训练模型、模型集成技术、视频 / 音频处理技术。
  • 数据支持:个人信息保护合规库、个人信息标记库。

数据要素合规展望 (page 84-90)

新型技术带来的挑战与机遇 (page 84)

人工智能、智能物联网和量子技术的出现,使数据安全技术面临新的挑战与机遇:

  • 人工智能:在赋能传统安全防御的同时,也可能被恶意利用,放大攻击者的威胁能力。
  • 智能物联网:万物互联互通导致数以亿计的物联网设备存在巨大数据安全风险。
  • 量子计算与通信:新型计算和通信模式为数据安全技术带来全新挑战和应用场景。

AI 赋能的新型攻击与防御 (page 85-86)

AI 赋能的新型攻击: 人工智能被恶意用于创建更复杂精准的自动化攻击,更快更准地发现系统漏洞。

  • 新型密码破解工具 (PassGAN):通过训练生成对抗网络,学习人类密码使用习惯,掌握其分布,生成更真实准确的密码,破解效率远超传统暴力破解。
  • 钓鱼攻击 (FraudGPT):通过微调生成式语言模型,学习人类邮件撰写习惯和特征,生成看似真实的钓鱼电子邮件,具备极高欺骗性。

AI 赋能的新型防御: 人工智能可以增强防御系统在应对复杂攻击时的防御能力,赋能防御者更准更高效完成威胁检测、入侵检测、渗透测试、智能安全策略制定等任务。

  • 流量检测系统 (USENIX Sec'22):利用 AI 学习网络流量统计特征、会话特征、上下文信息等关键特征,自动化检测恶意流量。能检测加密、暗网等复杂流量。
  • 渗透测试系统 (USENIX Sec'22):利用 AI 智能调度和关联传统渗透测试中的攻击维度,自动化渗透测试流程。准确性和效率远超人工测试。

数据水印 (Watermark) (page 87-90)

定义与目的:数据水印是一种技术,用于断言数据所有权,并防止共享数据的未经授权使用。

基本原理: - 嵌入阶段 (Embedding):在数据中嵌入特定的水印信息(通常通过引入设计噪声。 - 检测阶段 (Detection):从可能被篡改或未经授权使用的数据中检测出水印,以验证所有权或追踪泄露源。

水印嵌入过程

  1. 选择关键单元:从选定的属性中选择关键数据单元(通常是非侵入性的
  2. 噪声域分区:划分噪声范围(例如,红色域和绿色域,并从其中选择噪声。
  3. 扰动关键单元:在所选的关键单元中引入设计好的噪声,从而生成带有水印的数据集。
    • 对于数值型属性,通过添加或减去小量值实现。
    • 对于分类属性,直接替换为预设的水印值。

水印检测过程

  1. 计算扰动差异:计算可疑数据集中可能被扰动单元与原始数据之间的差异。
  2. 恢复噪声域分区:根据预设的噪声域分区规则进行恢复。
  3. 统计绿色单元:根据差异值判断哪些单元属于“绿色单元”(即被水印扰动过的部分
  4. 计算 Z-score 并与阈值比较:通过统计方法计算 Z-score,并与预设阈值进行比较,以确定是否存在水印,从而判断数据是否被未经授权使用。

  1. 姚氏百万富翁问题 (Yao's Millionaires' Problem):由华人密码学家姚期智在 1982 年提出的一个经典安全多方计算问题。它描述了两个百万富翁如何在不透露各自财富的情况下,比较出谁更富有。这个问题是安全多方计算领域的一个里程碑,证明了在隐私保护下进行协同计算的可能性。 

  2. 差分隐私 (Differential Privacy):一种强大的隐私保护技术,通过向数据添加精心设计的随机噪声来混淆个体的精确信息,使得攻击者即使掌握了除了某个特定个体以外的所有数据,也无法判断这个个体是否在数据集中,从而在保证数据可用性的同时,提供严格的数学隐私保证。 

  3. Laplace 机制 (Laplace Mechanism):差分隐私中最基本和广泛应用的机制之一。它通过向查询结果(通常是数值型统计结果)添加服从拉普拉斯分布的随机噪声来实现隐私保护。噪声的大小与查询的敏感度(对单个记录变化的查询结果最大影响)和隐私预算成比例。 

  4. 敏感度 (Sensitivity):在差分隐私中,敏感度是指当数据集中任意一条记录发生变化(添加、删除或修改)时,某个查询函数输出结果的最大变化量。敏感度越高,意味着单个记录对查询结果的影响越大,因此需要添加更多的噪声才能满足差分隐私要求。 

  5. 零知识证明 (Zero-Knowledge Proof):一种密码学协议,允许一方(证明者)向另一方(验证者)证明某个陈述是真实的,而无需透露该陈述本身以外的任何信息。它具有三个核心特性:完整性、可靠性和零知识性。