内积加密：公钥 IPFE 与 CPA 安全性

“内积加密”系列文章的前半部分旨在总结和科普 Agrawal、Libert、Stehlé 在 2016 年提出 ALS16，Wee 在 2017 年改进 Wee17，Agrawal、Libert、Monosij、Titiu 在 2020 年完善 ALMT20 的内积加密算法。在这一篇里我们讨论公钥 IPFE 的语法、语义、安全性，为此我们需要引入计算意义下的不可区分性，并练习多项式时间归约和过渡证明法。题图来自 PS10。

文内导航：

前情提要
计算意义下的不可区分性
公钥 IPFE
- IND-CPA 安全性
- SIM-CPA 安全性
单次安全蕴含着多次安全
本篇结语
参考文献

显示英汉术语对照

前情提要

在第一篇里，我们定义了一次性私钥内积加密的语法、语义、安全性，在前一篇里，我们用一次一密构造了完美模拟安全的一次性私钥内积加密。

虽然完美，但一次性安全性令人不太满意，我们希望多次加密的情况下也有安全保障。此外，我们还希望任何人都能加密，但只有获得私钥的人才能解密——注意，这和普通的公钥加密还不太一样，因为即使获得了私钥，也不能完全解密出明文，而是只能知道明文向量和密钥向量的内积。这一篇定义公钥 IPFE，并通过不可区分性来刻画其安全性。

计算意义下的不可区分性

Shannon 证明了 Sha49 任何明文长度超过密钥长度的私钥加密都 不可能 具有完美安全性。考虑一个私钥内积加密，如果不允许使坏者查询任何密钥，则它的安全性定义就退化为私钥加密的安全性。如果允许使坏者查询多个明文的密文，而且要么总是加密第一个明文，要么总是加密第二个明文，则很容易发现私钥长度固定的内积加密不可能完美安全。

一个绕过这个不可能性的方式是允许密钥动态变化，但是有状态 (stateful)加密系统比普通的加密系统更难正确实现，通常大家希望加密、密钥生成都不需要改变密钥本身。另一个绕过这个不可能性的方式是不追求完美安全，而是要求任何实际 (practical)的攻击手段都无效 (ineffective)。如果你熟悉一点点计算机科学，马上就能意识到这里“实际”的意思就是“多项式时间”，而“无效”的意思则不是这么直截了当——它是指“效果比任何多项式的倒数都小”。

这个概念在密码学中是使用计算意义下的不可区分性 (computational indistinguishability)来刻画的。考虑两个实验¹ $E x p_{0}, E x p_{1} ，$ 它们俩在计算意义下不可区分（简称“不可区分”）是说，对于任何高效²使坏者 $A ，$ 其优势可忽略： $Pr [E x p_{0}^{A} = 1] - Pr [E x p_{1}^{A} = 1] = O (λ^{- k})$ 对任意 $k \in N$ 成立，其中 $λ$ 是安全参数。³这个性质记作 $E x p_{0} \approx E x p_{1} 。$ 提醒一下，第一篇里定义的完美不可区分性记作 $\equiv ，$ 那里优势必须对于任何使坏者严格为 0。还有一种不可区分性叫做统计意义下不可区分，是指优势对于任何使坏者都可忽略。

计算意义下的不可区分性相比完美不可区分性进行了两方面的弱化，一是限制了使坏者的计算资源（必须是多项式时间），二是允许使坏者具有微弱（但可忽略）的优势。套用之前对完美不可区分性的解读，计算意义下的不可区分性就是说：两个实验对任何实际上可行的算法来说都几乎没有区别。

这些概念可以“退化”到分布上，考虑一个分布⁴ $D ，$ 则可如下定义实验 $E x p ：$

抽取 $x \leftarrow_{$} D 。$
运行 $A$ 并向它发送 $x 。$
从使坏者接收一位输出，把它作为实验结果。

如果两个分布⁴ $D_{0}, D_{1}$ 对应的实验具有某种不可区分性，则说这两个分布具有那种不可区分性，也用相同的记号表达。

最后，显然完美不可区分蕴含着统计意义下不可区分，后者又蕴含着计算意义下不可区分。

↩¹ 例如第一篇里用于定义完美保密性的实验以及用于定义完美模拟安全性的实验。

↩² 高效是指可以用概率多项式时间 (probabilistic polynomial-time)图灵机 (Turing machine)或者多项式大小的电路族 (family of circuits)刻画，后者是非一致 (non-uniform)计算模型。在这个讨论中可以忽略一致和非一致的区别。实际上，这一系列文章构造的对象都具有一致的安全性归约，故若计算性假设对非一致使坏者成立，则构造出来的对象对非一致使坏者安全，若计算性假设仅对一致使坏者成立，则构造出来的对象仍对一致使坏者安全。

↩↩↩³ 在这个讨论中可以忽略安全参数的存在，它是为理论计算机科学家服务的。直接把“多项式”想成“不那么大”、“可忽略”想成“很小”即可，甚至可以粗略地认为“可忽略”等同于“指数衰减”。读者只需要记住“可忽略”乘“多项式”仍然是“可忽略”。

↩↩⁴ 准确地说应该是用安全参数作为下标的一列分布 ${D_{λ}}_{λ \in N}$ 或者两列分布 ${D_{0, λ}}_{λ \in N}, {D_{1, λ}}_{λ \in N} ，$ 这里忽略该细节。

公钥 IPFE

先考虑语法，一个 公钥内积加密 (IPFE) 具有 4 个高效随机算法：

初始化算法 $S e t u p (1^{n})$ 输入向量的维数 $n$ （的一进制表示），输出主公私密钥对 $(m p k, m s k) 。$
密钥生成算法 $K e y G e n (m s k, v)$ 用来产生任何一个向量 $v$ 的密钥 $s k_{v} 。$
加密算法 $E n c (m p k, u)$ 用来加密任何一个向量 $u$ 得到密文 $c t_{u} 。$
解密算法 $D e c (s k_{v}, c t_{u})$ 应该能够计算 $u^{T} v 。$

语义也很容易定义，公钥 IPFE 方案正确，意思是说对任意维数 $n$ 以及任意 $u, v \in Z_{p}^{n}$ 都有 $Pr ⎣ ⎢ ⎢ ⎡ (m p k, m s k) s k c t \leftarrow_{$} S e t u p (1^{n}) \leftarrow_{$} K e y G e n (m s k, v) \leftarrow_{$} E n c (m p k, u) : D e c (s k, c t) = u^{T} v ⎦ ⎥ ⎥ ⎤ = 1 .$

注意这个定义和第一篇里私钥 IPFE 的定义有许多不同之处：

初始化算法不再输入质数 $p 。$ 这个系列里要构造的方案中的 $p$ 是根据安全参数变化的，甚至可能是随机的；不过我们可以忽略该问题，可以认为 $p$ 是一个安全参数那么长的固定质数。
初始化算法输出一对密钥，包括主公钥 $m p k$ 和主私钥 $m s k 。$ 通常来说， $m p k$ 是全世界都可以知道的，而 $m s k$ 则由权威机构（运行初始化算法的人）保管。
加密算法使用主公钥 $m p k ，$ 这表示全世界的人都可以加密向量（之前只有权威机构才能加密）。不过仍然是只有持有 $m s k$ 的人（权威机构）才能生成密钥，我们希望的安全性自然是：只有持有对应密钥的人才能计算对应的内积。

接下来定义安全性，这要用到计算意义下的不可区分性。

IND-CPA 安全性

IND-CPA 全称选择明文攻击下的不可区分性 (INDistinguishability under Chosen Plaintext Attack)。即将给出的定义是⁵ 完美保密性的弱化版本——攻击者只能采用高效的策略，且允许攻击者具有微弱的优势。和完美保密性一样，这里也考虑两个实验 $E x p_{b} ：$

初始化：使坏者 $A$ 发送 $1^{n} ，$ 挑战者 $C$ 运行 $(m p k, m s k) \leftarrow_{$} S e t u p (p, 1^{n}) ，$ 把 $m p k$ 发送给 $A$ 并自己记下 $m s k 。$
询问 I：这个阶段可以进行任意多轮，第 $q$ 轮使坏者 $A$ 发送一个向量 $v_{q} ，$ 挑战者 $C$ 运行 $s k_{q} \leftarrow_{$} K e y G e n (m s k, v_{q})$ 并发送 $s k_{q}$ 给 $A 。$
挑战：使坏者选择两个向量 $u_{0}, u_{1} ，$ 挑战者运行 $c t \leftarrow_{$} E n c (m p k, u_{b})$ 并把 $c t$ 发送给 $A 。$
询问 II：同询问 I。
猜测：使坏者输出 $b^{'} \in {0, 1} 。$

公钥 IPFE 具有 IND-CPA 安全性 就是说 $E x p_{0} \approx E x p_{1} 。$

注意这个定义有三点明显的不同之处：

使坏者会获得 $m p k ，$ 这是在刻画公钥的公开性。
加密的时候用 $m p k ，$ 这是因为 IPFE 的语法本身也变更了。
不要求完美不可区分，只要求计算意义下不可区分——高效使坏者只有微弱的优势。

现在证明对实验的不可区分性的弱化是 必要的：对于 完美正确 的公钥 IPFE 来说，它具有 完美不安全性⁶——如果允许使坏者具有无限的计算能力，则使坏者总是可以从密文中完美还原明文向量。这样操作：使坏者枚举 $S e t u p$ 所有可能使用的随机数并运行之，直到找到了一个随机数使主公钥等于它看见的 $m p k ，$ 此时它也知道了一个可能的主私钥 $m s k ，$ 此后它可以自己运行密钥生成算法生成标准基的密钥 $s k_{e_{i}} ，$ 再运行解密算法即可知道密文里的向量的每个分量；由于算法的完美正确性，此时解密出来的结果必然是正确结果。

虽然完美正确的公钥 IPFE 总是完美不安全，但是上述暴力攻击的代价非常大，正确设置参数后，可能宇宙毁灭一万次也无法完成。计算意义下的安全性既使对安全性的讨论变得有意义又能够捕捉现实世界的安全要求。稍后我们会看到，在普遍相信的困难性假设下，存在着 IND-CPA 安全的公钥 IPFE。

此外，初学者经常提出的一个问题是：

既然使坏者自己有 $m p k ，$ 为什么使坏者不能自己加密 $u_{0}, u_{1}$ 并根据收到的挑战密文是哪一个做出判断呢？

这个问题非常好，原因是 $E n c$ 是随机算法，而使坏者不知道生成挑战密文时 $E n c$ 使用的随机数。实际上，对任何 IND-CPA 的公钥 IPFE，每个明文的可能的密文都必须非常非常多——超过任何多项式——这样才能保证使坏者不能通过枚举可能密文的方式来攻破系统。

↩↩⁵ 真正的 IND-CPA 在询问 I/II 中允许使坏者查询任意明文的密文，因此并不能说是完美保密性的弱化。这一点稍后会讨论。

↩⁶ 这个论证也适用于任何实际使用的公钥加密系统——实际使用的公钥加密系统都是完美正确的。

SIM-CPA 安全性

SIM-CPA 全称选择明文攻击下的模拟安全性 (SIMulation security under Chosen Plaintext Attack)，它是之前定义的完美模拟安全性的弱化版本。

为了不让这一篇过于冗长，我直接指出定义里需要修改的部分：

模拟器的初始化算法 $S e t u p^{*}$ 输入向量维数，输出内部状态和 模拟主公钥 $m p k^{*} 。$ 其他部分的语法（接口）不变。
在真实、模拟实验中， $A$ 在选择向量维数后会获得真实或模拟主公钥。
在真实、模拟实验中的询问、猜测环节都不变。挑战环节里使坏者要么收到真实密文（用 $m p k$ 加密），要么收到模拟密文（由模拟器仅用可以计算的内积产生）。
我们只要求 $E x p_{real} \approx E x p_{sim} 。$

利用过渡证明法 (hybrid argument) 容易知道 SIM-CPA 蕴含着 IND-CPA，因为 IND-CPA 里的两个实验分别与用 $u_{0}, u_{1}$ 和模拟器模拟回复的实验计算意义下不可区分，而两个模拟的实验完美不可区分。

单次安全蕴含着多次安全

现在来说 IND-CPA 脚注 5 里提到的问题。IND-CPA 的定义里如何体现了“选择明文攻击”呢？实际上，真正的 IND-CPA 的定义里，在询问 I/II 中使坏者每轮有两个选项：

一是和我们给出的定义一样，可以查询密钥。
二是它可以提供一个 $u ，$ 然后挑战者运行 $c t \leftarrow_{$} E n c (m p k, u)$ 并把 $c t$ 发送给 $A 。$

第二个选项刻画了使坏者可以看到很多明文的密文且每个明文都由使坏者自由选择的攻击模型（“选择明文攻击”），除了这些使坏者选择明文的密文，它还截获了一个密文（挑战密文），而且还知道它是某两个明文中的一个的密文，而 IND-CPA 就是刻画使坏者仍然无法知道截获的密文中的明文是哪个。不过，对于公钥 IPFE，第二个选项是多此一举，因为使坏者自己知道 $m p k, u ，$ 完全可以自己完成这个加密——注意这个论证不会扩展到挑战密文，因为使坏者一开始 (a priori)不知道要加密的是挑战里的两个明文的哪一个。

以上单次挑战版本的 IND-CPA，还有多次挑战版本，那里就不区分询问和挑战环节了，询问 I、挑战、询问 II 合并成一个大的挑战环节，使坏者可以进行任意多轮挑战，每轮有两个选项：

一是提供 $v_{j}$ 并获得 $s k_{j} \leftarrow_{$} K e y G e n (m s k, v_{j}) 。$
二是提供 $u_{i 0}, u_{i 1}$ 并获得 $c t_{i} \leftarrow_{$} E n c (m p k, u_{i b}) ，$ 其中 $b$ 表示处于哪一个实验。

猜测环节的要求变成：每组挑战过的向量都不能用任何查询过的密钥区分，即 $u_{i 0}^{T} v_{j} = u_{i 1}^{T} v_{j} \forall i, j .$ 很重要的一点是在 $E x p_{0}$ 中， $A$ 收到的密文总是两个向量中第一个的密文，在 $E x p_{1}$ 中， $A$ 收到的密文总是第二个的密文。很自然的想法是：有没有可能，使坏者只看到一组挑战密文的时候可能区分不出来，但是看到更多挑战密文的时候就可以区分了？

对也不对。对：可以证明单次挑战的 IND-CPA 蕴含着多次挑战的 IND-CPA，而我们之前定义的 IND-CPA 对于公钥 IPFE 等同于单次挑战的 IND-CPA，故我们定义的 IND-CPA、真正的单次挑战 IND-CPA、多次挑战 IND-CPA 三者是等价的。不对：这个证明会“大幅”（多项式倍，而不是常数倍）改变优势。证明方法是过渡证明法，下面演示一下下怎么用（一致）归约 [(uniform) reduction]的语言来做这个证明。

证明假设高效的使坏者 $A$ 最多进行 $Q$ 个明文挑战， $Q$ 是一个多项式。构造使坏者 $B ：$

抽取 $q \leftarrow_{$} {1, \dots, Q} 。$
运行 $A$ 并收到它选择的维数 $1^{n} ，$ $B$ 也选择 $1^{n}$ 作为维数，并从挑战者 $C$ 获取 $m p k ，$ 然后把 $m p k$ 发给 $A 。$
自己和 $A$ 都进入挑战环节，根据 $A$ 的行动来行动：
- 如果 $A$ 请求一个密钥，则把请求转发给 $C$ 并把回复转发回 $A 。$
- 如果 $A$ 进行第 $q^{'}$ 次密文挑战：
  - 如果 $q^{'} < q ，$ $B$ 自己运行 $c t \leftarrow_{$} E n c (m p k, u_{1})$ 并用 $c t$ 回应 $A 。$
  - 如果 $q^{'} > q ，$ 则类似上一种情况，但用 $u_{0}$ 的密文回应 $A 。$
  - 如果 $q^{'} = q ，$ 则把挑战转发给 $C$ 并把回应转发回 $A 。$
当 $A$ 结束挑战环节并做出猜测后， $B$ 也结束挑战环节，并用 $A$ 的猜测作为自己的猜测。

显然 $B$ 也是高效的，简单的计算表明 $B$ 的优势是 $A$ 的优势的 $\frac{1}{Q} 。$ 如果该 IPFE 满足我们定义的 IND-CPA，则 $B$ 的优势可忽略，而 $A$ 的优势只是 $B$ 的 $Q$ （多项式）倍，故也是³可忽略的，这就说明该 IPFE 也满足多次挑战的 IND-CPA 安全性。

解读 1 定义 $H_{q}$ 为这样一个过渡实验，它是多次挑战 IND-CPA 类型的实验，但是它在回应挑战的时候，前 $q$ 次回应第二个明文的密文，之后回应第一个明文的密文。显然， $A$ 在进行多次挑战 IND-CPA 的时候等同于在区分 $H_{0}, H_{Q} 。$

为了考虑 $A$ 区分 $H_{0}, H_{Q}$ 的优势，我们可以把它拆成区分 $H_{0}, H_{1}$ 的优势、 $H_{1}, H_{2}$ 的优势、…、 $H_{Q - 1}, H_{Q}$ 的优势之和。现在 $B$ 的做法就是随机选择一组相邻的过渡实验，让 $A$ 区分，为此它只需要借助一次挑战即可——毕竟相邻的实验里其他的挑战都是可以自己回应的——这就对应于 $B$ 自己是在进行我们定义的 IND-CPA 的实验。假设 $B$ 一开始抽取的数是 $q ：$

如果 $B$ 处于 $E x p_{0}$ 里，则它运行的 $A$ 处于 $H_{q - 1}$ 里。
如果 $B$ 处于 $E x p_{1}$ 里，则它运行的 $A$ 处于 $H_{q}$ 里。

这说明此时 $B$ 的优势是 $A$ 区分 $H_{q - 1}, H_{q}$ 的优势。又 $B$ 随机选择 $q ，$ 故总的来说它的优势是各种选择下优势的平均数，也就是这一大堆优势的和除以 $Q$ ——也就是 $A$ 对多次挑战 IND-CPA 的优势除以 $Q 。$

解读 2 同样考虑上述过渡实验，我们定义的 IND-CPA 保证了 $H_{q} \approx H_{q + 1}$ 对所有⁷ $q$ 成立。而区分 $H_{0}, H_{Q}$ 的优势不过是多项式个“相邻优势”之和，故仍然⁸可忽略，即可以推出 $H_{0} \approx H_{Q} 。$ 即“多项式长度下不可区分性链的传递性”。

读者习题 上述定义的 SIM-CPA 可以换成多次挑战（多次模拟）吗？

解答

解答对于每个多项式，多次挑战总是可以定义的，而且没有明显的不可能性。然而不能允许任意多项式次，固定一个完美正确的 IPFE 方案，若挑战次数多于 $s k$ 的最大可能长度（这是一个多项式），则无法实现模拟安全性。证明利用压缩论证 (compression argument)，思路见于 Nie02，咱们的使坏者⁹这样操作：

选择维数为 1 维，获得 $m p k 。$ 令 $L$ 为一个多项式且大于 $s k$ 的最大可能长度。
生成 $L + 1$ 个随机比特 $r_{1}, \dots, r_{L + 1} \leftarrow_{$} {0, 1} ，$ 并分别请求它们的密文。
请求 1（这个数也就是一个一维向量）的密钥。
如果密钥的长度不超过 $L$ 且用这个密钥解密每个密文的结果都正确，则输出 0（认为自己在真实实验里），否则输出 1（认为自己在模拟实验里）。

根据完美正确性，真实实验里使坏者永远不输出 1。然而在模拟实验中，模拟器在请求密钥之前没有关于随机串 $r$ 的任何信息，穷尽所有可能的 $s k ，$ 解密结果也只有 $\leq 2^{L}$ 个可能，但总共有 $2^{L + 1}$ 个可能的解密结果，且它们是均匀随机的，故有 $\geq \frac{1}{2}$ 的概率根本不存在能够正确解密的密钥，此时使坏者会输出 1。这就表示区分优势至少是 $\frac{1}{2} 。$

这个证明过程表明密钥的长度至少随着模拟次数线性增长。

↩⁷ 解读 1 是说这件事“对 $q$ 平均成立”，而这个解读里是说对每个 $q$ 都成立，这是一个更强的命题。表达这种说法要用到非一致 (non-uniform) 模型，例如归约 $B$ 需要用到“我在考虑哪个 $q ”$ 这一信息。严格来说， $B$ 需要知道哪个 $q$ 最大化 $A$ 的优势——注意这个信息甚至可能是不可计算的，所以需要作为谏言 (advice) 提供给 $B 。$ 一致归约的证明的普适性更好，但非一致归约更容易想——不需要考虑一大坨抽取的问题，只要考虑相邻实验都是不可区分即可。在脚注 3 里也提到了，我们以后会忽略一致和非一致的区别。

↩⁸ 续上条，“对所有 $q$ 成立”的严格表述里量词 (quantifiers) 的顺序很重要。类比数学分析，一个收敛的连续函数列不一定会收敛于连续函数，要保证极限函数仍然连续，可以加强前设，要求一致收敛。在非一致语言下的安全性定义里会加入类似于“一致收敛”的话，让这些直观的想法得以正确形式化。

↩⁹ 我觉得这个论证充分体现了“使坏”这个翻译的精妙之处——蔫儿坏蔫儿坏地看着无知的方案尝试违反 Shannon 的信息论。

本篇结语

在这一篇里我们引入了计算意义下的不可区分性，并定义了公钥 IPFE 的语法、语义、安全性。对应于私钥 IPFE，我们定义了完美安全性的对应版本（IND-CPA）和完美模拟安全性的对应版本（SIM-CPA）。不同于私钥 IPFE，公钥 IPFE 的 IND-CPA 安全性蕴含着多次安全性，这一点可以通过多项式时间归约和过渡证明法证明。

下一次讲循环群、和 MDDH 假设。

参考文献

ALMT20 ↩ Shweta Agrawal, Benoı̂t Libert, Monosij Maitra, and Radu Titiu. Adaptive Simulation Security for Inner Product Functional Encryption. Cryptology ePrint Archive, Report 2020/209, 2020. To appear in PKC 2020, available at https://eprint.iacr.org/2020/209.

ALS16 ↩ Shweta Agrawal, Benoı̂t Libert, and Damien Stehlé. Fully Secure Functional Encryption for Inner Products, from Standard Assumptions. In Matthew Robshaw and Jonathan Katz, editors, CRYPTO 2016, Part III, volume 9816 of LNCS, pages 333–362. Springer, Heidelberg, August 2016.

Nie02 ↩ Jesper Buus Nielsen. Separating Random Oracle Proofs from Complexity Theoretic Proofs: The Non-committing Encryption Case. In Moti Yung, editor, CRYPTO 2002, volume 2442 of LNCS, pages 111–126. Springer, Heidelberg, August 2002.

PS10 ↩ Rafael Pass and Abhi Shelat. A Course in Cryptography. January 2010. Available at https://www.cs.cornell.edu/courses/cs4830/2010fa/lecnotes.pdf.

Sha49 ↩ Claude E. Shannon. Communication theory of secrecy systems. Bell Systems Technical Journal, 28(4):656–715, 1949.

Wee17 ↩ Hoeteck Wee. Attribute-Hiding Predicate Encryption in Bilinear Groups, Revisited. In Yael Kalai and Leonid Reyzin, editors, TCC 2017, Part I, volume 10677 of LNCS, pages 206–233. Springer, Heidelberg, November 2017.