最优机制 ¶
虚拟福利最大化 ¶
背景 (page 3) ¶
本讲将从卖家的收益最大化角度出发,探讨拍卖机制的设计问题,即如何设计一种能够使卖家收益最大化的拍卖机制,这种机制通常被称为最优机制。
最优机制这一概念的起源可以追溯到诺贝尔经济学奖得主迈尔森(Roger B. Myerson)于 1981 年发表的里程碑式论文《Optimal Auction Design
迈尔森论文的意义
迈尔森的这篇论文在理论经济学领域具有极其深远的影响,它开创了一套完整的理论范式,为后续无数研究提供了解决问题的方法和技术基础。
本质上,这篇论文从理论层面完美解决了在参与人私人信息为一维变量的情况下,如何设计机制以最大化利润的问题,并给出了一个显式解。值得注意的是,当参与人的私人信息是高维变量时,目前只有少数特殊情况存在解决方案,一般情况下的最优机制显式解仍然是一个公开的、有待解决的问题。
基本模型 (page 4) ¶
为了深入讨论最优机制,我们首先建立一个基本模型。
- 考虑单物品拍卖: 在这个模型中,只有一个卖家拥有一件不可分割的物品待出售。
- 多个潜在买家: 与此前关于单物品拍卖的讨论一致,存在 \(n\) 个潜在买家(或称竞拍者
) ,其集合表示为 \(N = \{1, 2, \dots, n\}\)。 - 买家估值的不完全信息: 每个买家 \(i\) 对物品都有一个心理价位 \(t_i\),这对于卖家和其他买家而言是不完全信息 1。
- 估值分布的独立性: 假定不同买家之间的估值分布是相互独立的(但不需要是相同的分布
) 。- 因此,在估值组合空间 \(T\) 上,估值的联合密度函数 \(f(t)\) 可以表示为各个边际密度函数的乘积: $$ f(t) = \prod_{i=1}^n f_i(t_i) $$
- 按照惯例,我们用 \(f_{-i}(t_{-i})\) 表示除买家 \(i\) 之外所有其他买家的估值联合密度函数: $$ f_{-i}(t_{-i}) = \prod_{j \in N, j \ne i} f_j(t_j) $$
- 卖家估值: 为了讨论方便,假定卖家对物品的估值 \(t_0 = 0\) 是共同知识。这意味着卖家出售物品时,只要能获得正收益即可。
BIC 迈尔森引理 (page 5-9) ¶
根据显示原理 4,在机制设计中,我们只需要考虑激励相容的直接机制 5。这意味着所有买家都会如实报告自己的估值。
在最优机制的讨论中,如实报告不一定是占优策略均衡 6(DSIC
为了给出 BIC 迈尔森引理,需要一些准备工作。假设拍卖机制由分配规则 \(x\) 和支付规则 \(p\) 组成。我们考虑事中阶段 8,即参与人已经知道了自己的估值,但对其他人的估值仍不完全了解。为了讨论 BIC 的条件,我们首先需要写出效用函数。
由于我们考虑的是贝叶斯纳什均衡,因此应当考虑其他参与人都如实报告自己估值时(即 \(b_{-i} = t_{-i}\)
理解上述表达式:买家 \(i\) 的效用由他的真实估值 \(t_i\) 乘以物品分配概率 \(x_i(t_i', t_{-i})\) 减去支付 \(p_i(t_i', t_{-i})\) 构成。然而,买家 \(i\) 不能确定其他买家的真实估值 \(t_{-i}\),因此需要根据先验分布 \(f_{-i}(t_{-i})\) 对其他人的估值求期望。
为了简化 \(U_i(t_i')\) 的表达式,我们定义:
- \(Q_i(t_i')\) 为当其他买家诚实报价,买家 \(i\) 报告 \(t_i'\) 时,他获得物品的期望概率: $$ Q_i(t_i') = \int_{T_{-i}} x_i(t_i', t_{-i}) f_{-i}(t_{-i}) dt_{-i} $$
- \(M_i(t_i')\) 为当其他买家诚实报价,买家 \(i\) 报告 \(t_i'\) 时,他支付的期望金额: $$ M_i(t_i') = \int_{T_{-i}} p_i(t_i', t_{-i}) f_{-i}(t_{-i}) dt_{-i} $$
因此,\(U_i(t_i')\) 可以简化为:
这个形式与 DSIC 情况下的效用表达式 \(u_i(t_i') = t_i x_i(t_i') - p_i(t_i')\) 在形式上一致,只是这里的获得物品的概率和支付都求了期望,并且假定了其他买家如实报价。
根据上述定义,BIC 的条件就是 \(U_i(t_i) \ge U_i(t_i')\) 对所有 \(i \in N\) 和 \(t_i' \in [a_i, b_i]\) 成立。
因此,仿照 DSIC 迈尔森引理,可以给出 BIC 版本的迈尔森引理,并且证明过程是完全类似的。需要注意的是,积分下界因为显示机制要求报价集合 \(T_i = [a_i, b_i]\) 而变为 \(a_i\)。
BIC 迈尔森引理
一个拍卖机制是 BIC(即贝叶斯激励相容)的,当且仅当其分配规则和支付规则 \((x,p)\) 满足:
- \(Q_i(t_i)\) 是关于 \(t_i\) 的单调不减函数;
- 对任意的 \(i \in N\) 和 \(b \in [a_i, b_i]\),有 $$ M_i(b) = M_i(a_i) + b Q_i(b) - \int_{a_i}^b Q_i(s) ds. $$
合理的机制 (page 10-12) ¶
通过上述讨论,我们得到了 BIC 的充要条件。然而,仅满足 BIC 的机制并不足以用于最大化卖家收益的讨论,因为这样的机制可能不是合理(feasible)的。一个合理的机制除了满足 BIC 外,还应当满足如下两个条件:
- 分配规范性: 因为只有一个物品在分配,所以对于所有可能的估值组合 \(t \in T\),物品的总分配量不能超过 1,且每个买家分配到的概率不能为负。 $$ \sum_{i=1}^n x_i(t) \le 1, $$ 并且 \(x_i(t) \ge 0\) 对所有 \(i \in N\) 和 \(t \in T\) 成立。
- 个人理性(Individual Rationality, IR
) : 这个条件要求在事中阶段,对于所有买家 \(i \in N\) 及其所有可能的真实估值 \(t_i \in [a_i, b_i]\),买家的期望效用必须是非负的。否则,竞拍者在得知自己的真实估值后,可能会选择退出拍卖,而不是参与竞拍。 $$ U_i(t_i) \ge 0. $$
下面的定理给出了在 BIC 的基础上满足个人理性的充要条件:
IR 充要条件
一个 BIC 的拍卖机制是 IR(个人理性)的,当且仅当对于每个 \(i \in N\) 都满足 \(M_i(a_i) \le 0\)。
这意味着要求当竞拍者估值为最低值 \(a_i\) 时(事中阶段)的期望支付小于等于 0。
证明
根据 BIC 的条件,我们知道 \(U_i(t_i) = t_i Q_i(t_i) - M_i(t_i)\)。
将迈尔森引理中 \(M_i(b)\) 的表达式代入 \(U_i(t_i)\):
个人理性要求对任意的 \(t_i \in [a_i, b_i]\),都有 \(U_i(t_i) \ge 0\)。 由于 \(Q_i(t_i)\) 是单调不减函数(BIC条件),因此 \(\int_{a_i}^{t_i} Q_i(s) ds\) 是关于 \(t_i\) 的增函数。当 \(t_i = a_i\) 时,积分项为 0,此时 \(U_i(a_i) = -M_i(a_i)\)。由于 \(U_i(t_i)\) 的最小值发生在 \(t_i = a_i\) 处,因此个人理性成立当且仅当 \(U_i(a_i) \ge 0\),即 \(-M_i(a_i) \ge 0\),等价于 \(M_i(a_i) \le 0\)。
总结:至此,我们已经给出了一个合理机制的三个必要条件:BIC、分配规范性和 IR,并且明确了 BIC 和 IR 的等价条件。基于这些讨论,我们现在可以开始考虑如何设计最优机制。
转化为虚拟福利最大化问题 (page 13-20) ¶
首先,当所有买家如实报告自己的类型时,投标结果为 \(t = (t_1, \dots, t_n)\)。卖家期望收入 \(U_0\) 是所有买家支付期望的总和(注意卖家对物品的估值为 0,故只有卖出才能产生收益
下面的引理给出了最大化卖家收入 \(U_0\) 的合理最优机制的一个简洁明了的条件:
引理
假设分配规则 \(x\) 最大化(下面的公式
支付规则 \(p\) 使得 \(M_i(a_i) = 0\) 对所有 \(i \in N\) 成立,且 \((x,p)\) 满足 BIC、分配规范性和 IR,则 \((x,p)\) 是合理的最优机制。
这个引理的证明技术性较强,在此不展开描述。但其大致步骤如下:
- 根据 BIC 迈尔森引理和卖家期望收入 \(U_0\) 的表达式,利用积分变换技巧得到: $$ U_0 = \int_T \left( \sum_{i=1}^n \left( t_i - \frac{1-F_i(t_i)}{f_i(t_i)} \right) x_i(t) \right) f(t) dt + \sum_{i=1}^n M_i(a_i). $$ (这里 \(F_i(t_i)\) 是 \(f_i(t_i)\) 对应的累积分布函数。)
- 从而,目标转化为在满足 BIC、分配规范性和 IR 的情况下最大化上述表达式。观察这个表达式,加号前的部分只与分配规则 \(x\) 有关,加号后的部分只与支付规则 \(p\) 有关,因此可以分别考虑这两个部分:
- 对于加号前的部分,目标就是找到分配机制 \(x\) 使其最大化。
- 对于加号后的部分,根据个人理性等价条件 \(M_i(a_i) \le 0\),要最大化 \(U_0\) 就需要选择支付规则 \(p\) 使得 \(M_i(a_i) = 0\) 对所有 \(i \in N\) 成立。
由此,这一引理的结论得证。
有了这一引理,接下来的任务就是找到一个分配机制 \(x\) 使得:
最大化。而支付规则在 \(x\) 确定后,直接根据迈尔森引理以及 \(M_i(a_i) = 0\) 的条件确定即可。
现在,我们定义:
我们称 \(c_i(t_i)\) 为竞拍者 \(i\) 的虚拟估值 (virtual valuation) 9。则我们的目标就是找到一个分配机制 \(x\) 使得:
最大化。
如果对任意的估值组合 \(t\),我们都能找到一个分配规则 \(x\) 使得 \(\sum_{i=1}^n c_i(t_i) x_i(t)\) 最大化,那么自然也能满足整体的期望最大化要求。
- 因此,目标进一步转化为找到一个分配机制 \(x\) 使得对任意的 \(t\),都能找到一个 \(x\) 使得 \(\sum_{i=1}^n c_i(t_i) x_i(t)\) 最大化。
- 如果 \(c_i(t_i)\) 是竞拍者 \(i\) 的真实估值,那么最大化 \(\sum_{i=1}^n c_i(t_i) x_i(t)\) 就是最大化竞拍者福利。然而 \(c_i(t_i)\) 并不是真实估值,它只是一个虚拟估值,因此这一问题被称为虚拟福利最大化问题。
整体研究思路总结 (page 21-22) ¶
总而言之,经过一系列的积分变换和问题转化,最大化卖家收益的问题被转化为了虚拟福利最大化问题。下面可以总结研究这一问题的完整思路:
- 利用显示原理将机制设计空间限制在直接显示机制:因此只需要设计竞拍者如实报告估值的机制,从而卖家收益最大化问题可以写为如下数学规划问题: $$ \begin{align} &\max_{x,p} U_0 = \int_T \left( \sum_{i=1}^n p_i(t) \right) f(t) dt \ \text{s.t.}\quad &(x,p) \text{ 满足 BIC}, \ &(x,p) \text{ 满足个人理性}, \ &\sum_{i=1}^n x_i(t) \le 1. \end{align} $$
- 利用 BIC 迈尔森引理将 BIC 转化为两个等价条件:其一是期望分配概率 \(Q_i\) 的单调性,其二是期望支付 \(M_i\) 可由 \(Q_i\) 和 \(M_i(a_i)\) 唯一表达。
- 将个人理性条件转化为等价条件 \(M_i(a_i) \le 0\)。
- 将目标函数利用积分变换等将目标问题转化为虚拟福利最大化问题。
第 2-4 步实际上就是将数学规划的约束和目标函数变得更加清晰,从而可以在下一节中给出显式的最大化解。
机制设计的普遍性
事实上,很多问题的本质都是数学规划问题,但最优机制问题具有特殊的结构,从而可以给出很漂亮的显式解。这些特殊结构的发现就是迈尔森这篇论文最大的贡献,并且这一结构在很多问题上都有出现,因此在未来非常多的工作中都应用了迈尔森这一套方法。
本质上,很多问题都可以表达为数学规划问题,解决问题的方式就是找到特殊结构(例如背包问题 10 的动态规划解
最优机制 ¶
虚拟福利最大化的解 (page 24-25) ¶
根据上一节的转化,我们的任务是决定最优的分配机制 \(x\) 使得虚拟福利最大化。
同时需要满足分配规范性约束:
事实上,不难看出如何实现这一目标:
- 由于最大化目标函数是 \(\sum_{i=1}^n c_i(t_i) x_i(t)\),且要求 \(\sum_{i=1}^n x_i(t) \le 1\),故而实际上要最大化的就是 \(c_i(t_i)\) 的一个加权平均,其中权重 \(x_i(t)\) 的总和不大于 1。
- 显然,只需要将物品分配给虚拟估值 \(c_i(t_i)\) 最大的那一个或多个买家,并赋予其 \(x_i(t)=1\) 的权重即可,并且这个最大值必须大于等于 0,否则不如全部权重都为 0(即不卖出物品
) 。
因此,物品分配规则可总结为:
最优分配规则
物品分配给虚拟估值 \(c_i(t_i)\) 最大的买家 \(i\),并且要求 \(c_i(t_i) \ge 0\)。
即只允许同时满足以下两个条件的参与人获得物品:
- 最大化 \(c_i(t_i) = t_i - \frac{1-F_i(t_i)}{f_i(t_i)}\)
- \(c_i(t_i) \ge 0\)
换句话说,如果买家 \(i\) 获得了物品,那么 \(x_i(t)=1\),且 \(c_i(t_i) = \max_{j \in N} c_j(t_j) \ge 0\)。如果 \(c_i(t_i) < 0\) 或者不是最大值,则 \(x_i(t)=0\)。
正则化条件 (page 26-27) ¶
然而,时刻要记住,我们设计的 机制必须是合理的,即满足 BIC、分配规范性和 IR 。
- 显然,上述分配解已经满足了分配规范性。IR 条件可以通过设置 \(M_i(a_i)=0\) 来满足,且 IR 与分配机制的选择无关。因此,我们只需要重点考虑 BIC。
- 根据 BIC 迈尔森引理,其中第二条是关于支付机制的选择,因此只需检验第一条:期望分配概率 \(Q_i(t_i)\) 关于 \(t_i\) 是否单调不减。
- 这一条件并非一定成立。例如,当 \(c_i\) 为递减函数时,反而可能出现最低估值的买家获得物品的情况,从而 \(Q_i(t_i)\) 可能不单调。
因此,我们引入一个充分条件(注意,只是充分条件
正则化条件
称一个问题符合正则化条件,如果对于任意的买家 \(i \in N\),其虚拟估值 \(c_i(t_i)\) 关于真实估值 \(t_i\) 是单调递增的。
- 这显然是 \(Q_i(t_i)\) 关于 \(t_i\) 单调递增的充分条件。因为如果 \(c_i(t_i)\) 关于 \(t_i\) 单调递增,那么根据之前物品分配给虚拟估值最大的买家的选择,当参与人 \(i\) 提高报价 \(t_i\) 时,他的虚拟估值 \(c_i(t_i)\) 也会提高,从而他得到物品的概率不会降低,即 \(Q_i(t_i)\) 关于 \(t_i\) 成立单调递增。
- 因此,当满足正则化条件时,上面给出的分配解的确是合理的最优机制。
正则化条件下的解 (page 28-30) ¶
对于大部分熟知的分布,正则化条件都是满足的。
- 例如,在区间 \([0,1]\) 上的均匀分布,其概率密度函数 \(f_i(t_i) = 1\),累积分布函数 \(F_i(t_i) = t_i\)。对应的虚拟估值 \(c_i(t_i)\) 为: $$ c_i(t_i) = t_i - \frac{1-F_i(t_i)}{f_i(t_i)} = t_i - \frac{1-t_i}{1} = 2t_i - 1. $$ 显然,\(c_i(t_i) = 2t_i - 1\) 是关于 \(t_i\) 的单调递增函数,因此满足正则化条件。
- 当然,从理论层面上讲,仍需考虑正则化条件不满足的情况(例如分布是双峰分布
) 。这种情况下的解决方案略为复杂,因此不在此展开(但它是一个经典问题) 。
现在继续考虑正则化条件满足的情况,即已经有了正则化条件下的最优机制的分配规则 \(x\)。接下来需要确定支付规则 \(p\)。
不难理解,分配规则仍然是一个阶梯函数。令 \(z_i(t_{-i})\) 为使得参与人 \(i\) 刚好能有机会获得物品的最低真实报价。这意味着 \(c_i(z_i(t_{-i})) = \max\{0, \max_{j \ne i} c_j(t_j)\}\)。 \(z_i(t_{-i})\) 也就是阶梯函数的间断点。
那么根据支付公式(该公式是 BIC 迈尔森引理中 \(M_i(b)\) 表达式的直接推导,并结合 \(M_i(a_i)=0\)
而 \(p_i(t)\) 是期望支付 \(M_i(t_i)\) 在特定报告 \(t_i\) 时的具体实现。更简单的,如果只有一个买家 \(i\) 满足 \(c_i(z_i(t_{-i})) \ge 0\) 且 \(c_i(z_i(t_{-i})) \ge c_j(t_j)\) 对所有 \(j \ne i\) 成立,则 \(x_i(t) = 1\),并且:
这意味着如果买家 \(i\) 获得了物品(即 \(x_i(t)=1\)
买家估值独立同分布情形 (page 31-32) ¶
我们考虑一种最简单的情况来具象化前面给出的结论。考虑一个所有买家估值独立同分布的情形(即对称模型
由于卖家估值 \(t_0=0\),所以上述表达式中的 \(c^{-1}(t_0)\) 实际上是 \(c^{-1}(0)\)。
- 结合前面得到的分配和支付规则 \((x,p)\),此时的最优机制其实就是一个含保留价格的第二价格拍卖机制 11。
- 其中的保留价格 (reserve price) 为 \(c^{-1}(0)\)。
- 由于此时所有买家估值同分布,因此虚拟估值函数也相同,物品会分配给具有最高估值(即最高报价)的买家。
- 赢得物品的买家支付第二高报价和保留价格之间的较高者。
- 如果最高报价低于保留价格,则不分配物品。
更具体而言,当所有买家估值独立且服从 \([0,1]\) 上的均匀分布时,我们前面计算得到虚拟估值函数为 \(c_i(t_i) = 2t_i - 1\)。因此,保留价格为 \(c^{-1}(0) = 1/2\)。此时的最优机制就是保留价格为 \(1/2\) 的第二价格拍卖。
最大的利润 (page 33-34) ¶
Example
当所有买家估值独立且服从 \([0,1]\) 上的均匀分布时,求最优机制下卖家的期望收益。
根据前面分析,此时最优机制是保留价格为 \(1/2\) 的第二价格拍卖。卖家期望收益计算如下(对于两个买家 \(v_1, v_2 \sim U[0,1]\) 的情况
当保留价格 \(r = 1/2\) 时,物品售出的条件是 \(\max(v_1, v_2) \ge 1/2\)。 赢得者支付的价格是 \(\max(\min(v_1, v_2), 1/2)\)。
- 图示展示了当两个买家 \(v_1, v_2\) 的估值分布在 \([0,1]\) 时,在最优机制下的分配和收益区域。
- 横轴表示 \(v_1\),纵轴表示 \(v_2\)。保留价格为 \(1/2\)。
- 当 \(\max(v_1, v_2) < 1/2\) 时(左下角 \(0.5 \times 0.5\) 的正方形区域
) ,物品不售出,收益为 0。 - ……
为什么最优机制能打破收入等价原理的限制?
收入等价原理 (Revenue Equivalence Theorem) 11 指出,在特定条件下(如买家是风险中性且对物品有私有估值、拍卖规则对称等
然而,迈尔森最优机制通过引入保留价格打破了收入等价原理的假设。收入等价原理通常假定没有保留价格。通过设置一个合适的保留价格,卖家可以筛选掉估值较低的买家,从而在某些情况下提高期望收益。在均匀分布的例子中,保留价格 \(1/2\) 意味着只有当最高报价达到 \(1/2\) 或以上时才出售物品,这使得那些报价低于 \(1/2\) 的潜在买家无法获得物品,从而排除了那些会带来较低收益的交易,从而提升了总体的期望收益。
最后的讨论 (page 35-39) ¶
尽管最优机制可以使得卖家获得最大的期望效用,但是这一机制存在一些天然的缺陷:
- 卖家难以准确估计每一个买家的估值分布: 这一点使得最优机制在实际中很难完美实现。特别是在应用于数据拍卖场景时,数据买家的估值具有更大的不确定性。因此,之后的研究会讨论在无先验分布(prior-free)情况下的机制设计。
- 非对称模型下(即买家的估值分布不同):报价最高的买家可能并不是最有可能获得物品的买家。这一点非常显然,因为在不同的分布下,\(c_i(t_i)\) 的形态会有所不同。
- 若 \(f_i(t_i) = \frac{1}{b_i - a_i}\),即买家的估值均匀分布在 \([a_i, b_i]\) 上。不难计算得到 \(\(c_i(t_i) = t_i - \frac{1-F_i(t_i)}{f_i(t_i)} = t_i - \frac{1-(t_i-a_i)/(b_i-a_i)}{1/(b_i-a_i)} = t_i - (b_i-a_i-(t_i-a_i)) = t_i - (b_i-t_i) = 2t_i - b_i\)\) 这关于 \(t_i\) 是单调递增的,因此符合正则化条件。
- 但是此时的最优机制是选出 \(2t_i - b_i\) 最大的 \(i\)。如果存在 \(b_i < b_j\),那么可能存在 \(t_i < t_j\) 但 \(2t_i - b_i > 2t_j - b_j\) 的情况,即报价更低的买家可能获得物品。这与我们直观认为高报价者应得物品的理解有所出入,但在追求卖家收益最大化时这是合理的。
- 最优机制不是事后有效率的 12:例如我们考虑对称模型下,卖家估值等于 0 且买家估值都大于 0 的情况。此时显然物品要售出才是福利最大化(也是帕累托最优 13 或事后效率)的。但是如果所有买家的报价都低于 \(c^{-1}(0)\)(即保留价格
) ,那么物品就不会被售出,这显然不是事后有效率的。
当然,最优机制仍然具有实际意义:雅虎曾在广告拍卖中加入保留价格,并发现保留价格的确能带来利润提升——这就是理论研究指导实践的意义所在。
最后需要提醒的一点是,如果是多个相同物品的拍卖,只有分配规范性条件会改变,其余推导均没有任何变化:
- 问题:假设买家具有单位需求(每个买家只需要一个物品
) ,那么此时最大化利润的拍卖规则是什么?- 因此,最优机制可以直接应用于已知买家估值先验分布的数据拍卖中。
拍卖与数据定价 ¶
基本思想 (page 41) ¶
在数据交易中,数据卖家通常并不知道数据买家对数据产品的确切估值。这种信息不对称性使得拍卖理论中关于设计机制以促使买家诚实报出其估值的讨论,自然而然地成为一个合适的解决方案。
- 此前讨论的最优机制(迈尔森最优机制)可以很轻松地推广到多个相同物品的情况。因此,在已知各数据买家估值先验分布的情况下,最大化利润的机制设计(利润最大化)是可以被迈尔森最优机制直接解决的。
- 如果目标是福利最大化机制设计(即最大化社会总福利
) ,则可以根据 VCG 机制 (Vickrey-Clarke-Groves Mechanism) 14 来解决。 - 因此,研究基于拍卖的数据定价需要挖掘更贴合数据产品本身特性的问题,以及现有理论无法解决的非平凡问题。
机器学习模型拍卖 (page 42-50) ¶
我们考虑如下机器学习模型出售场景:
- 数据卖家是零售商店,他们将匿名化的分钟级消费者流量数据流出售到市场中。数据买家则是希望获得能够预测未来库存需求的物流公司。
- 零售商选择使用拍卖的形式出售由这些数据训练出的库存需求预测模型。因此,需要每个物流公司提供一个报价。
Example
自然地,在机器学习模型出售的场景中,每个物流公司的报价应当是模型预测单位(1%)准确度提升对其带来的效用增益(可以将一单位准确率类比为一单位物品
例如,根据物流公司内部测算得知,超出或低于销售量 10% 的备货成本为 10000 元,则物流公司对于每 1% 的库存需求预测准确性提高的估值为 1000 元,这也就是物流公司诚实报价时应当给出的报价。
因此接下来的问题便是,如何设计一个拍卖机制使得物流公司愿意诚实报价。回忆上一讲的讨论,只需要为拍卖设计分配机制 \(x\) 和支付机制 \(p\)。由于这一拍卖形式只需要要求买家报告一个估值,因此迈尔森引理给出了这一拍卖机制是 DSIC(即买家诚实报价)的充要条件。
迈尔森引理 (DSIC)
一个拍卖机制是 DSIC(占优策略激励相容)的,当且仅当其分配规则和支付规则 \((x,p)\) 满足:
- \(x_i(b_i)\) 是 \(b_i\) 的单调不减函数;
- 给定 \(x\) 的情况下,只要给定 \(p_i(0)\) 的值,对任意的 \(i \in N\) 和 \(b_i \in [0, +\infty)\),\(p_i\) 的表达式是唯一确定的: $$ p_i(b_i) = p_i(0) + b_i x_i(b_i) - \int_0^{b_i} x_i(s) ds. $$
需要注意的是:
- 模型可以零成本复制,因此分配规则中不再存在 \(\sum x_i(b_i) \le 1\) 的要求(因为可以给多个买家分配
) 。 - 买家 \(i\) 对模型的报价 \(b_i\) 代表其对每 1% 的模型准确度的估值。因此每个买家能分配到的 \(x_i(b_i) \in [0,1]\) 应当代表模型的准确率(或质量
) ,而不是获得物品的概率。 - 这也是出售机器学习模型的拍卖设计相较于普通商品的一大不同:普通商品不可分割且不可零成本复制,分配结果 \(x_i(b_i)\) 只能表示获得物品的概率。而机器学习模型的准确率则自然是一个 \([0,1]\) 中的常数,故此时的 \(x_i(b_i)\) 可以代表模型的优劣而非获得模型的概率。
总结:
参数 | 普通商品 | 机器学习模型 |
---|---|---|
\(b_i\) | 对单个商品的估值 | 对单位预测准确度的估值 |
\(x_i(b_i)\) | 获得物品的概率 | 模型预测准确率 |
下面需要设计机制满足迈尔森引理的条件:
- \(x_i(b_i)\) 的单调性要求:一个简单且自然的方案是,首先使用全部数据进行训练获得一个最优模型,并为这一模型设定一个基准价格 \(q\)。
- 当报价 \(b_i \ge q\) 时,则直接出售最优模型;
- 当 \(b_i < q\) 时,则出售添加噪声的模型,并且 \(b_i\) 越低添加的噪声越多;
- 例如假设最优模型输出为 \(x\),报价为 \(b_i\) 时出售的模型输出为 \(x + \max(0, q - b_i) N(0, \sigma^2)\) 即可满足条件
。 (这里 \(N(0, \sigma^2)\) 表示均值为 0,方差为 \(\sigma^2\) 的高斯噪声。 )
- 根据单调函数 \(x_i(b_i)\) 即可利用迈尔森支付公式决定买家 \(i\) 的支付。
机器学习模型拍卖中的基准价格
问题: 基准价格 \(q\) 应当如何决定?
根据迈尔森支付公式(设 \(p_i(0)=0\)
无先验的无限物品拍卖机制设计 (page 51-56) ¶
Note
这一部分只需理解大致思想,具体内容选择这一部分对应的大作业的同学可以进一步理解。
假设卖家拥有一份可无限复制但不可分割的数据(此时数据不是上一小节中可任意操纵的机器学习模型,而是一个不可分割的数据集,或者一个在线数字产品例如电影、电子书等
- 一个简单的想法是,考虑所有人的投标独立同分布的情况,此时当买家足够多时(\(n \to \infty\)
) ,可以通过大量样本学习出投标人估值的分布。- 格里汶科 (Glivenko-Cantelli) 定理 18:经验分布函数能够很好地拟合总体分布,所以自然可以由样本来推断总体。
- DOP 机制 (Divide-and-Observe Pricing):使用其他 \(n-1\) 个人的报价决定剩余一个人的价格。
- 每个人的报价与自己面对的价格无关,故是 DSIC 的。
- 然而,这一拍卖的收益在不满足独立同分布的极端情况下可以任意差。
DOP 机制的劣势
有 \(n\) 个买家,其中 \(\frac{n}{2}\) 的买家投标为 \(b \gg 1\),其余 \(\frac{n}{2}\) 个买家投标均为 \(1\)。
- 最优固定价格只可能是 \(1\) 或 \(b\)。
- 如果固定价格为 \(1\),所有 \(n\) 个买家都会购买,收益为 \(n \times 1 = n\)。
- 如果固定价格为 \(b\),只有 \(\frac{n}{2}\) 个报价为 \(b\) 的买家会购买,收益为 \(\frac{n}{2} \times b\)。
- 因此,最优固定价格会选择收益更大的那一个,即 \(n\) 或 \(\frac{nb}{2}\)。
- 因此此时最优固定价格为 \(1\) 或 \(b\),收益均为 \(n\) 或 \(\frac{nb}{2}\)。
然而,当使用 DOP 机制时:
- 对于一个报价为 \(1\) 的买家 \(i\),他面临的价格将由其他 \(n-1\) 个买家的报价决定。其他买家中,有 \(\frac{n}{2}\) 个报价为 \(b\),\(\frac{n}{2}-1\) 个报价为 \(1\)。如果取价格为 \(1\),则对其余 \(n-1\) 个人的收益为 \(n-1\)。如果取价格为 \(b\),则对其余 \(n-1\) 个人的收益为 \(n\)。因此,为了最大化其他人的收益,对这一买家应当选择固定价格 \(b\)。此时,这个报价为 \(1\) 的买家不会购买。
- 对于一个报价为 \(b\) 的买家 \(i\),他面临的价格将由其他 \(n-1\) 个买家的报价决定。其他买家中,有 \(\frac{n}{2}-1\) 个报价为 \(b\),\(\frac{n}{2}\) 个报价为 \(1\)。如果取价格为 \(1\),则对其余 \(n-1\) 个人的收益为 \((n-1) \cdot 1 = n-1\)。如果取价格为 \(b\),则对其余 \(n-1\) 个人的收益为 \((\frac{n}{2}-1) \cdot b + \frac{n}{2} \cdot 0\)(假设报价为 1 的买家不会购买
) 。因此,对这一买家应当选择固定价格 \(1\)。此时,这个报价为 \(b\) 的买家会购买并支付 \(1\)。
综上可知,DOP 带来的收益仅为 \(1\),因为只能对一个报价为 \(b\) 的买家收取 \(1\) 的价格。由于 \(b\) 可以任意大,因此 DOP 的收益可以任意差,远低于最优固定价格。
竞争比分析 (page 57-58) ¶
上述例子中已经体现了一个思想:将无先验拍卖机制的收益与固定价格的最优收益进行比较。
- 这是因为在无先验的情况下实现卖家收益最大化是非常困难的,因为对买家的估值情况一无所知,这一问题似乎无法下手。
- 因此需要转换研究思路,一个可行的方案是将得到最优机制的目标转化为与一些合适的标准进行比较。一个可行的标准就是最优固定价格(实际有一些细微的差别,感兴趣的同学可以阅读大作业给出的参考文献
) 。 - 称竞争比 (Competitive Ratio) 为最优固定价格下的收益与某一无先验拍卖机制的收益的比值。因此上述 DOP 机制不存在常数竞争比。
关于竞争比分析,有如下结论:
- 不存在确定性拍卖 19 是有竞争力的,因此应当考虑随机拍卖机制 20。
- 存在竞争比低于 \(2.42\) 的拍卖。进一步地,这个下界是紧的,即存在竞争比等于 \(2.42\) 的拍卖。
- 这一结论的前半部分(不存在性)在 2004 年给出;
- 后半部分(紧下界)则作为 2004 年论文的一个猜想被提出,而后经过 10 年的等待被证明。
具有竞争比的拍卖示例 (page 59) ¶
在 RSOP (Random Sampling Optimal Price Auction) 机制中,通过随机采样的方式抽取对每个竞拍者使用最优固定价格的投标者。这一随机性的添加使得最差情况的出现概率降低,从而获得具有有限竞争比的拍卖。
RSOP 的定义如下:
随机采样最优价格拍卖 (RSOP)
随机采样最优价格拍卖(random sampling optimal price auction, RSOP)定义如下:
- 将投标向量 \(b = (b_1, \dots, b_n)\) 均匀随机地分成两个子集:对于每个买家的投标,都以 \(1/2\) 的概率随机落入两个子集 \(b'\) 和 \(b''\) 之一;
- 令 \(p' = \text{opt}(b')\), \(p'' = \text{opt}(b'')\) (其中 \(\text{opt}(b)\) 为针对 \(b\) 的最优固定价格
) ; - 对 \(b''\) 中的投标使用 \(p'\) 作为阈值(即 \(b''\) 中低于 \(p'\) 的投标被拒绝,投标大于等于 \(p'\) 的投标人获得物品并支付 \(p'\)
) ,对 \(b'\) 中的投标使用 \(p''\) 作为阈值。
差分隐私与机制设计 (page 60-62) ¶
本节将结合差分隐私 (Differential Privacy) 21 的概念进一步讨论近似最优的机制。将差分隐私和机制设计联系在一起的关键是将差分隐私的定义和机制设计中的诚实性概念联系起来。
考虑机制设计的诚实性要求,如果所有人诚实汇报,记机制 \(M\) 收到的汇报向量为:
如果参与人 \(i\) 偏离诚实汇报,则此时机制 \(M\) 收到的汇报向量为:
诚实性要求是,参与人 \(i\) 的效用满足 \(u(M(t)) \ge u(M(t'))\)。
一个重要的观察是,汇报向量 \(t\) 和 \(t'\) 可以视为相邻数据库 22(只在一个记录上有所不同
如果机制 \(M\) 满足 \(\epsilon\) - 差分隐私,根据差分隐私的后处理性质 24(即在满足差分隐私的算法上复合一个与数据库内容无关的函数仍然满足差分隐私性
同理可得:
即如果机制 \(M\) 满足差分隐私的要求,则参与人偏离诚实报价带来的收益也是有限的,从而满足近似诚实性 25。这意味着即使有激励去撒谎,谎报带来的额外收益也是有限的。
为什么选择指数机制 (page 63) ¶
下面考虑结合差分隐私设计近似最优的机制。众所周知,差分隐私中最常用的机制是拉普拉斯机制 26,然而这一机制在实现利润最大化时存在问题:
拉普拉斯机制的缺陷
假设有很多个(大于 4 个)苹果等待出售,有 4 个买家,他们认为苹果的价值分别为 1 元、1 元、1 元和 4.01 元。显然,最优定价为 4.01 元,因为这可以最大化收益(出售一个苹果获得 4.01 元
但是,如果直接输出 4.01 元,可能会导致估值 4.01 元的买家隐私泄漏。为了保护数据买家的隐私,通过差分隐私机制,我们对输出的价格添加噪声。然而,拉普拉斯噪声有相等的概率使得最终价格偏高或偏低。一旦价格偏高(例如 4.02 元
因此,我们需要设计新的差分隐私机制,即指数机制。
指数机制的定义 (page 64-65) ¶
为了定义指数机制,首先记在数据库 \(D\) 上查询结果为 \(r\) 时带给查询者的效用为 \(u(D,r)\)。此外,需要定义效用函数敏感度 (utility function sensitivity) \(\Delta u\):
其中 \(r\) 取遍所有可能的查询结果(这一集合记为 \(R\)
基于此,可以定义指数机制如下:
指数机制 (Exponential Mechanism)
设 \(D\) 是数据库,\(R\) 是查询结果的集合,\(u(D,r)\) 是效用函数,\(\epsilon\) 是差分隐私参数,则指数机制 \(M_E(D, u, R)\) 以正比于 \(\exp\left(\frac{\epsilon u(D,r)}{2\Delta u}\right)\) 的概率返回任意的结果 \(r \in R\)。
“正比于”的含义是,上述概率还需要做归一化处理。即,结果 \(r\) 被返回的概率是:
指数机制的性质 (page 66-67) ¶
不难看出指数机制的设计思路是,给定数据库 \(D\) 和效用函数 \(u(D,r)\),返回的结果 \(r\) 的概率与其效用成正比。也就是说,效用越高的结果被返回的概率越大。
- 回到卖苹果的例子,显然返回最优结果 \(3.01\) 元的概率最大,而大于 \(3.01\) 元的价格(其带来的效用为 0)被返回的概率比较小。这避免了拉普拉斯机制可能导致的零收益的极端情况。
- 可以证明,指数机制 \(M_E\) 是 \((\epsilon, 0)\) - 差分隐私的 27。
指数机制可以在保证隐私性、近似诚实性的情况下,满足近似有效率性 28:
定义 \(R_{OPT} = \{r \in R \mid u(D, r) = \text{OPT}_u(D)\}\),其中 \(D\) 是一个数据库,\(\text{OPT}_u(D)\) 表示效用函数 \(u\) 在数据库 \(D\) 上能返回的最大效用值。因此 \(R_{OPT}\) 的含义是所有可能的最优查询结果。有如下定理:
指数机制的近似效率性定理
给定数据库 \(D\)、效用函数 \(u\) 和查询结果集合 \(R\),对一个满足 \(\epsilon\) - 差分隐私的指数机制 \(M_E(D, u, R)\) 有
这个定理表明,指数机制以高概率返回接近最优效用的结果。右侧括号中的项表示与最优效用之间的偏离程度,它受到效用函数敏感度 \(\Delta u\)、隐私预算 \(\epsilon\)、结果集大小 \(|R|\) 和最优结果集大小 \(|R_{OPT}|\) 的影响。
-
不完全信息(Incomplete Information):指在博弈中,至少有一个参与人不知道其他参与人的一些关键信息,比如他们的类型(估值、成本等)或策略空间。 ↩
-
先验概率密度函数(Prior Probability Density Function):在贝叶斯统计中,指在观察到任何数据之前,对某个未知参数的信念所对应的概率分布。在这里,是卖家对买家估值分布的预先了解。 ↩
-
共同知识(Common Knowledge):指某个事实不仅所有参与人都知道,而且所有参与人都知道所有人都知道它,以此类推无限次。 ↩
-
显示原理(Revelation Principle):在机制设计中,如果存在一个在非直接机制下能够实现的均衡结果,那么也存在一个直接且激励相容的机制,能够实现相同的均衡结果。这意味着我们只需关注直接且激励相容的机制即可。 ↩
-
直接机制(Direct Mechanism):指参与人直接向机制报告他们的私人信息(如估值
) ,然后机制根据报告的信息决定结果和支付。 ↩ -
占优策略均衡(Dominant Strategy Equilibrium, DSE):在博弈论中,指每个参与人无论其他参与人选择什么策略,都有一个最佳策略。占优策略激励相容(Dominant Strategy Incentive Compatibility, DSIC) 意味着参与人如实报告私人信息是其占优策略。 ↩
-
贝叶斯纳什均衡(Bayesian Nash Equilibrium, BNE):在不完全信息博弈中,指每个参与人的策略是基于对其他参与人类型(私人信息)的信念而选择的期望效用最大化的策略,且这些信念是公共的且一致的。贝叶斯激励相容(Bayesian Incentive Compatibility, BIC) 意味着参与人如实报告私人信息是其贝叶斯纳什均衡策略。 ↩
-
事中阶段(Interim Stage):在机制设计中,指参与人已经知道自己的私人信息(类型
) ,但仍不知道其他参与人的私人信息时的阶段。 ↩ -
虚拟估值(Virtual Valuation):在迈尔森最优拍卖理论中引入的一个概念。它是一个经过转换的估值,用于将卖家的期望收益最大化问题转化为一个更易于求解的虚拟福利最大化问题。虚拟估值反映了在特定拍卖规则下,买家报告真实估值时对卖家期望收益的边际贡献。 ↩
-
背包问题(Knapsack Problem):一个经典的组合优化问题。给定一组物品,每种物品有自己的重量和价值,在限定的总重量内,如何选择物品使得总价值最大。 ↩
-
第二价格拍卖(Second-Price Auction):买家提交密封报价,物品分配给出价最高的买家,但赢得者支付第二高报价。 ↩↩
-
事后效率(Ex-post Efficiency):指在所有参与人私人信息被揭示之后,没有通过重新分配物品或支付来提高任何一个参与人的效用,而不会降低其他任何参与人效用的方式。 ↩
-
帕累托最优(Pareto Optimality):一种社会状态,指在不使至少一个体变得更差的情况下,不能使任何个体变得更好。它是衡量经济效率的重要标准。 ↩
-
VCG 机制(Vickrey-Clarke-Groves Mechanism):一类旨在实现社会福利最大化的激励相容机制。在 VCG 机制下,参与人被激励诚实报告其真实估值,且赢得者支付其行为给社会其他成员带来的外部性成本。 ↩
-
乘性权重算法(Multiplicative Weights Update Algorithm):一种在线学习算法,常用于解决重复博弈和在线优化问题,它通过以乘法方式更新权重来学习最佳策略。 ↩
-
对抗性老虎机(Adversarial Bandits):一种在线学习模型,其中“老虎机”的奖励是任意的,可能由一个恶意的“对抗者”决定,而不是遵循固定的概率分布。 ↩
-
无悔算法(No-Regret Algorithm):一种在线学习算法,其目标是使算法的累计损失与在事后回顾中选择最佳固定策略所造成的累计损失之间的差值(即“悔”(regret
) )趋于零。 ↩ -
格里汶科(Glivenko-Cantelli)定理:在概率论中,该定理表明经验分布函数(从样本中估计的分布函数)会一致收敛到真实的累积分布函数。在无先验拍卖中,这意味着当样本量足够大时,可以通过观察竞拍者的投标来推断其估值分布。 ↩
-
确定性拍卖(Deterministic Auction):拍卖结果(分配和支付)完全由参与人的报价确定,没有任何随机性。 ↩
-
随机拍卖(Randomized Auction):拍卖结果(分配和支付)可能包含随机成分,即使在给定报价的情况下。 ↩
-
差分隐私(Differential Privacy):一种严格的隐私定义,用于量化和限制从统计数据库查询中泄露个人信息的程度。它通过向查询结果添加随机噪声来实现,使得任何单个记录的存在或缺失对查询结果的影响微乎其微。 ↩
-
相邻数据库(Neighboring Databases):指只在一个记录上有所不同的两个数据库。这是差分隐私定义的核心概念,用于衡量单个个体数据对查询结果的影响。 ↩
-
差分隐私性(Differential Privacy Property):如果一个随机算法 \(M\) 对于任意两个相邻数据库 \(D\) 和 \(D'\),以及 \(M\) 输出结果集 \(Range(M)\) 的任意子集 \(S\),都满足 \(\Pr[M(D) \in S] \le \exp(\epsilon) \cdot \Pr[M(D') \in S] + \delta\),则称 \(M\) 满足 \((\epsilon, \delta)\) - 差分隐私。当 \(\delta=0\) 时,称为 \(\epsilon\) - 差分隐私。 ↩
-
后处理性质(Post-Processing Property):差分隐私的一个重要性质,指任何对差分隐私算法输出结果的后续处理(即使是非隐私的或恶意的数据处理)都不会降低其隐私保护级别。 ↩
-
近似诚实性(Approximate Honesty):指即使参与者不诚实地报告,其获得的效用也与诚实报告时获得的效用相差不大。这是差分隐私在机制设计中带来的一个重要结果,因为严格的诚实报告(如 DSIC)通常难以在隐私保护下实现。 ↩
-
拉普拉斯机制(Laplace Mechanism):一种常用的差分隐私机制,通过向查询结果添加符合拉普拉斯分布的随机噪声来实现隐私保护。它适用于数值型查询,噪声的尺度与查询的敏感度成正比。 ↩
-
\((\epsilon, 0)\) - 差分隐私:通常简写为 \(\epsilon\) - 差分隐私,表示对隐私保护强度的更严格保证,即 \(\delta=0\)。 ↩
-
近似有效率性(Approximate Efficiency):指即使在隐私保护机制下,机制实现的社会福利也能以高概率接近最优的社会福利。这是在隐私和效率之间进行权衡时一个重要的考量指标。 ↩