第一讲 数据要素市场简介 ¶
贸易与市场的起点:一个经济学寓言 (page 3-12) ¶
经济学旨在理解社会如何管理其稀缺资源。为了深入理解市场与贸易的起点,我们可以通过一个经济学寓言来探讨其中的基本原理。
贸易的益处 ¶
假设世界上只有 Rose(牧牛人)和 Frank(种土豆的农民)两个人,他们都喜欢吃牛肉和土豆。
- 初始情况:
- 如果 Rose 只能生产牛肉,Frank 只能生产土豆,那么贸易的好处显而易见:通过贸易,他们都能享用到更多样化的食品,不必局限于单一食物。这体现了贸易能够使人们消费更多的物品。
- 如果 Rose 和 Frank 都能生产这两种物品,但他们在生产其中一种物品时成本相对较高(即不擅长
) ,通过专门从事自己最擅长的活动并相互交易,也能获益。这初步揭示了专业化带来的好处。
绝对优势 (absolute advantage) (page 4) ¶
在经济学中,绝对优势指的是一个生产者在生产一种物品时,相比于另一个生产者,所需投入(如时间、资源等)更少,或者说在单位时间内能生产更多的该物品。
绝对优势
生产者生产一种物品所需投入较少,就可以说该生产者在生产这种物品上有绝对优势。
例如,在给定 8 小时工作时间的情况下:
8 小时产量(盎司) | 牛肉 | 土豆 |
---|---|---|
Frank | 8 | 32 |
Rose | 24 | 48 |
从上表可以看出,Rose 无论在生产牛肉还是土豆上,单位时间产量都高于 Frank。这意味着 Rose 在这两种物品的生产上都具有绝对优势。
比较优势 (comparative advantage) (page 6-7) ¶
仅仅拥有绝对优势并不意味着不需要贸易。即便 Rose 在两种物品的生产上都具有绝对优势,她和 Frank 之间依然可以通过贸易互利。这引出了经济学中更深层次的概念——机会成本和比较优势。
机会成本 (opportunity cost) 1
经济学十大原理之二指出:某种东西的成本是为了得到它而放弃的东西。因此,机会成本是为了得到某种东西而必须放弃的东西。
机会成本计算示例:
- Rose 每生产 1 单位牛肉,需要放弃 \(48/24 = 2\) 单位土豆(因为生产 1 单位牛肉需要 Rose 1/24 小时,1/24 小时可以生产土豆 \(48 \times 1/24 = 2\) 盎司
) 。 - Rose 每生产 1 单位土豆,需要放弃生产 \(24/48 = 1/2\) 单位牛肉。
- Frank 每生产 1 单位牛肉,需要放弃生产 \(32/8 = 4\) 单位土豆。
- Frank 每生产 1 单位土豆,需要放弃生产 \(8/32 = 1/4\) 单位牛肉。
机会成本 | 生产 1 单位牛肉 | 生产 1 单位土豆 |
---|---|---|
Rose | 2 单位土豆 | 1/2 单位牛肉 |
Frank | 4 单位土豆 | 1/4 单位牛肉 |
比较优势 (comparative advantage) 2
如果一个生产者在生产 X 物品时放弃了较少的其他物品,即生产 X 物品的机会成本较小,我们就可以说,他在生产该物品上具有比较优势。
比较优势分析:
- Frank 生产土豆的机会成本是 1/4 单位牛肉,低于 Rose 生产土豆的机会成本 1/2 单位牛肉,因此 Frank 在种植土豆上具有比较优势。
- Rose 生产牛肉的机会成本是 2 单位土豆,低于 Frank 生产牛肉的机会成本 4 单位土豆,因此 Rose 在生产牛肉上具有比较优势。
关键结论:尽管一个人有可能在两种物品的生产上都具有绝对优势,但不可能都具有比较优势,因为一种物品的机会成本是另一种物品机会成本的倒数。 贸易的真正好处并非基于绝对优势,而是基于比较优势。当每个人专门生产自己有比较优势的物品时,经济的总产量会增加,并且双方都能从中获益。
经济学十大原理之五
贸易能使每个人状况更好,因为它使人们可以专门从事他们具有比较优势的活动。
优化生产与贸易:
通过合理的时间分配和贸易,即使 Rose 拥有绝对优势,双方的总产量也可以增加,并且每一方都能以低于自己生产的机会成本的价格获得所需的物品。例如,Frank 专门种土豆,Rose 专门养牛,然后 Frank 用土豆换牛肉,Rose 用牛肉换土豆。
优化时间、进行交换后每天拥有数量(盎司) | 牛肉 | 土豆 |
---|---|---|
Frank | 5 | 17 |
Rose | 13 | 27 |
相较于双方自给自足(Frank 4 牛肉 /16 土豆,Rose 12 牛肉 /24 土豆
交换价格的合理范围 (page 9-11) ¶
经济学十大原理之三
理性人考虑边际量,只有一种行动的边际利益大于边际成本,一个理性决策者才会采取这项行动。
边际量 (Marginal Quantities) 3
理性人通过比较边际利益和边际成本来做出决策。例如,航空公司在有空位时,即便平均成本较高,只要额外的乘客支付的票价(边际利益)高于其边际成本(如一包花生米和一罐软饮料
水的价值与钻石的悖论:水是必需品但价格低廉,钻石非必需品但价格昂贵。这是因为人们对物品的支付意愿基于其增加一单位该物品所获得的边际收益。水供应充足,增加一杯水的边际收益微不足道;钻石稀少,额外增加一颗钻石的边际收益巨大。
贸易价格范围:对从贸易中获益的双方而言,他们进行贸易的价格在两种机会成本之间。 在 Frank 和 Rose 的例子中,双方均能获益的牛肉价格范围应在 Frank 生产1盎司牛肉的机会成本(4盎司土豆)和 Rose 生产1盎司牛肉的机会成本(2盎司土豆)之间。即,每盎司牛肉的价格应介于 2 盎司土豆和 4 盎司土豆之间。
市场的作用 (page 12) ¶
经济学十大原理之六
市场通常是组织经济活动的一种好方法。
在市场经济中,经济参与者受利己心驱动,通过市场这只“看不见的手”4 的引导,在追求自身利益的同时,也促进了总体的经济福利。市场通过价格机制协调供给和需求,有效地配置资源。货币作为一般等价物,简化了成千上万种商品之间的价格衡量与交换。
循环流量图 (circular-flow diagram) (page 13-14) ¶
为了简化理解复杂的经济活动,经济学引入了循环流量图这一模型。
循环流量图 (circular-flow diagram)
一个说明货币如何通过市场在家庭与企业之间流动的直观经济模型。
在这个模型中,经济体由两类决策者组成:
- 企业:
- 生产并出售物品与服务。
- 雇用并使用生产要素。
- 家庭:
- 购买并消费物品与服务。
- 拥有并出售生产要素。
经济活动流程: 家庭和企业在两类市场上相互交易:
- 物品与服务市场:家庭是买方,企业是卖方。家庭购买企业生产的物品与服务。
- 生产要素市场:家庭是卖方,企业是买方。家庭向企业提供用于生产物品与服务的投入。
货币流向示例: 假设 1 美元从家庭(你的钱包)开始。你用它到咖啡店购买咖啡,这 1 美元成为咖啡店的收益(企业的收入)。咖啡店用这 1 美元向房东支付租金或向工人支付工资,这 1 美元又成了某个家庭的收入(家庭的收入)。至此,货币在经济体中完成了一个循环。
生产要素 (page 15-17) ¶
在传统主流经济学中,通常将生产要素分为四大类:
-
土地 (land):所有用于生产的自然资源。
- 包括可再生资源(如森林)和不可再生资源(如石油
) 。 - 土地服务的价格称为租金。
- 特点:供给的价格弹性非常小,即价格变动很大也难以快速增加新的土地供给。
- 包括可再生资源(如森林)和不可再生资源(如石油
-
劳动力 (labour):包含体力劳动和脑力劳动,也可称之为人力资源。
- 劳动力的价格即工资。
- 特点:供应可改变但不能立即改变,供给弹性小。
- 供应受人口规模、工作欲望、态度、年龄和性别等多种因素影响。
-
资本 (capital):指用于生产物品与服务的设备和建筑物。
- 这里的资本不是指金钱,而是指实际的物质生产资料,如梯子、卡车、机器等。金钱只是购买这些资本要素的工具。
- 误区 1:资本作为生产要素不指金钱。金钱是交易工具,非直接生产工具。金融学中的资本是投资人投入公司的资源,反映投资者对公司的所有权或利润分配权。
- 误区 2:资本和资产(asset)并非一个意思。资产是公司控制的、能产生经济效益的资源,是会计概念。金融学中资产定价主要指证券等金融工具。
- 资本的价格:在循环流量模型中,家庭将拥有的资本存量出租给企业,所获得的收入是租金。实际中,企业通常拥有并从资本中获益,最终通过利息(对借款给企业的家庭)和股利(对企业股东)形式支付给家庭。
-
企业家才能 (entrepreneurship):指组织、管理和承担风险以协调其他生产要素进行生产活动的能力。
- 一些学派也将技术 (technology) 列为第五种生产要素。
- 例如,马歇尔将“组织”列为第四要素。
- 库兹涅茨和索洛的研究也揭示技术发展是经济增长的主要因素。
生产要素的演变
从人类伊始的原始社会至今,生产要素的分类和内涵都在不断丰富和迭代。这表明我们对生产要素的理解是动态的,未来可能出现新的生产要素类型或对现有要素有新的理解。
数据要素(市场)的战略意义 (page 19-25) ¶
随着数字经济的蓬勃发展,数据作为一种新型生产要素的战略意义日益凸显。
国家战略地位
2020 年 4 月,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见
数据要素市场化配置面临的挑战 (page 19-22) ¶
尽管数据要素地位日益重要,但在市场化配置过程中仍面临诸多挑战:
-
数据要素确权定价面临诸多困难:
- 产权复杂性:数据作为虚拟物品,其权属不同于传统物权,在全生命周期中可能涉及多个支配主体,所有权不一定完全属于某个经济主体。
- 价值计量困难:尚未建立有效的数据价值和成本计量方法,数据价值和成本难以从业务中剥离,难以通过市场直接定价。
- 法律法规不完善:数据所有权、使用权、管理权、交易权等权益尚未被相关法律充分认同、明确界定和完全保护。
-
数据要素交易成本过高:
- 数据孤岛与垄断:拥有大量数据的企业倾向于构建闭合生态,轻视数据共享,形成数据孤岛甚至垄断,导致数据越发分割分散,难以发挥应有价值。
- 缺乏标准与机制:缺少相适应的技术标准、规范化的市场环境和成熟的分配机制,导致数据流通困难,可信流通难以达成,数据滥用和非法交易频现。
-
数据安全与隐私保护任重道远:
- 泄露风险高:数据要素作为虚拟物品,更易泄露,对安全和隐私保护要求高。
- 泄露事件频发:全球数据泄露事件数量庞大,很多源于管理制度不完善,对企业经营和用户利益造成巨大危害,极大束缚了数据价值释放。缺乏充分保护将导致市场失灵,无法最优配置资源。
国家政策与全球布局 (page 23-25) ¶
- 《中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要》:提出要“培育规范的数据交易平台和市场主体”,构建数字规则体系,营造开放、健康、安全的数字生态。
-
我国数据基础制度体系:2022 年 12 月 19 日
, 《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布,提出了数据要素的“四梁八柱”5 基本制度框架:- 数据产权制度:探索数据产权结构性分置制度(数据资源持有权、数据加工使用权、数据产品经营权
) ,推进数据分类分级确权授权机制。 - 流通交易制度:完善数据全流程合规与监管规则体系,构建规范高效的数据交易场所和数据要素流通和交易服务生态,建设数据流通基础设施。
- 收益分配制度:健全数据要素由市场评价贡献、按贡献决定报酬的机制,保护各参与方投入产出收益,推动数据要素收益合理倾斜,并更好发挥政府引导调节作用,关注公共利益和弱势群体。
- 安全治理制度:创新政府治理机制,守住安全底线,明确监管红线;压实企业责任意识和自律意识;充分发挥行业协会等社会力量,规范市场发展秩序。
- 数据产权制度:探索数据产权结构性分置制度(数据资源持有权、数据加工使用权、数据产品经营权
-
全球趋势:多个国家和地区已开始设立负责数据要素的主管机构,在顶层设计上制定、协调和实施数据要素发展战略:
- 中国:国家数据局(2023 年组建
) ,统筹数据资源整合共享和开发利用。 - 欧盟:欧洲数据创新委员会(2022 年立法通过
) ,提供数据交换与存储的网络安全要求,指导保护个人数据。 - 美国:网络空间安全办公室(2009 年成立
) ,制定网络空间安全政策。 - 韩国:国家数据政策委员会(2022 年成立
) ,推动全社会数据的产生、开放和共享。 - 日本:日本数字厅(2021 年成立
) ,制定和推动数字社会政策方案。
- 中国:国家数据局(2023 年组建
数据要素与传统四大生产要素的比较 (page 27) ¶
数据作为新型生产要素,与传统的土地、劳动力、资本、企业家才能相比,具有独特的属性。下表总结了这些差异:
Property | Description | Land | Labor | Capital | Entrepreneurship | Data |
---|---|---|---|---|---|---|
Tradability | can be traded | ✓ | ✓ | ✓ | ✓ | ✓ |
Composability | can be integrated to achieve higher value | ✓ | ✓ | ✓ | ✗ | ✓ |
Physical Object | is a physical object | ✓ | ✓ | ✓ | ✗ | ✗ |
Replicability | can be replicated (almost) without cost | ✗ | ✗ | ✗ | ✓ | ✓ |
Shareability | can be used by multiple parties simultaneously | ✗ | ✗ | ✗ | ✓ | ✓ |
Externality | indirect cost or benefit arising from others' activity | ✓ | ✓ | ✓ | ✓ | ✓ |
Priori Value | the value is the consensus before using | ✓ | ✓ | ✗ | ✗ | ✗ |
Homogeneity | unit element has similar value | ✗ | ✗ | ✗ | ✗ | ✗ |
Persistence | is reusable and not expendable | ✓ | ✗ | ✗ | ✓ | ✓ |
Natural Increment | can be incremented without extra artificial effort | ✗ | ✗ | ✗ | ✗ | ✓ |
High Liquidity | can be easily converted into cash in a mature market | ✓ | ✓ | ✓ | ✓ | ✗ |
Divisibility | can be feasibly divided | ✗ | ✗ | ✗ | ✓ | ✓ |
数据要素的独特属性:
- 非物理性 (Non-Physical):数据是虚拟物品,不占据物理空间。
- 可复制性 (Replicability):数据几乎可以以零成本无限复制,这是传统物理要素不具备的。
- 可共享性 (Shareability):同一份数据可以被多个主体同时使用,而不会减少原始数据。
- 可组合性 (Composability):数据可以通过集成和分析产生更高价值。
- 非同质性 (Homogeneity):数据的单位元素(如一条记录)通常不具有相似的价值,其价值往往体现在其组合和分析中。
- 可重用性和非消耗性 (Persistence):数据在使用后不会被消耗,可以反复使用。
- 自然增量 (Natural Increment):数据在很多情况下可以随着业务活动的进行而自动生成和积累,无需额外的人工投入。
数据市场的定义 (page 29) ¶
数据市场 (Data Market)
数据市场是任何一种机制,通过该机制,数据产品(包括数据集和数据衍生物,如统计数据、查询结果和训练模型)的交换得以实现,买方和卖方直接或通过中介代理进行接触。
数据市场中的主要参与方和交易内容 (page 31):
- 数据提供方:原始数据、梯度参数、查询调用。
- 数据服务方:提供加工后的数据、机器学习模型、数据查询服务。
- 数据使用方:消费加工后的数据、机器学习模型、数据查询服务。
数据交易形式 (page 32): 数据交易的产品形式多种多样,主要包括:
- 原始数据 (Raw Data Based):未经处理的原始数据集。
- 查询服务 (Query Based):基于用户查询需求,返回特定查询结果。
- 模型训练 (Model Based):提供用于机器学习模型训练的数据集或直接提供训练好的模型。
- 统计发布 (Statistics Based):发布数据的统计分析结果。
数字商品与数据要素
在经济学或计算机科学文献中,数字商品(如电影、音乐
原始数据交易面临的问题 (page 33) ¶
当原始数据直接作为市场上的主要流通商品时,存在以下突出问题:
- 复制、转卖无成本:购买者可以轻易复制和转卖,使得数据所有者的利益难以保障。
- 隐私信息泄露:原始数据中常常包含(隐含)敏感的隐私信息,存在泄露风险。
- 数据无法入市:由于隐私问题和合规风险,大量原始数据无法进入市场流通。
- 可用性急剧下降:直接使用本地化差分隐私等技术可能导致数据可用性急剧下降。
因此,对原始数据的交易需求是增强约束,以解决上述问题。
查询服务 (page 34) ¶
基于查询定价的数据市场,如 Google Bigquery,通过按查询向购买者收费并补偿数据所有者,部分缓解了原始数据交易的问题。市场决策可以包括对数据使用(如隐私保护查询)的限制、补偿分配以及基于查询的定价。 需求:支持复杂的数据分析和决策制定,同时兼顾隐私保护。
模型训练与统计发布 (page 35) ¶
近年来,出现了基于模型定价的数据市场。这种模式根据模型实例的质量进行定价,并在数据所有者之间公平分配补偿。 需求: - 控制数据的使用方式:通过模型交易间接控制原始数据的使用,降低隐私泄露风险。 - 选择最适合需求和预算的模型质量:提供不同质量等级的模型以满足不同需求。 - 公平地分配补偿:确保数据所有者因其数据被用于模型训练而获得合理回报。
数据交易流程 (page 36-43) ¶
数据交易是一个多阶段的复杂过程,主要包括以下环节:
-
数据收集 (page 37):
- 目标:找到可交换的数据集,从海量数据中挖掘具有商业价值的数据。
- 挑战:如何从海量数据中高效、准确地挖掘出有商业价值的数据,避免陷入数据量大但有价值的数据稀缺的困境。
-
数据存储 (page 38):
- 方式:集中式或分布式数据平台。
- 风险:黑客攻击、数据丢失、未经授权使用。
- 要求:存储阶段需结合物理措施和数据保护技术应对威胁。数据市场需要从可靠的数据源获取并推送最新数据。
-
数据产品化 (page 39):
- 定义:将客户需求转化为可销售、标准化、可重复和可理解的数据产品。
- 过程:通过信息技术组合合适的数据元组,从原始数据衍生出各种形式的商品(如 web 界面、软件、查询结果和机器学习模型
) ,并增加原始数据的价值。
-
数据合规 (page 40):
- 目标:企业必须遵守相关标准和法规,防止敏感数据泄露、误用、破坏。
- 范围:适用于原始数据及其衍生的所有数据产品。
- 要求:数据交易、存储和传输方式需遵循法律规范(如 HIPAA、GDPR、PCD-DSS、SOX 等
) ,否则将面临高额罚款。 - 技术:数据脱敏、同态加密、多方安全计算、联邦学习等隐私保护技术。
-
数据定价 (page 41):
- 目标:将数据产品作为交易资产进行定价,这是计算产品盈利能力的关键。
- 挑战:数据产品的成本难以分解和明确估计。数据产品的固定成本可能很高,但复制成本接近于零,导致边际成本很低。数据产品往往是面向任务的,其价格取决于具体应用场景,客户对相同数据产品的感知价值可能不同。
-
数据溯源 (page 42):
- 问题:买家面临如何验证卖家是否真实提供数据产品的问题。
- 挑战:恶意代理可能以零成本复制和传输数据产品,若缺乏合理著作权概念。
- 价值:描述数据来源和转换过程,是保证数据收集、产品化和定价真实性的关键。从源头解决数据质量和收益分配问题。
-
数据销毁 (page 43):
- 必要性:一旦数据不再用于预期目的、或数据所有者拒绝共享,必须立即销毁,以保护数据所有者隐私。
- 方式:主要包括存储介质的物理销毁或存储内容的重写。
数据市场的设计要求 (page 45) ¶
一个理想的数据市场应满足以下关键设计要求:
- 可信性 (Trustworthiness):确保数据来源可靠、交易过程透明、数据质量可信。
- 公平性 (Fairness):保障数据所有者和使用者之间的公平交易,包括合理的定价和收益分配机制。
- 安全性 (Security):采取全面的安全措施,保护数据在收集、存储、流通和使用全生命周期的安全。
- 盈利性 (Profitability):支持数据产品和服务的商业化,实现各参与方的经济效益。
- 高效性 (Efficiency):优化数据流通和交易流程,提高数据处理和交付的效率。
数据市场实例 (page 47-57) ¶
附件中列举了多个国内外数据市场的实例,包括但不限于:
- AWS Data Exchange:提供各种类型的数据集,如 COVID-19 数据、气候风险数据、豪车销售数据等,支持订阅模式。
- Databricks Marketplace:提供数据产品,如 T-Mobile 客户数据增强服务,按包或按属性收费。
- 数据堂 (Datatang):提供多种训练数据集,包括计算机视觉、语音识别、自然语言理解等,支持数据定制服务和标注平台。
- 上海数据交易所:提供数据产品,如“三要素简版核验”服务,用于企业风控和信息核验。
- 贵阳大数据交易所:提供企业基本信息查询、倾斜摄影数据采集等服务。
这些实例展示了数据市场在不同领域和形式上的实践,涵盖了原始数据、数据产品、数据服务等多种交易类型。
-
机会成本 (Opportunity Cost):指在面临多项选择时,如果选择了其中一项,就必须放弃其他选择中能够获得的最大价值。它是经济学中一个重要的概念,强调资源稀缺性下的选择与取舍。 ↩
-
比较优势 (Comparative Advantage):指在生产多种产品时,一个生产者在生产某种产品时,相比于其他生产者,其机会成本更低。即使某个生产者在所有产品上都具有绝对优势,他仍然应该专注于生产自己具有比较优势的产品,然后通过贸易来获取其他产品,从而实现互利。 ↩
-
边际量 (Marginal Quantity):指在保持其他条件不变的情况下,某一经济变量每增加或减少一个单位时,所引起的总经济变量的变化量。例如,边际成本、边际收益等。理性决策者会比较行动的边际利益和边际成本。 ↩
-
看不见的手 (Invisible Hand):亚当 · 斯密在《国富论》中提出的经济学概念,指在市场经济中,个体在追求自身利益的过程中,无意中会被引导去促进社会整体的利益,无需政府或中央机构的干预。 ↩
-
四梁八柱:原指中国古代建筑中支撑整个房屋的四根主要梁和八根主要柱子,比喻核心和基础性的支撑结构。在这里,它指代中国数据要素基础制度体系的四大核心支柱:产权、流通交易、收益分配和安全治理。 ↩