清华大学林常乐:数据要素定价的思考与实践 | 数字思考者50人

深度
钛媒体2022特别专题策划《数字思考者50人》:探访中国50位独具代表的数字化思考者。我们理解的 TechThinker ,涵盖了中国数字化浪潮中的技术践行者、政策制定者与投资决策者。在这场长达10年的乘风破浪中,我们每个人都在分享技术进步的果实,却鲜有人知道结果背后的故事。我们期待通过《50人》,还原中国数字化推进过程中的关键决策,同时也为你呈现数字思考者们的管理与经营之道。

钛媒体注:

“生产要素”,是经济学中的一个基本范畴。1662年,英国古典经济学家威廉·配第在其著作《赋税论》中写道,“劳动是财富之父,土地是财富之母”,商品交换价值取决于商品生产所消耗的劳动。农业社会时代,“耕者有其田”就足够生产价值。

1776,“经济学之父”亚当·斯密在《国富论》中首次提出了全面系统的经济学说,确定了经济研究的三大基本要素:劳动、土地和资本,内在动因是社会开始朝着工商业方向发展,商品不断流通,仅靠劳动与土地无法满足生产生活的需求,资本成为第三种生产要素。

1957年,美国经济学家罗伯特·默顿·索洛提出了一个新的方程式,用来衡量各种生产因素对发展所做出的贡献,根据这一方程式,国民经济最终会达到这样一种发展阶段:在那个阶段以后,经济增长将只取决于技术的进步。

19世纪中叶到如今,可能也是人类历史上技术进化跨度最大的一个时期,技术要素发展蔚为繁荣。后来索洛因这一贡献获得了诺贝尔经济学奖,诺贝尔奖委员会认为,正是索洛的理论,使工业国家愿意把更多的资源投入大学和科学研究事业,技术推动了经济的腾飞。

回到当下的数字经济时代,数据要素逐渐被重视,2020年3月30日,国务院发布关于构建更加完善的要素市场化配置体制机制的意见,首次确立数据为第五生产要素。

其中提到,要加快培育数据要素市场,包括推进政府数据开放共享,提升社会数据资源价值,加强数据资源整合和安全保护。同时提出引导培育大数据交易市场,依法合规开展数据交易,建立健全数据产权交易和行业自律机制等。

从土地、劳动的二要素,到如今的五要素,数字经济时代参与生产的要素越来越多,说明生产过程本身在发生变化,数据要素从头到脚都是新的,从没有属性的数据到参与生产的要素,是一个值得探索经年的议题

解决数据要素市场培育、数据交易问题,使得数据在流通中发挥其价值,就要解决如何使数据成为“标准化”产品的问题,而实现标准化的数据定价体系是必不可少的前提。

2021年,清华大学姚期智院士发布了数据要素的定价理论数据要素的定价理论与算法是融合了信息经济学、博弈论和计算机科学的前沿交叉理论,根据博弈论的合作博弈理论,来确立不同的数据对于决策模型的贡献度,贡献度大的数据要素更有价值,通过经济主体功效函数与决策模型贡献度的耦合,就可以对不同数据要素起到的经济价值做合理公平的定量评估,计算得到数据要素在经济活动中产生的经济价值。

在这一理论的指导下,清华大学交叉信息核心技术研究院开始研发数据流通定价与资产化算法平台,在姚期智院士指导下,清华大学交叉信息研究院兼职教授、交叉核心院副院长林常乐作为研发项目负责人,数据流通定价与资产化算法平台从数据价值释放本源定价,首次形成了一套公平、合理、实践性强的数据定价系统。

林常乐教授本科就读于清华大学数学系,博士就读于普林斯顿大学运筹与金融工程专业,他兼具金融产业与数据资产方面的实践, 2016年,他从美林证券辞职,回国加入姚期智院士的团队。

以下内容根据钛媒体对林常乐教授最近的访谈整理,有删节。

关于数据定价模型,问一个正确的问题

在宏观层面,数据流通的难题引起了广泛关注,比如国务院和省市发布的各类指导意见,要求按照数据要素的贡献进行权益分配,但数据到底该怎样进行定价?

如果主体之间不能定价,也就谈不上建立数据要素市场,因为不可能靠行政命令,让大家分配收益,所以我们就推出了一套算法。

其实,数据流通定价与资产化算法平台早在三四年前就受到了姚院士的关注,也是他主持的一个重大项目。

首先,我们发现可以在某一个经济活动里面分配数据权益,目前除了我们以外,只有美国的一个团队找到了正确的研究路线,别的研究团队都处于一个逻辑困境里,就是甲乙双方讨价还价的境地,如果是讨价还价的模式,数据定价是解不出来的。

数据提供方跟数据使用方都有自己的主观性,数据价格变成了一个“公说公有理婆说婆有理”的陷阱,而且我们看到现在很多机构发布的一些数据定价指引,全都带有主观性,一旦拥有了主观性,数据定价就没有任何的标准。

我们的研究,来自于问正确的问题。甲乙双方讨价还价,它是一个非对称性问题,实际上就没有一个很好的切口,把这个问题撕开并找到答案。

中央下发的文件中蕴藏着大智慧,它提出了按照贡献度去分配,以及基于公平性的选择。所以我们问了一个正确的问题——多方的数据协作完成某项经济活动,应该怎样进行价值分配?

如此,数据定价就变成一个对称性问题,多个数据协作方完成了一个任务,比如营销模型或者信贷模型,如果解决了多方数据协作经济价值分配的问题,数据定价问题就自然解开了。

数据提供方必须有一定的数据,它的数据量是a到正无穷,a不为零,数据使用方可以没有数据,或者有一定的自由数据,两方站在同一个起跑线上。我们根据诺奖和图灵奖得主的理论搭建了数据定价的理论框架,从数学上可以证明,这个方程有且有唯一公平的解,由信息经济学、博弈论与计算经济学三方面的理论组成。

我们先从业务的经济价值入手,用信息经济学翻译成数据模型相关的一些指标,在保证公平的前提下实现合作博弈,相当于把不同的数据拟人化,根据数据对模型产生的作用,以及连带业务经济价值的提升,我们就可以把它进一步翻译为数据的贡献度。

数据价值图谱与数据生产图谱

当我们把数据价值加总,一个数据到各种场景里面,都能实现一些权益,这就形成了一个图谱。数据跟场景之间的运算,数据参与场景进行生产活动的数据,就会产生价值。

它是由上游很多数据的信息量汇总出来,所以就会产生一个无限回复的图谱,数据跟场景的对应,数据跟数元的对应,实际上是我们第一个开发出来的技术,称之为数据价值图谱。

我们的数据价值图谱实际上是计算整个数据价值的贡献度,现在的数据治理全是依赖于技术的逻辑,还是发挥不了数据的价值和力量。但我们的图谱就把数据和业务的两层皮问题,一层一层给它击碎了,把数据的业务价值谈清楚。

有了数据价值跟业务场景的对应,我需要盘点清楚它的数据是怎么生产出来,流转关系是什么,它背后依赖了哪些数据,这个过程中,我可以把它的生产成本判断清楚。

第二个能力,我们搞了一个数据生产图谱技术,它可以自动地解析、盘点数据生产流转过程。这两个图谱技术加总以后,就形成非常丰富的信息量,这是我觉得人类做数据以来信息量最直接的一个图谱技术。

当我们把数据价值图谱与数据生产图谱整合到一起,形成了一个全新的技术,叫数据资产图谱,我们去年发布了1.0版本,今年(2022年)7月份我们和中国人民银行在研讨会上内部公开了数据资产图谱的进展。

如果说1.0版本是我们一个证明性的框架,我们证明了数据可被定价,并且有唯一公平的一个定价,那2.0就是一个构造性版本,我们真的要把这个值算出来,而且要在各种场景中把数据的价值盘点清楚。

令人兴奋的一点,这是一个种子,我们这项技术是可以自生长的,一旦种在数据的土壤里,它就自己生根,只要去产生业务价值,它就自动再往上面生长

这个种子种下去以后,数据在不同场景的价值就被点亮了,这个技术在很多集团已经开始试用,我们发现有数据的大集团,可以很好地激活数据价值,一是改变数据治理的难题;二是互联网公司各个部门数据都藏着掖着,不让别人使用,因为没有业务到数据价值的匹配逻辑。

用了这项技术,它的逻辑反过来,我愿意让你使用数据,我可以实现数据变现,而且不承担业务风险,我们发现集团内部的数据使用量大大提高。我们下一步要做更大的事情,就是行业数据资产。

做研究之前,我们自己也不知道有数据资产图谱这件事,摸索以后我们发现,数据的价值都体现在他参与的一些经济活动里,而且经济活动是多样性的,比如一个数据他可能参与了工业的场景,也有金融的场景,农业的场景都会调用这个数据,它在不同场景里面,价值贡献也是不一样的。

从生产角度来讲,它也是一张图,它的生产由上游很多道工序产生,它有自己的源数据,把它逐渐加工到这种状态,所以往前、往后它都是一张图,如果这张图大家没谈清楚,它会造成很多问题,就不用说数据定价的问题了,根本无法实现数据的匹配。比如银行要做一些场景,央企有很多数据,但是怎么知道哪些数据对银行有用,或者哪些数据央企可以提供。

数据交易所如果没有做好这个事,我们可以大胆预测是不会有交易量的,因为你无法像实物的买卖一样,把买家、卖家都叫过来,大家排列组合、撮合就行了。

所以我们的数据资产图谱实际上是想通过小规模探索,建设行业数据图谱,数据图谱如果能不断建起来,它就会不断扩张。

数据将作别奴隶时代

以前的数据是被“霸凌”的,拥有数据的人在无偿地使用它、攫取它,也不管数据的体验,例如电话骚扰等,从个人的角度来讲,感觉到被骚扰和被窥探,从B端的感受来讲,企业在信息化做了大量的投入,摸不清业务价值到底在哪,数据好像一堆废料堆在工厂,其实里面都是金子。

我们可以形象地比喻过去是数据的“奴隶时代”,什么叫奴隶时代?就是数据被强制用于生产,然后还不给钱,现在我们可以让数据去打工,当然是基于安全、合规和公平的三原则之下。

现在数据的供需也是错配的,数据在供给端没有人买,需求端需要大量的数据,但是没有人供应,还有一个问题,有可能供需是可以匹配的,但是大家不知道,需求方不知道供给方的数据对场景有什么价值。

所以需要统一的度量衡和法律法规,使数据能够流动起来,改变“以物易物”的形式,数据资产云化包括一系列流程:数据安检、数据基因、数据工分、模型工厂、数据组团。

数据安检主要检查是否有敏感数据,主要是基于合规需求进行审计;

数据来源都已经合规合理了之后,我们再去看数据的质量,针对我们需要的用途,是否适配我们将要去做的模型或者数据分析

数据公分,根据场景和用途把数据分到不一样的流程;

模型工厂,现在有一部分数据,如果让它发挥价值,就需要建立一个人工智能模型或者不同的统计数学分析模型;

数据组团,我们把分析结果拼接出来,然后融入到不一样的业务场景中,最终发挥它的价值。

在这个价值衡量和数据生产关系追溯的过程中,我们把不同的数据和它相应的业务流程,它发挥的价值、适配的模型进行归类区分,有利于数据全生命周期的内部流程优化,以及数据的价值化管理,根据它的分工和价值分到不同的团队中。

多方安全计算技术使得数据要素流通成为可能,“数据可用不可见”。利用这项技术,可以打破“数据孤岛”,形成数字化转型基础。同时,零知识证明的技术可以有效实现政府部门或行业联盟可以共同利用零知识证明技术实现监管与隐私共存,验证数据要素使用的合规性、公平性等原则,保障数据隐私与企业机密。(本文首发钛媒体APP 文 | 张帅,采访 | 刘湘明 张帅)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App