(资料图片仅供参考)
作者:马上消费研究院 周蓉蓉随着隐私计算的火热,其引发的商业价值和随之而来的法律问题也进入公众视野。2021年,隐私计算赛道云集了互联网大厂、金融机构和各类初创专精型公司,AI、区块链等曾经热门赛道的企业也纷纷开始加注隐私计算,以寻求第二增长曲线。2021年3月31日,北京国际大数据交易所成立,北京数据交易系统上线。作为国内首家基于“数据可用不可见,用途可控可计量”新型交易范式的数据交易所,北京数据交易系统是基于区块链和隐私计算技术支持的全链条交易服务体系,为市场参与者提供数据清洗、供需撮合、法律咨询、价值评估、权属认证等一系列专业化服务。2022年2月28日,广东省人民政府办公厅印发《广东省数字政府改革建设2022年工作要点》(粤办函[2022]24号)指出,“探索运用区块链、隐私计算等新技术强化数据安全防护”。根据由隐私计算联盟、中国信息通信研究院云计算与大数据研究所于2021年7月联合发布的《隐私计算白皮书(2021年)》,隐私计算(Privacy-preserving computation)的定义是“在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保证数据在流通和融合过程中的可用不可见”。隐私计算最具代表性的是多方安全计算,由图灵奖获得者姚期智院士于1982年提出,至今已有40年。在隐私计算领域,另有联邦学习、可信执行环境为典型代表。隐私计算技术体系既包含混淆电路、不经意传输等底层密码学技术,也包含零知识证明、差分隐私等辅助技术。不同技术各有所长,在解决不同问题时所发挥的作用各有千秋,在具体应用场景中,往往根据问题需求、行业类别、数据规模等因素而选择隐私计算的不同技术结合使用。例如,隐私计算在医疗领域得到丰富应用,国家医疗健康大数据的首批试点城市厦门,基于隐私计算建立了健康医疗大数据应用开放平台;在金融领域应用于互联网金融和消费金融风控模型等。在隐私计算迎来“风口”的当下,其优势与价值自不必言,然而不能回避的是技术的“双刃剑”效应,其中蕴含的法律问题值得深思。一、隐私计算真正提升数据合规了吗?在数字经济发展动能加速释放的背景下,数据作为关键生产要素,在使用层面一直面临开放、共享以实现高效利用与保护、合规以维护各方权益的矛盾。隐私计算的模式是在保护隐私的前提下,实现开放共享。隐私计算的核心竞争力是数据在流通和融合过程中的“可用不可见”,但使用隐私计算并不意味着可以解决数据流通融合的所有合规问题。隐私计算不同技术路线各有合规痛点。比如性能良好的多方安全计算路线需引入计算辅助方,面临可信挑战;传统联邦学习的安全性证明不严谨;硬件TEE方案有较好的性能和算法生态,但数据集中式处理,依赖厂商硬件的可信赖程度,因此需要结合具体场景需求采用合适的技术路线。随着网络安全法、数据安全法、个人信息保护法相继施行,数据的使用、流通与保护将得到进一步规范。隐私计算在某种意义上成为平衡个人信息的商业流通价值与个人权益两种价值可行的技术解决方案之一。但我国法律尚未对隐私计算等技术的合法性和合规性做出明确规定,致使隐私计算企业在技术产品设计、业务流程设计方面仍然欠缺规范指引。例如,现有法律规定“未经被收集者同意,网络运营者不得向他人提供个人信息”,而隐私计算的目标就是基于多方数据的计算,原则上破坏了这一要求,但同时又可能适用于“经过处理无法识别特定个人且不能复原”的例外条款。根据欧盟的立法,即使参与联邦学习的主体没有访问对方的数据,也可能被认为是共同控制者。因此,在采用隐私计算技术方案时,仍需重点关注数据的使用授权。通常情形下,根据各方职能划分,隐私计算参与方可分为“数据提供方”、“技术提供方”和“结果使用方”三方。数据来源的合法性是对数据提供方提出的最为关键的合规要求。无论是直接收集的数据(数据提供方直接向数据主体进行收集),或者间接获取的数据(数据提供方向数据供应商采购的数据),或者自身生产经营活动所产生的商业数据,或对收集数据进行梳理汇总所形成的衍生数据,如果在隐私计算技术启用的起点,数据提供方的数据来源没有遵循“合法、正当、必要的原则,公开收集规则,明示收集信息的目的、方式和范围,并经被收集者同意”,没有限于“实现处理目的的最小范围”,存在瑕疵甚至不法,那么后续计算的过程、计算的结果都将面临侵权的指责和责任的承担。在同意的合法性基础条件下,虽然源数据并不出库,但数据处理者仍然是基于对数据主体的数据实施特定的“处理”而产出了计算结果(例如通过分析不同网络平台的用户数据得出平台用户的收入水平)。用户有权了解数据处理的具体内容,以满足《个人信息保护法》规定的透明度规定,在此情况下,用户所在的平台是否有必要披露多方参与主体的具体信息,仍然可能存在不确定性。如个人信息已经匿名化处理后不再属于个人信息的范畴,则应转而适用《数据安全法》等关于数据方面的使用合规要求。《个人信息保护法》中规定了个人信息处理者自行处理及涉他处理(共同处理、委托处理、共享)的不同情形,不同情形的法定义务大不相同。例如,委托处理情形无需对数据主体告知同意,而共享情形下(即个人信息处理者向其他个人信息处理者提供其处理的个人信息的情形)应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意,如果接收方变更原先的处理目的、处理方式的,还应当依法重新取得个人同意。作为隐私计算的数据提供方,其提供的数据究竟能否使用、可以怎样使用、应当在怎样的范围内使用,不同的应用场景下,在不同的使用方式下,得出的答案可以大不相同。此外,由于联邦学习中的梯度仍然可以揭示衍生的一些个人信息,特别是当模型很复杂、有很多细粒度变量的情况下,个人信息仍有被重新识别的风险。在非匿名化个人信息的数据交互后,如何有效的实现数据生命周期末端——包括个人信息主体请求以及法律规范所要求的数据删除及监控日志等问题,需要相关主体在隐私计算设计中即充分考虑此类合规问题并加以实现。二、隐私计算有效实现数据流通了吗?多方安全计算、联邦学习等技术,相对与传统的数据聚合和机器模式明显增强了对于数据的保护、降低了数据泄露的风险。因此,包括欧盟在内的部分地区将其视为“数据最小化”的一种实现方式。但其带来技术壁垒及安全性隐患不容忽视。技术协同方面,当前入局者们的技术互不相同,相关企业不愿意公开自己的底层协议,发展水平也不一,对隐私计算产品和技术的推广造成一定的困扰。协议不透明导致安全性难以审计。安全性方面,隐私计算的功能在于解决数据流通安全性的问题。然而,由于密码学上的证明安全与实际安全并不相等,现阶段的隐私计算技术面临安全性难以被论证或证明的困境,很多假设安全的方法在实际应用上存在严重的安全性漏洞。同时,隐私计算也会带来很多新的安全问题,比算法歧视,又或者被黑客投入“脏数据”“毒数据”,导致“数据投毒”的风险存在。多方安全计算是在假设各方均能够提供真实有效数据的情况下实施,但事实上这过于理想化,数据参与方可能基于本身数据问题或者基于故意(如竞争对手伪装参与)或过失而实施数据污染,输入错误的源数据,这将导致多方计算结果的不准确,从而影响数据质量。但是,我国《个人信息保护法》第八条明确了“数据质量原则”,要求保证上个人信息的质量,避免质量不准确、不完整而对个人权益造成不利影响。多方安全计算的本质是“数据信任去中心化”,杜绝中心化数据的存在,以算法技术为数据安全实施背书。但是,基于数据合谋或者数据污染等概率问题存在,多方参与主体仍然有意愿希望在未来的特定时间,对多方安全计算结果进行可溯源的随机验证,并以结果反推各参与方的责任,但完全基于信任条件下的多方安全计算在此时发生了尴尬,验证溯源可能困难重重。隐私计算的过程中存在包括个人信息主体、数据提供方、技术提供方、结果使用方等多方主体,相关主体之间的权责如何划分界定,需要在数据确权的理论基础上,在实践中不断探寻各方主体法益的相对平衡。在多方安全计算中,如果若干参与方破环计算规则参与合谋,将可能导致其它参与方的数据泄露事件发生。以“谁是买单者?”游戏为例,若小红和小白发生合谋,只要小白将其计算结果A的数值告诉小红,则小红可以通过小黑告诉自己的数值B,以“B-A”的方式得出小黑的准确工资金额。因此,MPC协议仍然需要明确参与各方的权责关系,以应对未来可能存在的责任争议。标准方面,2020年11月,中国人民银行发布《多方安全计算金融应用技术规范》(JR/T 0196-2020)金融行业标准;2021年3月30日,国际标准组织电气与电子工程师协会发布正式标准文件(IEEE P3652.1)并于11月正式发布多方安全计算IEEE国际标准——《IEEE2842-2021 - Recommended Practice for Secure Multi-Party Computation》;2022年4月15日,国家市场监督管理总局、国家标准化管理委员会发布《信息安全技术 可信执行环境 基本安全规范》,确立了可信执行环境系统整体技术架构,描述了可信执行环境基础要求、可信虚拟化系统、可信操作系统等主要内容及其测试评价方法;近日,中国信息通信研究院联合中国互联网金融协会中互金认证颁发了我国首张“联邦学习产品安全认证证书”,通过权威认证助力金融隐私计算高质量发展。如果能通过底层编译器实现数据流图层的兼容互通,支持一键改写和适配上层多种算法,同时一定程度上将协议公开,使安全性可追溯、可验证,隐私计算的协同性将更大程度得以实现。三、隐私计算充分释放数据价值了吗?隐私计算作为可以促进数据流通融合的有效技术方案,迎来一波市场热潮。无论是互联网大厂还是隐私计算初创企业,入局者都在努力助推技术的发展创新,努力和众多产业、具体应用场景进行融合对接。但是,隐私计算解决了数据“能”拿出来的问题,但没有解决数据价值闭环的问题。多方安全计算系由多方共同提供数据源而生成计算结果,各方均由此得益,但仍然面临各方数据输入数据的量级或者质量程度不一的情况,多方的贡献比例可能难以衡平,而各方均又希望获得计算结果,该计算结果的数据权益(属)归于共同,还是通过合同方式确认归属,抑或是二次利用,可能仍然会在一定程度上引发争议,仍然有赖于参与各方通过协议方式予以明确。各方数据处理者或数据主体需要愿意分享他们拥有的数据,如果数据主体明确不同意数据的流通融合,那么数据提供方即使确保了数据来源的合法性(数据主体同意其采集),即使因为隐私计算“数据可用不可见”的核心竞争力大幅降低了数据泄露风险和数据主体权益的侵害可能,但也无权将数据用于流通融合。当多方参与主体数量较少,且各方投入数据不丰富的情况下,计算生成的结果仍然可能属于“个人信息”,从而引发数据处理者更多更高的义务。例如,多方参与平台通过计算,得出纳入计算的用户数据均存在“18周岁以上”的画像标签值,则该标签值适配于所有用户,属于关联于个人的个人信息。多方安全计算需要根据数据情况生成相应的随机数,这会减慢运行时间,对算力成本提出挑战,参与方也需要有一定的通信连接成本。例如,在“谁是买单者?”游戏中,为了区别简单的工资数值,需要输入一个很不一样的随机巨大值,这无疑延长了“人脑计算”结果的效率,算力也面临同样的问题。现阶段隐私计算技术发展仍处于早期,尽管初步具备可用性,但许多核心要点以及核心应用尚未得到更广泛认同,其应用中亟待提升对更大的数据方和数据量以及更复杂场景的应对能力。在全面推进数字化转型的政策引领下,在促进数据流通融合的时代背景下,发展隐私计算技术、拓展其场景应用是一种值得肯定的创新,但也应保持冷静,充分意识到其风险和隐患,关注其发展中的痛点和难点,及时运用经济、法律和政策等手段加以规制,在维护数据安全、实现数据流通、释放数据价值中找到平衡的支点。