导语:蚂蚁金服近期开展的 "共战'疫情',技术破局"数字课堂线上直播系列演讲我们将整理并发布在 "蚂蚁金服科技" 公众号上,欢迎关注。
今天的整理来自蚂蚁金服高级标准化工程师朴昕阳,为大家解读共享智能标准以及共享智能技术的落地实践,以下为演讲整理全文:
大家好,我是来自蚂蚁金服技术战略发展部的朴昕阳。不久前,由蚂蚁金服牵头制定的共享智能联盟标准在AIIA(中国人工智能产业发展联盟)正式发布,这也是全国首个共享智能的联盟标准。今天我将主要针对该标准进行解读,同时有关共享智能的技术实践,在这里跟大家做一个分享。
今天的分享主要分为三部分,第一部分讲解有关标准的分类与价值,第二部分解读共享智能标准,第三部分介绍共享智能应用实践。
标准的分类与价值
标准的分类,我们按照这四大类来分。首先按层级,其次按属性,再次是按对象,最终是按性质。按层级来分,我们分为国际标准、国家标准、行业标准、地方标准以及企业标准;按属性分,我们分为技术标准、管理标准以及工作标准;按对象分,分为基础标准、安全标准、卫生标准、环保标准、产品标准、方法标准、管理标准等等;按照性质分,分为强制性标准、推荐性标准。当然强制性标准可能是一些国家标准,针对主要在安全方向或者隐私保护方向可能会制定一些强制性强制企业来遵守的标准。推荐性标准,顾名思义就是推荐性的标准,其次就是指导性技术文件仅适用于国家标准和行业标准。
标准主要包括技术要求、实施指南、测评依据、管理、基础协议以及创新研究。目前在蚂蚁我们做得比较多的其实是技术要求类以及创新研究类的标准,因为蚂蚁目前创新技术还是做得非常好,而且很多都是这种创新性的技术,所以我们希望把蚂蚁本身创新性技术对外做一个技术输出,同时也跟行业内感兴趣甚至说一起想做相关性技术的合作公司进行标准的制定。
我相信现在在观看直播的很多同学不是那么了解标准,所以我对标准本身价值做一个简单的介绍,它体现在四个方面:
首先在技术领先方面,是因为基于强大的技术研究实力,通过标准来引导技术方向,或者是输出优秀的技术实践,这个我刚刚也提到了。
第二个方向主要是在市场规则方面,参与标准与技术政策的制定,可以促成健康的市场规则。
第三个方面聚焦主流,引导行业聚焦主流的标准,防止旁流标准造成市场化的碎片化。
最后一个有关产业生态,联盟就像类似一个产业生态一样,基于联盟标准组织可以凝聚行业本身共识来共建产业生态,促进技术商业化发展。通过标准工作引领行业发展的过程中,我们可以提升技术影响以及公司品牌价值,来破除产品进入市场的壁垒。同时实现ICT网络互联互通,以及提高相关产品研发质量,最终促进产业链上下游合作。
共享智能标准解读
刚刚我们也说,今年3月30日,《共享学习系统技术要求》在AIIA联盟已经正式对外公开发布了,这个标准由蚂蚁金服来牵头联合八家产、学、研、用机构共同研究制定的。这八家机构分别是中国联通、中国信通院、中国电信、阿里巴巴集团、北京大学、中和农信、北京百度网讯科技公司以及云从科技集团股份有限公司,在这里也非常感谢这八家公司对我们标准本身的贡献。
标准从制定到发布大概用了将近一年的时间,是从去年5月份开始我们进行内部需求搜集到最终今年3月30日最终发布,这个时间也算是比较长的。我这里想简单介绍一下,我们有关标准制定的节奏以及流程。
首先是关于标准化需求的搜集。在内部进行标准化需求收集之后,我们在相关联盟以及协会去申请标准的立项。标准成功立项之后,我们会撰写标准本身的草案。在蚂蚁内部这个标准草案主要由标准化的同学主要撰写,技术同学会给予相应一定的技术上帮助。标准草案这个完稿之后,我们会递交到联盟或者协会去做意见征求。这个意见征求的对象主要是面向联盟或者协会的会员,大家一起来做标准的共建。经过大概两到三轮左右的意见征求之后我们会进入送审稿的阶段,送审稿我们基本整个稿子已经比较成熟了。
经过联盟技术委员会评审之后,我们会进入报批稿阶段,报批稿基本上这个标准可以对外发布了,最终正稿之后我们标准发布,再到标准实施的过程。标准实施当中可能会涉及到一些技术的更新,或者有一些新的需求,可能会反过来进行标准的修订,这是整个标准制定的节奏和流程。
接下来我想讲一讲有关共享智能的技术背景,以及我们为什么要做共享智能的标准。
随着数据孤岛问题的突出,数据共享日益重要,但仍存在一些有关数据的非法买卖和滥用泄露等问题,公众和政府日益重视数据隐私保护。我们知道欧盟GDPR法律也正式实施了,很多国家在争相效仿,对于数据隐私和安全的关注成为一种趋势。
在满足安全、隐私和监管等要求下,如何设计相应的框架来实现数据的多方协同和授权呢?这个需要更加准确和高效的模型和决策来进一步释放数据价值,再尝试建立对应的标准。
针对共享智能来说,目前我们知道人工智能存在的难题是鱼和熊掌不可兼得,隐私性和可用性难以兼顾。如果你想要AI本身系统发挥作用,就可能要先牺牲隐私,但在大量的真实场景当中,如果不能同时兼顾到隐私性和可用性,会导致很多AI落地的困境。
比如说我在这里举一个例子,首先是贷款的风控。如果用户想要去银行做贷款,先来到了银行A,银行A基于一些本地数据判断这个A是一个坏人,我们不可以给他贷款,这个人就到了银行B,但是银行B没有银行A的这些数据,所以银行B也许会把这笔贷款发放给用户的本人。其实这样的矛盾比比皆是,都是因为数据不流通所导致的。
我们看一下这张图,在现实环境当中,有的地方是有一些短暂的连接,但是大多数数据属于断开或者不通的状态。我们目标是想打通数据的孤岛,用技术的方法来解决技术的问题,通过技术保护数据安全的情况下,实现一个数据的共享以及价值的传递。
对于共享智能我们希望达到数据可用不可见的目标,在多个参与方而且各个数据提供方与平台互相不信任的场景下,能够和多方的信息来进行机器学习,确保各个参与方隐私不被泄露,数据不被滥用。
接下来想介绍一下标准本身的范围以及框架。我们在这次联盟发布共享智能标准,主要用于制定共享学习系统的技术要求来规范化共享智能的定义。包括技术框架以及流程,技术要求以及安全的要求。本身这个项目也适用于指导共享智能系统的设计、开发、测试、使用、运维管理等等。
这个标准当中的内容我们主要是包括了这几大方面,一方面有关共享智能的概述,之后我也会大概讲解一下,包括基于可信执行环境的共享智能系统,以及多方安全计算的共享智能系统。这两部分都包括了不同的方案技术框架、功能组建、技术流程。同时对共享智能系统技术以及安全也做了一定的要求,附录当中也进行了两个场景与示例的撰写,包括智能风控以及智能营销。
有关共享智能(Shared Machine Learning)的定义,我在这里做一个介绍。首先这个共享智能是由多个数据提供方参与,且在各个数据提供方与平台方互相不信任的场景下,平台能够聚或者协助聚合多方数据信息并保护多方数据隐私的学习范式。
在这个标准中,我们一共写进去了两个共享智能的方案,包括TEE(Trusted Execution Environment,可信执行环境的方案)以及MPC(Multi—Party Computation,安全多方计算的方案)。除却这两个方案之外,其实我们内部也在进行一些其他方向的技术方案的研究,后续我们会把它补充到我们标准当中去。
首先介绍一下可信执行环境方案。主要利用可信执行环境来解决多个数据提供方在进行共享智能时的隐私保护问题。它的技术框架主要是由计算平台以及多个数据提供方组成的。我们可以看到计算平台当中,包括融合学习、功能模块以及认证模块。对于每个数据提供方都包含了本地的数据以及针对数据处理和加密的模块,以及认证的模块。其中数据提供方在进行处理,对数据进行处理之后,通过认证模块的公钥加密,再上传到计算平台。这个计算平台本身认证模块,通过私钥对加密数据进行解密之后,再发送给融合学习模块,对解密之后的多方数据进行融合的机器学习来确保数据的隐私不被泄露。
这种方案其实是依赖可信硬件的,通过数据加密的方式,集中传送到我们可信的平台当中。对于一些本身已经上云的机构可以把所有的东西都存在云上面,所有的技术都在云上面部署。用这种方式可以非常快速便捷,同时又可以达到非常好的隐私保护的效果,这是TEE的技术方案。
针对MPC的技术方案,这个技术架构包括了模型平台以及同样有数据提供方存在的。模型平台主要包括了控制模块,数据提供方包括本地的数据以及本地部署的学习模块所组成的。其中数据提供方的学习模块可以通过互相之间来交换随机数或者加密参数的方式,在模型平台本身出发与协调下进行共享的继续学习。模型平台收到学习模块,就是各个数据提供方学习模块,提供上来的训练任务之后进行分解和协调,下发到各个数据提供方,本地的机器学习模块可以交换随机数和参数,来完成共享智能的训练,并最终得到一个共享智能的模型。这个方式本身是不涉及到硬件的,是偏软件和密码学的方案,所以中间出去的随机数以及加密的参数目前在业界隐私再加上人工智能结合的方向上,用这个方案还是比较多的,业界用MPC技术方案还是蛮多的。
接下来要介绍一下目前我们的共享智能标准,就像我最开始介绍的,我们按照层级来分类,其实我们在很多层级上都做了标准的布局,包括在国际标准方面上,我们在HOE以及ITOT都进行了标准的建立。在行业标准方面,我们在国内的CCSA(中国通信标准化协会)也进行了标准的立项,目前在意见征求稿推进当中。
在联盟标准方面,我们在AIIA(中国人工智能产业发展联盟)已经发布了标准。在AIOSS(中国人工智能开源软件发展联盟)我们现在也在进行中,目前已经到报批稿的阶段,可能马上要发布了。
共享智能应用实践
接下来进行第三部分讲解,有关共享智能应用实践部分。
其实两种方案在现实当中都有一定的落地应用实践,包括TEE、MPC。首先TEE在安全风控的领域,我们首先聚合生态伙伴来建立安全的风控网络。我们前面介绍的可信执行环境技术,把数据加密传输到网络当中来,共建模型来打击虚假的交易以及团伙作案,大幅度的提升了风控准确率来实现风控网络的进化。通过这样的风控网络平台,可以使得商家每天增加很多的交易,同时也降低了资损。
接下来是有关在蚂蚁内部我们做的有关信贷联合风控,是和江苏银行一起联合来做的。主要为了联合数据建模来提升模型的性能。
还记得我们之前介绍的例子吗?因为本身数据的不完整导致风控决策的错误。现在通过共享智能技术我们双方可以完成共同的模型构建。通过这样机制来实现联合的风控,可以使得这个效果大幅度的提升,同时在这个过程当中,数据的隐私得到了有效的保护。
接下来介绍一下有关共享智能我们获得的一些行业奖项,包括在去年2019年我们在中国人工智能峰会上获得了紫金产品创新奖,全球人工智能创业者大会上获得的应用案例示范奖,同时在去年的世界人工智能产业安全上,获得了十大创新实践的称号。同样在去年的CCF,也就是中国计算机学会上我们获得了科技进步优秀奖。共享智能是我们蚂蚁内部做得非常成熟,而且应用落地实践非常好的一项技术。
最后,希望无论是蚂蚁的同学,或者是说外部一些公司如果对我们标准或者技术感兴趣,欢迎加入到我们标准共建中来,我们可以一起进行相关技术的探讨。