日前,SciPlus科研云于上海浦江创新论坛正式发布。作为行业云解决方案,SciPlus科研云基于云计算技术构建,具有资源共享、弹性收缩等云平台共性,专注于管理与存储,将计算资源和数据资源合理高效整合到云端,包括多云异构云管平台、通用分布式计算框架、流式编程计算框架,为科研工作者提供科研数据的计算分析能力与数据共享、学科领域数据库建设、科研协同协作等服务。
作为SciPlus科研云的重要技术合作伙伴,青云QingCloud CEO黄允松受邀出席发布仪式,并发表主题演讲《科研加速器——软件定义的多维云计算》,本文根据演讲内容整理。
在中国有一个非常热门话题——"下一代汽车"。如果你开过特斯拉,就会知道,驾驶汽车的体验就像是在驾驶iPhone。传统汽车行业也在改变,即使最传统的GM通用汽车也无例外。对"下一代汽车"的投入,最重要的岗位就是软件工程师。简单来说,汽车公司会变成软件公司,汽车功能都会解耦成各种组件,而在科研中也有类似的情况。
软件定义无处不在
回顾软件定义的发展,软件定义网络差不多是十年前开始的。在此之前,已经开始的是软件定义服务器。做科研一定要用服务器,但是在数据传输过程中也一定要用到网络。越来越多科研设备接入,网络能力变得至关重要。青云QingCloud 从创立之初就在建设软件定义网络的能力。
整个SDN(软件定义网络)体系发展过程,就是将传统的交换和路由功能从硬件转变为软件,快速进行迭代创新。SDN的工作逻辑,是让软件驾驭数据转发和数据控制,使创新成本几乎为零。以手机为例,现在的智能手机没有键盘;以前有键盘的时代,研发键盘并开模的周期长、成本高、调节难度大;现在将键盘变成软件之后,键盘来自于输入法提供商,创新成本几乎为零。
网络从单域模式拓展到多域,需要实现跨边界的网络连接。以前需要昂贵的设备,现在只要一套软件,大概率还是开源软件。这让调节成本变得非常低,并且问题修复和升级不需要涉及硬件的更换。
从单一实验室到多个实验室,从一个省份到多个省份,从一个国家到多个国家,需要跨越局域网络成为广域网络,新一代的SDN就是SD-WAN,当然还会继续演进。现在广域网的路由从数据中心推到移动端,我们在手机和Pad 上就可以操作,让网络更加贴近实际需求,靠的就是软件定义。
科学研究正在改变
如何能拿到尽量多的数据?要靠物联网和边缘计算。对疾病防治及其他科学的研究需要大量数据的输入,靠人工去收集数据不太现实,靠传感器收集的方式更加快速、及时。传感器通过多样化的连接,到达边缘端。大量数据通过物联网平台接入到数据库里的结构化或者非结构化的存储介质里,在云端进行分析,这个过程称之为"训练"。训练的结果,在人工智能领域叫模型,在科学领域就是"结论"。比如说,分叉树怎么分叉的,这个模型有版本,一个版本在迭代中有不同代际,进行版本标注之后,信息下发至边缘侧的终端上,当类似情况再出现时,可以自动发现和识别。
自动化过程变得很关键,算力足够、存储足够,最重要的是足够廉价。我们经常到全国各地出差或者旅游,会发现疫情防治的检测繁重、成本高、有效性低,通过人工智能及大数据的技术方案,成本变得很低,有效性也能得到提升,进一步推动资源投入到更加底层的病毒研究,使模型更精确。
容器提升数据处理能力
通过网络连接得到的数据,在云端处理逻辑有很多方式。比如,科研工作者常用的HPC(高性能计算),属于传统的计算方法;还有新兴方法,将容器用于对无状态型大量数据的并发式处理及流式处理。向云原生时代过渡,容器属于计算领域的基础设施。以前科学家们做数据处理买的就是服务器,后来是虚拟机,现在基本上是容器。在极短的时间内处理数以亿计的数据就是依靠这样并行的方式,对工作拆分再拆分。
如果科学形成割裂式的研究,一个团队只做自己的计算集群,得到的结果是没有意义的。比如,耳垂折痕和一个基因组MRPS22相关,同时这个基因又和心脏病相关的,如果没有数据交叉与分享,这个体征和心脏病就不能联系起来。科学一定是交叉的,支持科研的云形态变得至关重要。
云计算行业的演进过程很简单。最早是2004年3月,硅谷创业教父Paul Graham提出的"软件吞噬世界",软件带来了开源。接下来是云计算,现在是云原生时代,并行能力变强,加上存储与网络的能力,让数据处理过程变得更快,帮助科研工作者节省大量时间,在数据中找到逻辑和关联性。
从"软件定义"到"数字孪生"
要特别提一下"数字孪生"。举例来说,港口做危险品检测,之前主要靠经验数据,是二维的,复杂的。做数字孪生就变得很简单,港口原封不动地呈现在屏幕上,因为有很多数字化设施和传感器安装在港口的角角落落,把港口几乎100% 还原在屏幕上,和真实世界一样,并且每个环节是可编码的。
将物理事件在线上进行纯数字化还原,称之为数字孪生。这个模式对科学研究非常有效,比如说病毒,无论原宿主还是中间传播者,通过数字孪生方式做到非常接近真实的还原,追溯效率极高。
开源是全世界的基础架构技术协作
以前,我们大部分中国人对开源是没有概念的,但整个计算机行业完全靠开源推动。信息行业作为一个年轻行业,之所以发展快,关键在于开源带来的高协作性。
现在,越来越多人认识到开源的重要性,开源对中国来说更加重要,需要强调的是"开源是全世界的基础架构技术协作"。因为基础架构不会存在国别,就像音乐一样,一定是全球一体化的。所以青云QingCloud (qingcloud.com)都是通过全球化运作方式运作所有开源基础架构技术,前面提到的容器项目KubeSphere,从第一天就是这个理念。
云计算对GDP具有高度的正向推动,对科学研究亦是如此。实际上在新冠疫情中,我们已经看到很多领域的研究都是大量使用分布式做数据处理,带来了巨大便利。进入云原生时代,云计算作为新基石,一定会发挥更大的作用。