“当今,科学研究可分为三种:实验、理论和计算。”
——诺贝尔奖得主,威尔逊
如果说,在科学的发展长河中,伽利略和牛顿奠定了实验科学和理论科学的基石。那么,计算机的发明,则把计算推上了人类科学活动的另一个前沿,此后,计算在科学活动中发挥着越来越重要的作用。
例如,被称为“上帝粒子”的希格斯(Higgs)玻色子是2012年度最大的科学突破。它的发现和捕捉之路离不开欧洲核子研究中心(CERN),而对撞实验项目则离不开背后的大规模数据处理,大量的数据处理则需要依靠高性能计算(HPC)。
不仅如此,近年来,计算在生命科学、天文物理学、医学、系统科学等各种科学中,所发挥的作用日益增大。并且,在气象、核技术、石油勘探、航空航天、装备制造研发、运输交通等国民与国防建设的很多重要领域中,计算成了必不可少的手段。
“互联网的应用有两大驱动力,一个是商业的互联网,另一个就是科研领域,1994年中国接入互联网之后,接入的第一个科研应用就是高能物理。”兰州大学网络安全与信息化办公室主任陈文波主任在接受采访时说。
兰州大学的HPC之“难”
兰州大学是教育部直属的全国重点综合性大学,是国家“985工程”和“211工程”重点建设高校之一,于2017年入选教育部世界一流大学建设名单,并且有4个学科入选世界一流学科建设名单。
据了解,高性能计算作为兰州大学的科研工具扮演了极其重要的角色,“我们平台的超算能力是1200万亿,在西部高校的HPC规模应该是最大的。” 兰州大学网络安全与信息化办公室主任、超算中心主任陈文波主任说。
学校先后在物理、化学、大气学院等学院建设了高性能计算中心,给各学院的教师和学生提供了科研支撑。“在上世纪80年代,全国开始建立计算中心,兰大就是其中之一,当时用的是日本富士通的机器,之后,又从中小型机过渡到X86服务器,2004、2015年开始采用计算集群,到了2010年后,各学院开始了自建…….”陈主任回顾了兰州大学的HPC应用之路。
目前,虽然各学院分散建设高性能计算中心的模式在一定程度上满足了现有的科研需求,但也存在着诸多问题,难以满足学校长远的发展。主要表现在:
1、资源浪费:各学院独立建设高性能计算集群,物理设备或部门之间的隔离导致资源无法共享,造成资源严重浪费;
2、运维管理复杂:各学院老师需要承担各院高性能计算集群设备的运维管理工作,无法更好地聚焦科学研究;
3、采购成本高:由于高性能计算集群建设没有做到全校一盘棋统筹,导致高性能计算相关的设备采购成本及运营成本居高不下;
4、用户体验差:由于大多数有科学计算需求的师生都是非计算机专业出身,存在对超算系统概念不了解、环境不熟悉、使用门槛高的问题。对于一名通常只有2~3年研究时间的学生来说,基础配置和调试等工作占用了大量的研究时间;
5、不利于交叉学科发展:学科交叉点是科学新的生长点、新的科学前沿,而校级平台是学科交叉的温床,但各院独立建设的现状无法满足高性能计算中交叉学科的发展需求;
面对以上的种种问题,兰州大学亟需统筹规划全校的高性能计算中心建设,构建全校统一的高性能计算公共服务平台。但是统一建设仍面临着很多新的挑战,例如,如何实现计算资源的灵活调度?如何实现用户的业务隔离?如何实现作业的合理调度?
遇见容器HPC
据兰州大学网络安全与信息化办公室超算中心高级工程师 张洋老师回忆,早在五六年前,在兰州大学跟美国圣地亚哥超算中心合作项目的时候,开始对容器HPC有初步的了解并持续关注。所以在规划建立统一的高性能计算平台的时候,优先考虑使用容器HPC。据悉,针对兰州大学在统一高性能计算平台的建设过程中面临的问题,华为利用自身大量的行业数字化转型经验和生态伙伴的整合能力,携手联科提供的基于容器的HPC解决方案在众多竞标者中脱颖而出。
据了解,此方案运用云计算技术、前端展示以及移动计算等技术,打破了传统校园计算中心的建设模式,通过容器的隔离和镜像打包功能,将平台管理员从复杂的管理工作中解放出来,建立基于容器技术的高效公共计算云平台的管理模式和应用服务体系,让用户像使用手机一样,方便的使用高性能计算,通过移动设备随时随地的提交任务,查看结果。最终,通过容器解决方案,做到计算环境快速部署和切换。
“早期做方案调研的时候,我们找了五个学院的应用进行测试,观察其性能的损耗,因为对HPC应用来说,性能是优先需要考虑的,结果是,经过测试后,容器确实性能损耗和物理机相比基本上没有多大的区别,并且,多节点的MPI应用也都能跑起来。”张老师说。
具体来说,容器HPC解决方案统一部署之后,给兰州大学带来了显而易见的价值:
首先,简管理。建立统一的计算平台,通过用户管理子系统,对平台使用者的身份进行认证、审批、权限控制、配额信息管理、用户组及用户成员关系等管理,帮助学校实现计算平台的在各学院的租户化管理、运营;
其次,降成本。通过容器隔离子系统,在同一个计算平台上同时运行不同版本的操作系统,拥有独立的网络配置(包括高速以太网以及高速IB计算网),并可访问不同的存储空间及数据集。保证虚拟化的资源性能与物理性能损失小于1%,满足科学与应用数据中心高性能计算的需求;
再次,均资源。通过任务调度子系统,实现从多种计算资源中选择最合适的节点启动容器。并通过资源监控模块、作业执行监控模块以及作业调度算法模块实现最合理的作业调度,实现多个学院的用户在平台上能够均衡地获取到资源。
写在最后
教育科研水平直接代表着国家的科技实力与能力。在过去,我国在高性能计算的应用方面,一直和欧美存在着差距,“如今,我国超算的发展是爆炸式的,我们已经慢慢从学习的阶段走向了应用阶段。”陈主任在采访结束时表示。
当前,国内高校HPC应用迎来了一个黄金时代,而容器HPC将引领高校的超算发展,助力高校科研的繁荣之路。