在数据中心市场提供在线运维的厂商不少,但是具体到高性能计算领域则是少之又少。近日,在经历了6个月的试运营之后,中科曙光针对高性能计算集群推出的SaaS级专业化在线平台EasyOP(Easy Operation的简称)正式上线。
当HPC遇到互联网 EasyOP不只是运维
虽说EasyOP是面向HPC运维的服务,但是曙光并不局限于此。曙光公司副总裁沙超群就表示,曙光公司是中国最早开始HPC研究的单位之一,经过20余年的努力和技术沉淀,我们不仅完成了一系列核心技术的突破,并且进一步将这些技术产品化,让全社会共享技术创新带来的价值。从中国TOP100的七连冠,到今年第一次拿到全球TOP500第三名,充分证明我们的技术和产品是经得起市场的考验的。
取得了这样的成绩,的确是对曙光的肯定。但是沙超群说,曙光作为一个HPC系统的提供商,除了为客户提供优秀的HPC设备外,我们是不是可以为客户提供更多的服务?当客户HPC设备闲置的时候,我们帮客户利用机器创造更多的价值。而用HPC软件计算出来的成果,我们能不能帮助客户把成果变成新的价值?互联网加上HPC究竟能给客户带来多少新机会?
在这样的思考下,曙光开发了EasyOP。曙光希望从HPC提供商变成一个帮助客户全生命周期运营产品的服务提供商,曙光不光帮助客户使用和维护HPC系统,同时还帮助他用他们的系统创造价值。这就是共享经济的一个体现,沙超群表示。
我们可以看到,EasyOP不只是一个HPC的全生命周期的运维平台,而且承载了曙光对于HPC的更深的思考。共享经济下诞生了Uber、AirBNB等企业,同样将这种思路应用到HPC上是否可行呢?
在曙光看来完全可行,HPC不光只是一个硬件设备,在硬件设备上还承载了软件、计算结果、及其相关的技术和经验,这些资产并没有很好地实现资源共享,如何将这些孤立的资源进行串联共享成为曙光思考的焦点。毕竟曙光作为HPC设备提供商为客户提供众多的硬件设备,借助EasyOP,曙光可以将这些硬件设备连接起来构成一个资源池,进而帮助企业实现价值再造。
EasyOP让专业的人去干专业的事情
在曙光HPC研发部经理张晋锋看来,EasyOP就是通过一个平台把分散在各地的高性能计算机统一管理起来。EasyOP采用互联网+的模式,实现7×24小时对高性能计算机的运维和监控。HPC运维人员不仅可以随时了解HPC集群的运营情况和故障,还可通过网页或微信等在线咨询服务与线上专家进行一对一的交流。EasyOP还会将常见、有代表性的故障解决方案上传至知识库,以便于HPC运维人员积累。最后曙光还提供对高性能计算机的调优、在线优化的服务,进而打造一个HPC的生态圈。
EasyOP拥有五大关键技术——监控数据实时远程采集、海量数据存储与展示、故障的分析与定位技术、大量数据统计与分析、移动终端的集成与推送。
在这次正式上线前,EasyOP试运营期间的表现可圈可点。试运营期间,EasyOP累计接入来自20组HPC集群的超过7800+个节点,应用涵盖CAE、气象、海洋、物理、生物、材料6大领域,对所有接入集群资产全面监控的指标超过180项。
虽然正式上线了,但是曙光对于EasyOP还有更多期待。曙光总裁助理兼高性能产品事业部总经理曹振南就表示,EasyOP主要集中在运维、监控、管理这个层面,但实际上我们整个产品的定位绝不仅于此。我们未来要走的路很长,即使是上线运营后,我们也会定期让用户反馈问题,帮助曙光不断完善和改进。
目前市面上也有厂商推出了相关的在线运维服务,EasyOP有啥优势呢?曹振南表示,EasyOP监控的数据比较全面,从范围上讲,我们对计算、存储、网络这些设备可以实现全面的监控,每一种设备我们的监控指标可以达上百种。另外,EasyOP提供多种途径的交互方式,用户可以通过电话、短信、微信接入我们的服务。另外EasyOP提供多样性的高度可定制化的通知,用户可以根据企业不同的管理要求,选择哪些告警项目,以哪种方式通知给哪些人。另外我们提供全生命周期的服务。最重要的我们有强大的专家团队在后面支持。凭借曙光在高性能计算方面积累的技术和经验,可以快速地帮助用户解决问题。
中国软件行业协会数学软件分会常务副秘书长姚继锋博士强调了全行业在运维上的困境。他说,一个HPC系统要实现高效运维,其实面临很多的难点,可以从三个方面来说,第一个是管理制度,第二个是专业团队,第三个是支撑系统,所谓的支撑系统就是类似EasyOP,或者是其他运维管理产品。制度、人、软件系统构成了HPC系统高效运维的三大要素,这三个要素彼此相关、高度耦合,每个环节都不能出问题,才能保证HPC实现高效运维。
而曙光推出EasyOP就是让专业的人去干专业的事情的重要体现,因为专业的人干专业的事情是最高效,成本是最低的。这可以帮助企业实现HPC系统的高效运维,姚继锋博士如此表示。
结语
总的来看,中科曙光在借助EasyOP下一盘很大的棋,从帮助企业实现HPC运维着手,进而实现企业HPC资源的连接共享,从而实现HPC的资源池化,构建新的HPC价值链。或者我们可以称之为HPC共享经济新玩法。