欢迎引用
赵黛岩, 刘蕾. 云计算技术在北斗系统工程中的应用现状与发展趋势[J].世界科技研究与发展, doi:10.16507/j.issn.1006-6055.2023.04.001.
赵黛岩 刘蕾
(中国电子科技集团公司第十五研究所)
摘要:北斗三号系统是我国独立自主建设的全球导航卫星系统,云平台是其地面系统的重要组成部分,用于实现软硬件资源的统一管理、按需共享与实时动态调配。本文依据工程实践介绍了北斗三号云平台系统的架构及使用流程,总结了云平台建设过程中的代表性技术攻关情况以及系统上云后效能提升情况。针对下一代卫星导航系统服务种类多样、服务信息按需定制、服务能力安全可靠等趋势,从开发运维模式上提出了导航地面系统业务融合云原生技术的考虑;从基础设施结构上提出了分阶段实现导航地面云全面自主可控的建议。最后展望了下一代导航地面系统云平台架构,初步构想云架构由分散、独立云节点向一体化云转变,实现由云中心、网络、端共同组成的导航系统地面云,以进一步提升导航地面系统的运管效能和地面中心的容灾抗毁性。
关键词:北斗三号;卫星导航;云计算;云原生;自主可控
北斗三号系统是我国独立自主建设的全球导航卫星系统,于2020年7月31日建成并向全球提供导航、定位、授时、位置报告等服务,其基本导航服务、星基增强服务、定位报告服务等均通过地面中心处理,业务计算量、数据存储量巨大。云平台系统作为北斗三号地面系统中的重要组成部分,实现了软硬件资源的统一管理、按需共享与实时动态调配,是保障北斗三号地面系统连续稳定运行的关键基础设施,提高了北斗三号地面系统的资源利用率与可靠性、可扩展性。该系统首次实现了我国大型航天地面系统业务处理云计算,规模位于目前航天领域应用前列,带动了云计算技术在航天领域的推广应用。
本文首先介绍了国外导航系统地面段信息服务基础设施概况,并依据工程实践介绍了北斗三号云平台系统的架构、使用流程,接着以国产化云平台适配技术、动态双工热备技术、多模式并行运行技术为代表分析了北斗三号云平台建设过程中的技术攻关情况,总结了北斗三号上云后效能提升情况。然后从云原生、自主可控两个方面给出了下一代导航地面系统云技术应用建议,最后初步构想了下一代导航地面系统云架构。
1 国外导航地面系统
IT基础设施概况
全球卫星导航系统(Global Navigation Satellite System,GNSS)除了中国的北斗卫星导航系统外,还包括美国的全球定位系统(Global Positioning System,GPS)、俄罗斯的格洛纳斯卫星导航系统(Global Navigation Satellite System,GLONASS)、欧盟的伽利略卫星导航系统(Galileo Navigation Satellite System,Galileo)。随着各导航系统服务能力的不断提升,对地面段的计算、存储等能力也提出了更高的需求,因此,各导航系统均通过使用虚拟化、云计算等技术来升级扩展各自的信息服务基础设施。
1)GPS
由于信息系统设备生命周期限制,原有GPS地面控制系统软、硬件设备的可靠性逐渐降低,并无法获得设备供应商的持续服务。同时,受到原有系统中服务器计算能力、存储容量等限制,信息系统无法适应地面控制系统新增功能升级改造的需求,造成其日常操作中需重启部分信息系统。因此,在美国GPS新一代地面运行控制系统(Next Generation Operational Control System,OCX)中,2016年启动了更新软硬件设施、保护重要信息、隔离网络攻击以及采用网络中心和全球网络信息格栅为基础的优化框架等一系列信息服务基础设施升级。GPS地面段信息系统主框架由原来基于大型服务器的运行架构向分布式、模块化的云架构转变,使得系统升级改造中服务性能不受影响,也保证了整个过程相对GPS地面段用户的透明性。此外,其软件系统也采用面向对象的软件设计,便于功能扩展。最终建成了基于主控站、地面天线系统、地面监测站的分布式网络系统,支持后续不断增强的新功能。
2)Galileo
为了使Galileo能够提供更为多元化的服务,提高服务的稳健性,欧洲空间局(European Space Agency,ESA)于2020年对Galileo的基础设施进行了升级和现代化改造,主要采用了虚拟化技术对Galileo地面段设施进行升级改造,改造后的设施能够兼容未来的新技术,也能够减少对当前运营的影响。此外,研发中的新一代Galileo运控系统将支持同时管理两个Galileo控制中心,对多达38颗导航卫星组成的Galileo卫星星座进行监测和控制。
3)GLONASS
GLONASS地面控制段的现代化计划主要更新了数据处理软件,以提高卫星轨道及钟差数据处理精度;部署全球性地面测控站,进一步提高导航卫星的轨道参数精度;在俄罗斯境内增加数据注入站的个数,其信息基础设施也随业务能力的升级而进行了扩增。
2 北斗三号云平台系统
我国导航系统地面段信息服务在基础设施现代化进程中,开展了北斗三号云平台系统建设。该系统是保障北斗三号地面系统连续稳定运行的关键基础设施。与北斗二号地面各分系统基础设施均独立建设、业务静态分布在物理机上的传统架构不同,北斗三号地面系统采用云计算、大数据等技术,为基本导航服务、星基增强服务、定位报告服务等业务处理搭建了统一的计算、存储、网络和安全控制等运行环境,软硬件资源全部统一管理、统一分配、统一部署、统一监控和统一备份,实现了软硬件资源的按需共享与实时动态调配。
2.1 云平台架构
北斗三号云平台将各个业务分系统的运行环境进行统一设计,屏蔽底层硬件基础设施的差异,使用虚拟化、分布式计算等技术将资源打散,分割成最小逻辑单元,进而形成网络、计算和存储资源池,为地面系统各个业务系统提供可度量的、用户隔离的、安全的、快速可扩展的持续资源池供给,为各系统提供随时、随地、随需可得的各种资源(包括网络、服务器、存储、应用软件、服务),极大地优化了IT资源效率,并为云平台系统提供专业的机房配套系统。
云平台系统架构遵循面向业务需求的思路,实现了IT基础架构模块与业务模块松耦合,且整个系统架构具备良好的可扩展性,能够保障业务系统动态扩展(图1)。
1)物理资源:为云平台提供硬件支撑环境,主要包括服务器、存储设备、网络设备、安全设备等,是整个云平台系统的物理支撑基础。
2)基础设施服务(Infrastructure as a Service,IaaS):主要采用云计算技术统一建设并整合硬件资源,对虚拟资源池提供统一管理和安全防护。通过控制硬件成本,提高硬件的运维自动化能力,提供统一的计算资源服务、存储资源服务、网络资源服务、综合管理服务和安全控制服务。
3)平台服务(Platform as a Service,PaaS):将业务系统所需的操作系统、大数据服务和研发部署等基础服务整合在一起,自动管理应用系统的部署和运行,为上层各关键业务系统的业务应用提供基本的平台服务。
2.2 云平台使用流程
北斗三号地面系统云平台的使用流程包括从云平台资源下发到各业务系统再到具体业务用户使用的全周期,支持快速构建、敏捷服务、高效运维(图2)。
1)云平台超级管理员创建地面系统云中心,管理、维护云平台所有资源;
2)各业务系统向地面系统云中心提交资源使用和变更申请,独立地按需分配、管理、维护业务系统拥有的云资源;
3)业务用户使用、维护业务系统分配的独立资源及各类服务。
3 技术攻关及应用效能提升情况
北斗三号云平台系统为其他业务系统提供各类资源的统一管理、按需分配与实时动态调配,在建设过程中攻关了多项关键技术,并在实际应用中也验证了效能提升情况。
3.1 云平台建设过程中技术攻关情况
1)云平台调优技术。北斗三号云平台系统基本实现了国产化,确保了系统安全可靠。相比北斗二号采用了国外品牌的操作系统和数据库,北斗三号地面系统第一次采用了国产云平台、操作系统、数据库等基础软件,第一次基于国产软件生态环境开发导航地面系统业务软件。
北斗三号地面系统业务运行模式多样,各核心业务对资源使用的特点各不相同,与传统的互联网业务模式有较大差异,因此云平台系统面向通用计算处理模式、大规模科学计算模式、高频数据网络收发模式和高频数据快速入库模式等多类典型业务场景进行了适配。同时,面向北斗三号地面系统业务软件在国产平台的开发运行需求,开展了国产云平台、操作系统、数据库等基础软件的适配性测试工作,根据测试结果对操作系统和数据库进行了参数调优。
2)多层次热备技术。在航天领域中,业务软件在传统双工热备技术支撑下,静态部署在两台物理机中,可以实现几十毫秒的双工切换,以保障业务的高实时和高可靠性,但存在一定的局限性,例如一台物理机出现故障时,进行主备切换后,若为恢复双工状态需要重新搭建双工环境,其操作过程复杂且具有较大风险。
在北斗三号云平台支持下,实现了物理层、虚拟层和服务层组成的互为备份双工系统。当一台虚拟机出现故障,系统在主备切换的同时,可以将故障虚拟机自动迁移到云平台中其他空闲的服务器上形成备机,并快速恢复双工状态,从而大大降低业务单机运行风险,进一步提升了导航地面系统业务的可靠性。
3)多业务场景并行运行技术。为了满足地面系统分阶段建设和边联试边运行的需求,云平台系统需要根据业务场景划分成多个不同机组,且多模式机组需要长时间并行运行。不同机组间共用云平台的网络资源,机组间不是简单的整体网络连通或断开关系,而是需要根据业务场景要求,实现指定地址的连通或断开等需求。通过采用交换机、防火墙策略等定制,实现了细粒度的访问控制要求,并支持灵活的策略调整。
3.2 上云效能提升情况
1)提高了北斗三号地面系统的资源利用率,实现了资源的横向扩展。北斗二号地面系统计算能力由多台小型机提供,在关键业务应用上主要采用双工热备的方式来保证可靠性。这种架构满足了当时的可靠性要求,但计算资源利用率不充分、可扩展性不强。一旦某段运行时间内某项业务处理超过了所在小型机的负载能力,无法有效利用其他业务负载较低的小型机资源,会造成资源使用不平衡,在一定程度上导致了资源浪费。
云计算技术把底层物理资源抽象形成虚拟资源进行灵活的分配与回收,从而实现实现资源的按需使用,当资源池整体需要扩充时,可以通过增加物理设备来扩展计算、存储单元,资源池能够以即插即用的方式进行横向扩展,以满足应用和用户规模增长的需要。
云平台大幅度提高了北斗三号地面系统的资源使用效率,实现资源的合理化配置,设备总套量大幅减少,与各业务分系统独立建设相比利用率提高了2~3倍,有效地节约了建设成本。
2)提高了北斗三号地面系统业务的安全性和高可靠性。通过云计算技术将多台国产品牌服务器集合起来,在逻辑上整合形成一个大资源池,能够面向北斗三号地面系统业务运行提供充足的资源保障,有效代替了先期系统中性能较好的国外品牌小型机,以此保证了北斗三号地面系统业务运行的高安全性。
通过有效利用云计算技术中分布式集群存储架构的数据多副本容错、计算节点同构可互换、故障动态迁移等自身特点,并结合网络分层架构等设计,保证了北斗三号地面系统业务运行的高可靠性。
3)提升了北斗三号地面系统的运维管理水平及运维效率。北斗二号系统中硬件是由各分系统独立建设的,运维管理自行负责。由于各个分系统采用设备型号和品牌不一致,不同厂商的运维水平也参差不齐,为系统整体的运维管理带来了诸多麻烦。
北斗三号地面系统提出了基于云平台的集中统一运维方案。云平台构建统一的资源池,屏蔽了底层服务器设备的多样性,能够通过统一运维对资源池进行资源分发与扩充,无需对物理设备进行过多维护,减少了运维人员的负担,并降低了业务用户对于 IT 专业知识的依赖。
运维人员通过可视化智能运维系统,能够一目了然地感知设备状态,管理员通过简单的交互操作,可以快速搜索定位想要查看的设备状态,进行本地及远程故障诊断、资源调整、参数配置,大大降低了云平台运维工作的复杂性和难度,显著提升了运维管理工作的效率和管理水平。
4)支撑了北斗三号系统海量业务数据向高价值信息的转换。北斗三号系统现有30颗卫星运行,地面系统接收存储的数据量每年达PB级,传统的数据存储架构无法满足海量数据的存储管理和在线分析要求。北斗三号云平台集成了Hadoop体系的大数据服务,提供了MapReduce、Spark、SparkStream、Hive、Hbase等多种组件,有效支撑了北斗三号地面系统数据存储管理业务软件,实现了一站式、可视化、全流程可控的数据存储管理和分析处理,使得大量宝贵的数据资源转换为了高价值信息,提升了导航业务效能。
4 下一代导航地面系统
云技术应用展望
随着定位导航授时服务在国民经济、国家安全和百姓生活等领域嵌入程度的不断加深,人们对导航定位授时服务以及通信导航一体服务要求越来越高。北斗系统是中国综合时空体系建设的核心,当前北斗三号系统建设形成的导航定位授时通信服务的骨干框架发挥了基石作用。
面对服务种类多样化、服务信息按需化与定制化、服务能力安全可靠等需求服务变化趋势,下一代卫星导航系统应革新组成结构和运维模式,建设更加泛在、更加融合、更加智能的综合时空体系,才能满足用户不断增长的需求。在下一代导航地面系统中的云技术应用方面,需要融入云原生先进技术以进一步提升导航地面系统业务软件的开发运维效能,并实现导航地面系统云全部元器件国产化以强化地面中心的安全可靠性。
1)融入云原生技术提升导航地面系统业务的开发运维效能。云原生(Cloud Native)的概念在2013年被初次提出,云原生计算基金会(Cloud Native Computing Foundation,CNCF)将之定义为容器、微服务等一系列技术的集合 。目前业界一般认为云原生技术包括容器(Docker)、容器编排(Kubernetes)、微服务、DevOps(Development and Operations,持续交付与自动化运维)。相比云计算架构,云原生架构具有弹性扩容、敏捷分发、高效易用、兼容适配等优势,通过其更加灵活的使用模式,能够为用户提供高可用、高质量的云服务,同时降低用云成本。因此,云原生被产业界认为是云计算未来的技术发展方向。
北斗地面系统中的IT架构演进经历了传统物理机、虚拟化到云计算等不同阶段。北斗三号地面系统主要是将业务从物理机搬迁上云,通过资源池云化解决了物理机扩容困难、资源不能够共享的难题,但传统导航业务应用单体架构厚重、烟囱式架构等带来的一系列应用层问题并没有得到有效解决,云对业务的价值主要还停留在资源供给阶段。与此同时,服务能力与需求的爆炸式增长也要求导航地面系统持续提升架构的敏捷性和软件的迭代速度。
由此,导航地面系统需开展渐进式云原生演进。面向下一代导航地面系统的云原生架构主要包括云原生基础设施、融合集成服务、应用开发运维三部分。
(1)云原生基础设施作为应用平台底座,云容器引擎支持X86和ARM架构容器集群混合部署管理,多云容器平台实现跨云跨区域多集群统一管理,实现多芯、多云、多区域的一致云原生体验,屏蔽底层差异。
(2)融合集成服务面向北斗地面系统建设历程长、演进阶段复杂的特点,构建数据、消息和服务API的全域融合集成能力,让新老系统业务协同互联,实现IT架构立而不破、平滑演进。
(3)应用开发运维聚焦导航业务应用升级,覆盖应用开发、运行到运维的全生命周期管理。开发上提供零代码、低代码、全代码多开发模式,灵活快速搭建应用,赋能业务人员参与数字化转型。运行态多框架、多语言应用的统一接入治理确保导航传统业务应用无需改造,大幅降低演进难度。运维层面提供从资源、日志到性能的全面立体应用运维能力,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况。
综上所述,在下一代导航地面系统中,依据云网端融合的理念来建设,并采用上述云原生技术来设计开发,能够实现下一代导航地面系统业务的开发运维效能提升。
2)实现下一代导航地面系统云全面自主可控。2013年美国棱镜门事件和伊朗震网事件相继发生,触发了全球信息安全的神经。此后,事件不断发酵,我国也掀起了自主可控的浪潮。与此同时,GPS OCX也开展了基于自主可控计算机硬件的升级工作,由于OCX以往均采用的IBM X86计算机生产线在2014年被中国联想公司收购,GPS管理部门认为基于IBM硬件设备的OCX存在巨大的网络安全隐患,于2020年决定使用惠普公司的硬件产品重新构建OCX,原计划在2022年完成重构OCX的最终交付,但截止2023年5月,重构仍未完成。由此,在装备国产化的大趋势下,采用自主可控软硬件已成为我国下一代导航地面系统研制建设与运行维护的必然选择。
鉴于北斗三号建设时国产自主可控软硬件设备的水平和能力,其云平台管理软件和基础软件已经为国产自主可控;硬件设备虽然全部为国产品牌,但是部分芯片仍未实现完全自主可控,使得云平台系统在备品备件的持续更新、后续运维方面存在一定风险。
目前,国产自主可控硬件能力比系统建设初期有了较大幅度的提升。2019年,华为向全球发布了TaiShan系列服务器,采用基于ARM架构的自主可控“鲲鹏”系列CPU,已在多个行业中投入试用。2020年,华为向全球发布CloudEngine系列交换机,采用基于ARM架构的自主可控“海思”系列交换芯片,并大面积推广试用。此外,浪潮、曙光等国内公司不断提升了自主可控硬件能力,发布了多款自主可控计算机产品。
综上所述,下一代导航地面系统实现云平台进一步提升自主可控能力的时机已经成熟,但是自主可控的硬件设备与云平台软件以及导航业务软件还未进行领域内适配,为降低风险,可分阶段提升云平台系统自主可控能力,逐步明确自主可控技术发展途径和路线:第一阶段搭建验证环境进行适配验证,第二阶段扩展验证环境进行伴随验证,第三阶段升级验证环境进行替换验证,最终实现下一代导航地面系统云建设的全面自主可控。
5下一代导航地面系统云架构构想
北斗三号系统有多个地面中心,具备一定的抗摧毁能力,但由于各中心位置固定、部署集中,仍存在一定的风险;且多个中心分别建立私有云,资源独立、不能共享。由此,面向下一代的导航地面系统,摒弃不同节点独立建云的方式,统筹所有分布节点统一建云,云中心与“端”通过网互联,云上资源可根据业务需求动态有机重组,为“端”提供通用泛在的各类服务,进而实现更泛在的处理能力。云架构由“分散独立”变为“泛在融合”(图3)。
1)云。在“云网端”架构中,云中心是“三网合一”业务监控、管理中枢,是软件、数据存储以及综合服务的中枢,具备承接导航业务处理能力,发挥“数据中心+软件中心+容灾中心+服务中心+运维中心”五大职能。作为数据中心,承担导航系统数据汇总、数据存储、数据分析与分发等服务;作为软件中心,承担业务软件汇总、存储、维护、分发、下载管理;作为容灾中心,承担所有容灾备份;作为服务中心,为各类用户提供一体化、多样化和远程化的导航业务服务;作为运维中心,承担导航地面系统综合运行管理。
2)网。网是指覆盖导航系统地面云中心、端以及外围系统的通信网络,包括各类地面网络以及卫通网络,可快速、便捷、灵活调整网络配置。
3)端。代表着通过网络从云中获取相关导航业务处理能力的物理实体,根据任务需求从云端获取相应的能力,支持分布式管控端系统和轻量级用户端。
综上,在下一代导航地面系统中,形成由云中心、网络、端共同组成的一体化、分布式的导航系统地面云,以此突破独立节点建设向统筹所有分布节点统一建云架构上的转变,进一步提升导航地面系统的运管效能和地面中心的容灾抗毁性。
编辑部信息
邮箱:bj@clas.ac.cn
电话:028-85223853
网站: