“我就是那个统计学上渺小到无关紧要、但没人可以抹去的1%。”这句出自《Gattaca》的经典台词让无数影迷泪目。
《Gattaca》电影海报
这部22年前上映的科幻电影,讲述了这样一个故事:不久的未来,科技的力量胜于一切,基因决定着命运,有基因缺陷的主人公追逐梦想的故事。人和人基因组序列的差异不到1%,但人类的外貌、性格和疾病等正是由这1%的基因差异导致的。虽然电影中探讨的基因决定论目前仍是生物学界辩论的主题,但对于基因的“测定”与“解读”是近些年生命科学领域最热门的一项研究。
实际上,人类对于生命科学的热情从20世纪中叶就已经开始。1990年,“人类基因组计划”的提出标志着生命科学进入了一个新纪元,而电影所设定的那个“未来”,如今却已然近在咫尺。
人类基因组计划的决心不亚于“把人送上月球”,但它是一项跨国跨学科的复杂工程。上个世纪90年代,几位科学家代表中国承担了人类基因组计划的1%工作,而中国也成为了“人类基因组计划”的第六个参与国。1999年,他们成立了中国第一家基因组学研发机构——华大基因。
2019年,是中国参与“人类基因组计划”20周年,也是华大基因成立的20周年。
解读“生命奥妙”征程中的困惑
华大基因秉承“基因科技造福人类”的愿景,以推动生命科学研究进展、生命大数据应用和提高全球医疗健康水平为出发点,基于基因领域研究成果及精准检测技术在民生健康方面的应用,致力于加速科技创新,减少出生缺陷,加强肿瘤防控,抑制重大疾病对人类的危害,实现精准治愈感染,全面助力精准医学。
如今的基因测序已经走入了寻常百姓家,技术的力量让测序的时长不断压缩、价格也越来越亲民。然而,在基因测序的流程中,需要庞大的算力支持。从某种意义上说,生命科学的研究竞赛,很多时候已经演变成一场算力的比拼,甚至如今已经普及应用的产前检测,肿瘤检测等医疗检测的背后也是大量的算力支持。基因测序对算力的需求更大,且往往是波动的,一段时间的消耗量大而一段时间又变小。同时,对于不同生物的基因组,需要的算力也不同,传统的数据中心计算集群无法满足快速的扩缩容。
具体到华大基因,过去计算资源比较紧张,在使用峰值时,任务经常需要排队等候;同时科技服务有很多复杂基因组,客户需要借助不同规格的计算资源,所以,“上云”成了华大基因的必经之路。
基因的“云端”之旅
华大基因清晰地意识到,只有云计算才能够应对以上的种种挑战。此后,经过反复的调研和综合细致的考察,华大选择了华为云。
早在2018年,针对基因测序行业的困难与挑战,华为云推出了以Kubernetes为基础的基因容器服务GCS(Gene Container Service)。据悉,GCS将基因测序和容器技术完美结合,是对基因企业来说“更省、更快、更轻松”的云科学计算平台。
借助于华为云GCS服务,以及华为云专门为华大基因的常用软件进行了一系列优化,通过46人/天的驻场时间,60人/月的工程师远程支持,15+新特性的研发…..双方打通上云流程,目前,双方已完成超过300万核时计算,平稳运行超过100天。此外,环境部署从原来的3-5天缩短为20分钟; 应对业务的波动实现了资源的按需调度使用;高并发释放2万核资源池;灵活的弹性大大节约了成本。
GCS还提供了全自动化测序分析能力,其亮点体现在:
- GCS提供了生物信息流设计器,再复杂的业务也可以编排到一个流程中,一键搞定测序任务;
- 针对国内生信人设计的流程控制语法,结构简练、易懂,既满足了流程编写的易用性,同时也保证了流程迁移的方便性;
- 用直观的流程热力图的方式随时了解测序进展,精确掌握资源消耗走势,指导优化方向;
- 可根据判断条件选择执行分支,从而满足企业复杂流程的管理的需要。
赋能基因行业,华为云在路上
除了创新的华为云GCS服务,针对基因行业的普遍痛点,华为云打造了完整的基因测序解决方案,该方案基于“标准架构+持续创新”的思路,拥有诸多亮点。