构建绿色数据中心  NVIDIA打造软硬结合云原生超算平台

作者:贾桂鹏 来源:原创 2022-11-30

  作为数字社会的基础,数据中心已经成为推动社会和经济发展的战略性基础设施。并且,当越来越多的应用跑在云上之后,算力重构开始沿着两条路径进行,其中,旨在助力企业应对最棘手的HPC和AI应用的云原生超级计算技术,正在成为一个新的发展趋势。

  在当今的商业云计算服务中,用户已经习惯共享计算资源,但在此之前,用户却很难共享用于仿真和科学应用的HPC系统。原因很简单,在这些系统中,裸性能的优先级最高,而且安全服务还会降低系统效率。但是,各种仿真、数字孪生、AI训练等工作需要处理海量的数据,从而相应也就需要海量的算力,越来越多的用户希望多用户共享一台超级计算机。

  日前,比特网采访到NVIDIA网络亚太区高级总监宋庆春、NVIDIA网络技术专家崔岩,与他们聊了聊网络与云原生超级计算如何赋能企业。

  云原生超级计算的价值

  当下,企业对算力资源非常渴求,但对于大算力资源的需求又是有波动的。这个时候,算力资源的供应商就需要把超算的高性能和云的灵活性、安全性整合起来,提供一种更新的架构,以支持现在的业务需求。而这种需求让云原生超级计算技术成为未来计算平台架构的发展趋势。

  云原生超级计算技术融合了高性能计算的强大算力和云服务的安全性与易用性。宋庆春表示:“云原生超级计算就是为了解决现在数据中心面临的挑战应运而生的,我们的数据中心一个典型的架构就是由CPU处理应用,由GPU对应用进行加速,通过网络搭建成一个大规模的数据中心。”

构建绿色数据中心  NVIDIA打造软硬结合云原生超算平台

NVIDIA网络亚太区高级总监宋庆春

  云原生超级计算架构通过引入DPU及网络计算技术,实现了计算和通信的重叠。同时DPU还可以帮助CPU分担存储、租户隔离安全、系统管理等基础设施操作,这样CPU就能在处理计算任务上更加高效。这种架构改进,可以用更低成本或更少硬件构建更高性能的系统。

构建绿色数据中心  NVIDIA打造软硬结合云原生超算平台

  DPU的本质是融计算与通信于一体的网络设备,基于DPU实现的云原生计算架构,将通信框架、存储框架、安全框架和业务隔离放在DPU上来执行。

  宋庆春表示:“在刚发布的TOP500榜单中可以看到,NVIDIA的GPU和网络处于绝对领先的位置,72%的系统在使用NVIDIA的GPU或网络,最新的TOP500中的前100台机器,InfiniBand网络占有63%的席位,可见构建越快的算力平台越需要更高性能的网络。”

  BlueField DPU在InfiniBand网络上的应用和以太网上的主要区别在于:

  一、更加侧重于业务的性能提升,实现了计算和通信的重叠,让CPU资源完全释放给了应用的计算任务;

  二、利用DPU的算力资源参与应用的计算,为应用贡献了更多的算力;

  三、DPU运行存储框架,实现了基于文件存储的模拟,充分发挥远端共享文件存储系统的性能;

  四、实现了增强的Telemetry技术,利用DPU来提供应用的信息给用户分析和训练,进一步优化性能;

  五、DPU还是应用性能隔离的重要组件,DPU可以和InfiniBand拥塞控制技术一起提供Pre-Active拥塞控制,实现性能隔离;

  六、DPU还在零信任环境中扮演重要作用,用于隔离应用和其它基础设施操作、存储操作和通信操作。

  目前,用户需要一个高性能网络满足业务性能,云原生超级计算架构提供了一个异构网络的方式优化性能,让性能达到极致,同时优化整个数据中心的设计。最终实现以最少的硬件达到最优的性能,这样就会产生节能减排的效果。

  DPU黑客松成为开发者难得实践机会

  其实,NVIDIA在发展BlueField DPU的同时,也在积极发展DOCA生态,这和其此前发展GPU的同时发展CUDA异曲同工。在NVIDIA看来,软硬皆施才是DPU最好的市场形态。

  NVIDIA DOCA依托于面向未来的API驱动的思维模式而构建,能让BlueField DPU硬件加速变得更加易用,从而优化性能、效率和安全性。

  DOCA使开发者可以利用行业标准API,在BlueField DPU上做快速创建应用程序和服务,类似于NVIDIA GPU上的CUDA,能解锁数据中心中创新功能,并且能更好地向下平滑兼容持续演进的新一代BlueField DPU。

  崔岩介绍道:“在刚刚结束的DPU中国黑客松上也对题目进行了更新,NVIDIA BlueField DPU和DOCA软件框架是云原生超级计算架构里是一个关键组成部分,所以在24小时比赛中,参赛团队被要求围绕使用BlueField DPU和DOCA实现RDMA加速存储与AI的解决方案。”

构建绿色数据中心  NVIDIA打造软硬结合云原生超算平台

NVIDIA网络技术专家崔岩

  参赛团队可以利用DOCA驱动、DOCA库、开发工具和相关文档构建、优化NVIDIA BlueField DPU,去做基础设施相关的加速应用开发,在此过程中展现他们的奇思妙想、创新精神和团队气质。

构建绿色数据中心  NVIDIA打造软硬结合云原生超算平台

  经过项目现场演示,2022秋季DPU中国黑客松竞赛经过国内评委和国际评委的审核和相应的评分,最终四支做得比较好的团队脱颖而出,分别获得DPU中国黑客松的相应奖项。获得一等奖的是SDIC团队,二等奖是知音牛码团队,并列三等奖的是网络需要配团队和极客天成团队。

  其中,获得了一等奖SDIC团队,其项目名称是《基于BlueField DPU数据中心 RDMA 虚拟化的研究》,主要是基于VirtIO的方案。VirtIO是IO半虚拟化的解决方案,也是一套通用的IO设备虚拟化程序,所以会对半虚拟化IO设备进行抽象,可对上层应用和各种Hypervisor虚拟化设备提供通信框架和编程接口,减少跨平台带来的兼容性问题,提高驱动程序的开发效率。

  VirtIO加速能为以太网和块存储设备解决设备解耦、高扩展性、云管理(迁移)的问题。VirtIO-RDMA处于早期开发阶段,所以RDMA没有在VirtIO规范中实现,也没有进入主流Linux核心,目前DPU仅支持virtIO-net网络虚拟化和virtIO-blk存储虚拟化功能,还没有virtIO-rdma的部分。

  其项目目标即是用英伟达BlueField DPU搭建一套仿真平台,虚拟化RDMA硬件设备,通过主机侧运行vhost,通过传统网络(TCP)和SoC上的Inverse Layer通信,由其转换为RDMA网络(IB),从而减少主机性能开销,实现更高效的虚拟化过程。未来的设计是想把virtIO-rdma的加速和仿真的部分迁移到DPU上,形成一种卸载,从而提供更好的加速性能、减少相应的开销。

  DPU黑客松竞赛已经成为开发者学习、实践使用NVIDIA BlueField DPU和NVIDIA DOCA软件开发套件的一个难得机会。

  写在最后

  未来,通过云原生超级计算这样的技术逐步落地,企业可以优化利用数据中心的各种网络资源和计算资源,让数据中心提供最好的性能,减少业务之间的相互干扰,让每个业务都得到最优的性能,通过提升效率减少硬件数量,减少硬件数量是最有效的降低整个数据中心功耗的方式,从而构建一个绿色的数据中心。

发布
X
第三方账号登录
  • 微博认证登录
  • QQ账号登录
  • 微信账号登录

企业俱乐部