课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
随着人工智能和AI技术的不断发展,越来越多的企业都开始进行相关产品的研发,而消费者对于人工智能技术的期待也非常的多,互联网上也有许多许多的猜想。今天,我们就先来了解一下,人工智能技术和AI技术在互联网领域的使用情况。
毫无疑问,人工智能是近年IT界火的研究方向,特别在2016年AlphaGO这一标志性事件后,国内外科技巨头持续加大对人工智能的投入。目前,人工智能的主要方向如图像识别、语音识别等等都是通过机器学习的方式,借助强大的计算平台对海量数据进行分析、计算,随着数据量的增长,单机性能已逐渐无法满足计算的需求,需要使用高性能计算(HPC,HighPerformanceComputing)集群来进一步提升计算能力。
HPC集群是将多个计算节点组织在一起协同计算的分布式系统,它一般使用iWARP/RoCE/IB等RDMA(RemoteDirectMemoryAccess)技术来完成计算节点内存间数据的快速交换。如图1所示,RDMA网卡可以从发送节点地址空间中取出数据,直接传送到接收节点的地址空间中,整个交互过程无需内核内存参与,从而大大降低了服务器侧的处理时延。同时,网络作为HPC集群的一部分,任何传输阻滞都会造成计算资源的浪费。为了大化集群计算能力,通常要求网络在10us内完成RDMA流量的传递。因此,对于支撑HPC的网络来说,时延是影响集群计算性能的要指标。
硬件时延。网络设备转发、转发跳数以及光纤距离都会影响网络时延,优化方案是尽量使用两级”Fat-Tree”减少网络转发层级,升级网络速率以更高的波特率转发数据,以及部署低时延交换机(低0.3us);
网络丢包。当网络由于拥塞造成缓冲区溢出丢包,服务器侧需要重传整个数据段,造成时延的严重恶化。常用解决方案有:通过增加交换机缓存、网络带宽来提高扛拥塞能力,进行应用层算法优化规避incast场景减少网络拥塞点,以及部署流控技术通知源端降速以消除拥塞等。
数据中心网络硬件环境相对固定,依靠升级硬件降低时延的效果非常有限,更多还是通过减少网络拥塞来降低时延。因此对于HPC网络,业界更多聚焦在”无损网络”的研究上,目前较成熟的解决方案有有损网络配合流控协议,和工业无损网络两个方向。
业界常用的网络方案
有损网络及流控协议
以太网采用“尽力而为”的转发方式,每个网元尽力将数据交给下游网元,而不关心对方的转发能力,这样就可能造成下游网元的拥塞丢包,因此,以太网是一种不保证可靠传输的有损网络。数据中心中多采用可靠的TCP协议来传递数据,但以太网RDMA报文多为UDP报文,这就需要部署缓存管理、流控技术减少网络侧丢包。
PFC(PriorityFlowControl)是一种基于队列的反压协议,拥塞网元根据通过发送Pause帧通知上游网元降速来防止缓冲区溢出丢包,在单机场景下,PFC可以快速、有效的调节服务器速率来保证网络不丢包,但是在多级网络中,就可能出现线头阻塞(如图2)、不公平降速、PFC风暴等问题,而且当有异常服务器向网络中注入PFC报文时,还可能造成整个网络瘫痪。因此,在数据中心开启PFC,需要通过对Pause帧进行严格的监控、管理,以保证网络的可靠性。
工业无损网络
Infiniband是专为高性能计算、存储设计的互联架构,完整定义了一到七层协议栈,具有低时延、无损转发的特点。如图5,IB网络采用基于”credit”的流控机制,发送者在链路初始化时为每个队列协商初始Credit,标明了能向对端发送的报文数,接受者根据自身的转发能力,实时同时发送者刷新每个队列的Credit,当发送者Credit耗尽,则停止发包。由于网元、网卡都必须得到授权才能发包,因此IB网络不会出现长时间拥塞,是能够保证可靠传输的无损网络。IB提供了15个业务队列来区分流量,不同队列的流量不会出现线头阻塞。同时,IB交换机采用”Cut-through”转发模式,单跳转发时延约0.3us,远低于以太网交换机。
因此,对于小型HPC、存储网络来说,IB是极佳的选择,但IB也存在与以太网不兼容、产品形态单一等问题,较难融入腾讯生产网中。
腾讯AI计算网络
腾讯AI计算网络属于生产网络的一部分,除了需要与其他网络模块通信,还需要对接网管、安全等后台系统,因此只能选择与现网兼容的以太网方案。计算网络的架构随着业务需求的增长经历了多次迭代,从早支持80个40G节点的HPCv1.0,持续演进至今天支持2000个100G节点的HPCv3.0。
计算网络中的计算节点作为资源池供整个公司各部门共同使用,这就使得网络面临着多业务流量并发拥塞的问题。对于承载单一业务的网络,可以通过应用层算法调度规避网络拥塞,但当多业务共享网络时,就不可避免出现多业务流量的并发拥塞,即使有队列保护、流控机制等手段减少网络丢包,也会由于服务器的降速造成集群计算能力损失。同时,PFC的缺陷也不适宜在多级网络中开启,需要限制其生效范围。因此,我们的设计思路是:
从物理上隔离业务,采用高密设备作为接入设备,尽量将一个部门的节点集中在一个接入设备下,限制跨设备集群的数量;
只在接入设备开启PFC保证快速反压,在全网开启ECN保护跨设备集群;
对于小量跨设备集群,围棋提供足够的网络带宽减少拥塞,并采用大缓存交换机解决ECN反压周期长的问题。
综合高密接入、大缓存、端到端反压等需求,HPCv3.0架构选择了使用BCMDUNE系列芯片的框式交换机作为接入设备。
在很长一段时间,网络都不是数据中心性能的瓶颈,基于”大带宽”的网络设计可以满足业务应用需求。但近些年来,服务器技术的快速发展带动了数据中心计算、存储能力的飞速提高,而RoCE、NVMEoverFabric等RDMA技术将数据中心的性能瓶颈转移到了网络侧。特别是对于HPC、分布式存储、GPU云、超融合架构这些基于RDMA的新型应用来说,网络时延已经成为制约性能的主要因素。因此,可以预见到,未来数据中心的设计目标会逐步从带宽驱动走向时延驱动,如何构建低时延、无损的大型以太网数据中心,并建立完整的缓存、时延监控机制,会是我们长期探索的目标。
作者:鹅厂网事
来源:腾讯云+社区
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!