无损网络技术面向数据中心(IP、RDMA、IB、RoCE、AI Fabric)

释放双眼,带上耳机,听听看~!
面向数据中心无损网络技术(IP、RDMA、IB、RoCE、AIFabric)伴随着AI的热潮,深度学习服务器集群涌现,以及各种SSD等高性能新型存储介质的发展,对通信时延提出了更高的要求(us级)。服务器内部通信协议栈变革首当其冲,传统的TCP/IP协议栈已经不能满足高性能系统的要求。本文参考“面向AI时代的智能无损数据中心网络”。下载链接:RDMA技术专题汇总(1)RDMA

目录

    无损网络技术面向数据中心(IP、RDMA、IB、RoCE、AI Fabric)

    %title插图%num

    伴随着AI的热潮 ,深度学习服务器集群涌现,以及各种SSD对通信延迟提出了更高的要求(us级)。服务器内部通信协议栈的变化首当其冲,传统TCP/IP协议栈已不能满足高性能系统的要求。服务器内部通信协议栈的变化首当其冲,传统TCP/IP协议栈已不能满足高性能系统的要求。

    本文参考面向AI时代智能无损数据中心网络。

    下载链接:

    RDMA技术专题汇总(1)RDMA技术专题汇总(2)RDMA技术专题汇总(3)RDMA技术专题汇总(4)RDMA技术专题汇总(5)1 AI智能网卡低延迟Fabric技术.pdf2、RDMA参数选择.pdf3、RDMA技术白皮书(中文版).pdf4、RDMA数据中心技术的应用研究.pdf5、华为面向AI智能无损数据中心网络时代.pdf

    RDMA替代TCP/IP成为大势所趋

    传统TCP/IP虽然经过30年的发展,网络技术日益成熟,然而,天生的技术特征受到限制AI应用于计算和分布式存储。

    限制一:TCP/IP协议栈处理带来了几十微秒的延迟

    TCP接收/发送报纸时,协议栈的内核需要多次上下文切换,每次切换需要5次us~10us此外,至少需要三次数据复制和依赖CPU协议包装,这导致协议栈处理只带来几十微秒的固定延迟AI数据运算和SSD协议栈延时成为分布式存储-微秒系统中最明显的瓶颈。

    限制二:TCP协议栈处理导致服务器CPU负荷居高不下

    除固定时延长的问题外,TCP/IP网络需要主机CPU多次参与协议栈内存复制。

    限制二:TCP协议栈处理导致服务器CPU负荷居高不下

    除了固定时延较长问题,TCP/IP网络需要主机CPU多次参与协议栈内存复制。网络规模越大,网络带宽越高, CPU在收发数据时的调度负担越大,导致CPU持续高负荷。根据行业计算数据:每传输1bit数据需要1Hz的CPU,当网络带宽达到25时,当网络带宽达到25时,当网络带宽达到25时,当网络带宽达到25达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到25时,当网络带宽达到2555时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到255时,当网络带宽达到2555时,当网络带宽达到255555时,当网络带宽达到25时,当网络带宽达到2555555时,当网络带宽达到255时当网络带宽达到2555时,当网络带宽达到2555时,当网络带宽达到255555时,当网络带宽达到2555时当网络带宽达到2555时,当网络带宽达到2555时,当网络带宽达到25G对于绝大多数服务器来说,上述(满载)至少是一半CPU能力必须用来传输数据。

    RDMA规避了TCP上述限制将协议栈延迟降低到近1us%title插图%num

    RDMA内核旁路机制允许应用程序和网卡之间的直接数据读写,将服务器中的数据传输延迟降低到近1us。同时,RDMA内存零拷贝机制允许接收端直接从发送端内存读取数据,大大降低了数据CPU负担,增加CPU的效率。

    根据某知名互联网厂商的测试数据, 采用RDMA计算效率可同比提高6~8倍,服务器1us传输得传输延迟SSD分布式存储的延迟ms级降低到us水平是可能的,所以在最新NVMe在接口协议中,RDMA成为主流默认网络通信协议栈。因此,RDMA在AI运算和SSD在追求极端性能的网络潮流中,分布式存储被替换TCP/IP成为大势所趋。

    当前RDMA两种网络承载方案都存在不足

    InfifiniBand封闭架构不能与当前网络兼容

    InfifiniBand交换机是特定厂家提供的专用产品,采用私有协议,而绝大多数现网都采用IP以太网络,所以对于需要广泛互联的AI采用计算和分布式存储系统InfifiniBand不能满足互通需求。同时,封闭架构也存在制造商锁定的问题。对于未来需要大规模弹性扩展的业务系统,如果被制造商锁定,风险将无法控制。同时,封闭架构也存在制造商锁定的问题。对于未来需要大规模弹性扩展的业务系统,如果被制造商锁定,风险将无法控制。行业通常会InfifiniBand用于小范围传统HPC独立集群。

    InfifiniBand作为一种特殊的网络技术,用户无法继承IP企业引进网络运维的积累和平台InfifiniBand需要重新招聘专门的运维人员,目前InfifiniBand市场空间的市场空间(不到以太网的1%)。

    IP以太网络拥塞丢包,吞吐率极低%title插图%num

    IP网络承载RDMA基于传统的标准化已经完成。IP携带以太网络RDMA,也是RDMA大规模应用是必然的。然而,RDMA提出之初承载无损的InfiniBand缺乏完善的网络丢包保护机制,对网络丢包极为敏感。丢包的2%RDMA吞吐率下降到0,使RDMA吞吐量不受影响,丢包率必须保证在十万分之一以下,最好不要丢包。

    传统上是拥塞丢包IP以太网络的基本机制,一旦流量模型复杂丢包,必然导致吞吐率极低。很多厂家都会采用PFC和ECN机制是避免丢包提高吞吐率,而现有的RDMA拥塞&调度算法导致网络设备队列积累,从而触发PFC。如果网络中有很多PFC,极有可能诱发网络死锁,导致网络系统风险。

    另外,PFC和ECN其基本原理是通过反压降低发送速度来保证不丢包,实际上并没有达到提高吞吐率的效果。

    总结:RDMA的高效运行,离不开一个0丢包、高吞吐的开放以太网作为承载。

    分布式架构对网络的影响

    分布式架构在服务器之间带来了大量的合作。对于分布式计算,一般采用合作方式MAP/REDUCE过程。即在MAP在这个阶段,将一个大的计算任务分解为多个子任务,并将每个子任务分发给计算节点;在REDUCE在这两个过程中,收集多个计算节点的处理结果进行总结。

    在REDUCE给网络带来两个变化,加剧网络拥塞:

    变化1:Incast流量特征

    对应传统流量特征(点对点流量称为unicast),点对多点流量称为broadcast/multicast;incast对应多点对一点的流量,匹配REDUCE阶段;Incast会在接收端造成流量突发,瞬间超过接收端接口能力,造成拥塞丢包。

    此外,在分布式架构中,每个服务器的角色都是平等的,作为发送端和接收端,即不能通过增加接收端的端口带宽来解决incast突发问题。

    变化2:大包交互

    大包意味着随着分布式计算复杂性的增加,服务器之间交互的消息长度越来越大;例如,在图像识别的分布式计算中,每个交互模型都达到G字节大小。分布式存储系统也有类似的阶段;例如,在写作阶段,将数据分发到多个存储节点,类似于MAP过程;在读阶段,从多个存储节点读取数据,类似REDUCE过程。分布式存储系统也有类似的阶段;例如,在写作阶段,将数据分发到多个存储节点,类似于MAP在阅读阶段,从多个存储节点读取数据,类似于REDUCE过程。

    综上所述,分布式架构造成的incast突如其来的流量和大包一步加剧了网络拥堵。

    无论是应用分布式架构,还是应用分布式架构,RDMA从通信效率的角度来看,都呼吁数据中心网络发生变化。

    自2000年以来,数据中心网络带宽已经从1000年开始Mb/s提升到100Gb/s,带宽增长了1000倍,摩尔定律支持带宽增长。网络带宽享受摩尔定律带来的好处。然而,由于网络拥堵,单纯增加带宽并不能提高应用性能。网络变化的方向正在从带宽向延迟转变,这是一个巨大的飞跃。既是AI时代对高效数据处理的需求也是如此IP网络技术发展的必由之路。%title插图%num

    所谓延迟不是指网络轻负荷下的单包测试延迟,而是指满负荷下的实际延迟,即流完成时间。

    所谓延迟不是指网络轻负荷下的单包测试延迟,而是指满负荷下的实际延迟,即流完成时间。详细分析网络延迟可分为静态延迟和动态延迟。

    静态延迟包括数据串行延迟、设备转发延迟和光电传输延迟。这种延迟取决于转发芯片的能力和传输距离,而这种延迟往往有一定的规格,目前行业普遍存在ns级或者亚us网络总延迟占1%以下。目前厂家声称芯片转发延迟达到几百纳秒,是指静态单包延迟;

    但对网络性能影响较大的是动态延迟,占99%以上。动态延迟包括由网络拥塞和丢包引起的内部排队延迟和丢包重传延迟。AI时代流量在网络中的冲突越来越激烈,报纸排队或丢包已成为常态。一旦发生,延迟通常达到亚秒级,因此低延迟网络的关键是低动态延迟。

    动态延迟强调单流延迟或多流延迟;也就是说,一个流必须包括多个包,流的完成时间取决于最后一个包的完成时间;也就是说,任何包,都会增加流量的完成时间;

    对于分布式架构,一项任务包括多流,完成时间取决于最后一流的完成时间,也就是说,任何流被拥塞都会导致任务完成时间增加;

    为了满足AI为了应对分布式架构的挑战,0丢包、低延迟、高吞吐量成为下一代数据中心网络的三个核心需求。%title插图%num

    AI Fabric原始算法保证在0丢包的基础上实现最高吞吐量和最低延迟

    零丢包AI Fabric三个核心特征;华为不同于行业内通用的无损网络技术AI Fabric这三个指标可以同时达到最佳,而不是部分满足。众所周知,这三个核心指标相互影响,具有跷跷板效应,同时实现最佳挑战:

    拥塞控制算法是满足0丢包、低延迟和高吞吐的核心技术。

    通用无损网络拥塞控制算法DCQCN,需要网卡和网络合作,每个节点需要配置数十个参数,整个网络的参数达到数十万组合;为了简化配置,只能使用一般配置,导致不同的流量模型不能同时满足这三个核心指标。

    下载链接:RDMA技术专题汇总(1)RDMA技术专题汇总(2)RDMA技术专题汇总(3)RDMA技术专题汇总(4)RDMA技术专题汇总(5)1 AI低延迟智能网卡Fabric技术.pdf2、RDMA参数选择.pdf3、RDMA技术白皮书(中文版).pdf4、RDMA数据中心技术的应用研究.pdf5、华为面向AI智能无损数据中心网络时代.pdf网络技术白皮书超融合数据中心

    中国联通开放网络的研究与实践

    中国联通开放硬件网络设备白皮书

    1.掘金云数据中心白盒化趋势.pdf2.商用交换芯片SDN支持现状分析.pdf3.未来网络白皮书-白盒交换机技术白皮书.pdf4.本协议与交换机架构技术和应用白皮书无关.pdf5.中国联通开放硬件网络设备白皮书.pdf6、中兴通讯CO重建技术白皮书.pdf来源:全栈云技术架构

    ????????????????? END ????????????????

    转载说明:转载本号文章请注明作者和来源。如果本号发表的文章有版权问题,请留言联系处理。谢谢你。

    推荐阅读

    更多架构相关技术总结,请参考架构师全店技术资料包装相关电子书(可通过阅读原文获得37个技术资料包装总结细节)。

    内容不断更新,现单全店技术资料打包(全),后续可享受全店更新免费礼品,价格仅198元(原总价350元)。%title插图%num

    温馨提示:

    扫描二维码关注微信官方账号,点击阅读原文链接获取IT电子书资料详情,技术全店数据包装汇总(全)。

    给TA打赏
    共{{data.count}}人
    人已打赏
    其他分享

    零极数字集团分布式应用网络技术发布会暨链链不忘(重庆)科技有限公司成立大会圆满成功!

    2022-8-5 22:11:49

    其他分享

    (Android)图片恢复助手免费版v1.3.32破解版

    2022-8-10 12:09:53

    0 条回复 A文章作者 M管理员
      暂无讨论,说说你的看法吧
    个人中心
    购物车
    优惠劵
    今日签到
    有新私信 私信列表
    搜索