
当前,AI领域的发展对数据中心提出了新要求,单个数据中心已难以满足AI模型训练的需求。
从功耗来看,数据中心机架功耗较以往大幅提升,如今英伟达的GPU机架功耗达140千瓦,未来还可能升至1兆瓦,若集中大量高性能计算单元,电力供应会面临难题。
同时,不同地区电价差异明显,数据中心需考虑成本因素合理布局。
且旧有网络技术在带宽等方面表现不足,无法支撑多数据中心间的高效互连,跨数据中心组建大集群成为兼顾技术可行性与经济性的选择,这也推动着相关网络技术与设备的升级迭代。
AI数据中心为啥非得“跨着连”?
现在AI模型越来越大,训练起来超费劲儿,单个数据中心根本扛不住。
就拿GPU来说,以前数据中心每机架功耗也就15到30千瓦,可现在英伟达的GPU机架,功耗直接飙到140千瓦,以后还可能到1兆瓦。
要是把1000万个高性能计算单元都放一个数据中心,电力根本供不上,就算用天然气发电机也白搭。
而且各地电价不一样,像美国不同地方电价差不少,数据中心也得“追着便宜电跑”,跟草原上的动物追水源似的。
再者,就算电力没问题,这么大的计算规模,单个数据中心也没法好好互连,不如建几个小的,再把它们连起来组成大集群,这样技术上和经济上都靠谱。
就像OpenAI的GPT模型,一代比一代费计算力,GPT-5都开始突破单个数据中心的限制了,以后GPT-6说不定要20万个GPU,没有跨数据中心的网络根本不行。
以前的广域网和数据中心互连技术也不给力,速度和性能都满足不了AI训练的需求。
比如连接计算和存储的前端网络带宽,比旧式广域网/数据中心互连技术高7倍,机架级连接GPU的带宽更是高504倍。
要把20个数据中心的100万个高性能计算单元连起来,需要914太比特/秒的带宽,这可不是老网络能搞定的。
厂商们杀疯了
为了满足AI数据中心“跨着连”的需求,厂商们纷纷拿出看家本领。
今年8月中旬,博通先推出了“Jericho4”StrataDNX芯片,能提供51.2太比特/秒的总带宽,还带了些高带宽内存当数据包缓冲区,缓解拥塞,主要用于高速数据中心之间的连接。
英伟达也没闲着,夏初在HotChips大会上展示了新一代光谱系列交换机,虽然具体硬件细节不清楚。
但有个叫CoreWeave的GPU芯片供应商说了,要用这技术把数据中心连成“统一的超级计算机”。
思科虽为后起之秀,但是动作可不简单,推出的8223路由器,该设备搭载了自主研发的SiliconOne P200专用集成电路,展现出不容小觑的技术实力与创新决心。
此路由器有两款型号,均为3RU规格,配备64个800G端口,其中,8223 - 64EF采用可扩展光互联封装光纤,8223 - 64E则运用四通道小型可插拔光纤。
可扩展光互联封装还能同时支持以太网和无限带宽标准,四通道小型可插拔主要用于以太网。
P200芯片很厉害,64个端口总带宽51.2太比特/秒,每秒能处理200多亿个数据包,进行4300多亿次路由查找,还带16GB的第三代高带宽内存当数据包缓冲区。
思科的RakeshChopra很有发言权,他在思科干了27年,2018年成了思科院士,还带头开发了SiliconOne专用集成电路。
他觉得现在业内对跨数据中心网络的看法有点极端,有的只搞主动拥塞控制,有的只放深度缓冲路由器,其实两者都需要。
因为AI工作负载是确定的,出故障会导致被动拥塞控制,这时候就得靠深度缓冲和合理的路径规划。
技术难题咋解决?
跨数据中心网络最大的难题之一就是延迟,别以为光速快到没朋友,1000公里外的两个数据中心,数据包单程就得5毫秒,再加上收发器、放大器这些设备的额外延迟,时间就更长了。
不过谷歌DeepMind团队有个办法,训练时压缩模型,再合理安排数据中心之间的通信,能解决不少延迟问题。
还有个争议点是缓冲区,以前觉得深度缓冲区会拖慢AI工作负载,因为会导致延迟和抖动,影响模型性能,还会出现缓冲区膨胀。
但思科不这么认为,Chopra说问题不是出在深度缓冲区本身,而是拥塞让缓冲区满了,只要做好负载平衡和拥塞控制就行。
而且AI工作负载是同步的,会等网络里最长路径传输完成,缓冲区填充清空不影响作业完成时间。
P200的深度缓冲区其实很有用,能避免数据包丢失。
要知道,AI训练一旦丢包,就得大规模回滚到检查点,要是训练跑好几个月,这损失可太大了,深度缓冲区能吸收流量激增,保证性能稳定,还能避免在重新处理上浪费电。
另外,思科8223还很注重安全和灵活,用后量子弹性算法做密钥管理,能线速加密,芯片里还有信任根,防止物理篡改,对长期AI训练很重要。
一开始支持开源网络操作系统,针对超大规模数据中心,后来还会支持思科广域操作系统,能用于传统数据中心互连、核心网等场景。
以后P200还会用在模块化平台和Nexus产品上,保证整个AI生态技术一致,思科这是想在AI云网络设备100多亿美元的潜在市场里分一大块蛋糕。
其实思科和英伟达的方案各有优势,思科适合看重网络弹性的分布式AI互连,英伟达适合低延迟场景,现在AI需求这么大,说不定两者都能成功,客户也能有更多选择。
结语
跨数据中心组建大集群已是AI发展的必然选择,这一需求也带动了相关网络技术与设备的快速进步。
博通、英伟达、思科等厂商纷纷推出针对性产品,思科8223路由器等设备凭借技术优势,在满足带宽、缓冲等需求上表现突出,还兼顾安全与灵活。
未来,随着AI模型持续升级,对网络的要求会更高,而100多亿美元的AI云网络设备潜在市场,也将促使厂商不断创新。
无论是侧重网络弹性还是低延迟,多样的方案终将更好地支撑AI发展,助力解决更多实际应用中的难题。