现场直播|华为数据中心网络产品总监邓一鸥:华为AI Fabric,引领数据中心进入极速无损的高性能时代

2018-10-18 作者:   |   浏览(

10月16日,2018年开放数据峰会(Open Data Center Summit 2018)于上午在北京国际会议中心开幕。作为数据中心行业的一大盛事,ODCC每年都将汇聚数千名数据中心专家与几十名主流媒体。本届峰会时间为16日-17日,ODCC将发布最新研究成果,碰撞尖端热点技术,分享国际技术进展,展示主流产品应用。

10

在开幕式上,来自华为数据中心网络产品总监邓一鸥进行精彩演讲。以下为演讲实录:

各位来宾,大家上午好,我是来自华为的邓一鸥。我主要负责的是数据中心交换机的研发工作,今天主要跟大家分享一下华为数据中心网络在AI时代的一些思考。

在过去这五年时间,数据中心这个领域是新技术演进最频繁最快速的领域,大量的新创新技术,比如说SDN/NFV、云网联动,比如虚拟交换,包括Docker这样一些技术,都是在数据中心内部得到发育和得到应用成熟。最大带宽的网络技术也是首先应用在数据中心,比如25G的接入,100G的接入,以及马上到来的400G的接入,都是首先在数据中心里应用。在数据中心领域,经过“互联网+”、大数据的大规模发展。

发展到现在这个阶段,我们在各个行业积累了大量的行业数据,而且现在还在每天每时每刻在不断产生更多的行业数据,基于这样海量的行业数据,我们现在有机会从这些数据里产生智能,从而把这些数据真正的价值释放出来,迈入AI的时代。

AI对业务有大量的挑战,首先是面向计算和存储的,比如机器训练,机器翻译的训练,里面计算量非常巨大,一次训练需要半年以上,这样的迭代速度远远没法满足AI业务的诉求。还有分布式存储,传统的分布式存储只能达到2万IOPS,现在某商业银行已经能达到35万IOPS的云存储。计算和存储领域的技术也在飞快发展,刚才三星韩先生的材料里提到,他们最新的SCM技术的存储系统,时延已经能够达到10微秒以下。当存储时延和计算时延能够降低到这样的数量级的时候,大家就发现瓶颈已经不在计算和存储了,瓶颈被转移到网络了。

网络的时延其实很短的,一台交换机一跳的时延也就是几百个纳秒,如果我们考虑一个网络三跳,也就是一个微秒左右的时延,那为什么网络会成为AI计算和存储的一个新的瓶颈?这里面有两点差异,第一,比如这种分布式存储,如果把操作过程打开看,它在一次I/O操作里会带来六次的网络访问。第二,刚才计算的时延其实有一定的误导,我们只看到静态时延,静态转发的时延是这么大。但是网络中,以太网的技术、TCP/IP的技术,有一个很大的问题,像分布式存储或者AI计算,分布式的计算都有一个特征,会有一个中心节点去分发任务,当所有任务向它发数据的时候,会形成流量,这个流量有可能会导致流量的拥塞,一旦发生拥塞,时延就从几百个纳秒成十倍百倍的增加,这种动态的时延是我们在AI计算里一个主要的障碍,也是我们当前面临的一个重大挑战。我们要怎么样去控制这样的动态时延,使它能够满足业务技术的要求,这是我们当前面临的一个新的挑战。

现有的以太网技术并不能满足AI诉求,传统的以太网技术不用讲了,肯定是不能满足的。那后来出现了什么?比如InfiniBand,它的主要诉求是解决低时延的问题,它很好的解决了低时延的问题,但是带来的问题是,第一,它是私有协议,不仅仅是一个成本的问题,或者也不仅仅是产业链的问题,它的问题在于在数据中心当前这样一个开放程度下是无法融合的。

比如一个云服务商要想对外提供AI服务,基于AI的云服务给企业,如果从企业角度看,如果他在私有云使用了InfiniBand的技术,要利用公有云来协作计算的时候也是无法做到的,所以私有是一个很重要的短板。同时它的网络规模非常小,只能支持很小的网络规模,我们现在看到比如像先进的云服务商这种互联网企业,他们的规模动辄都是几千台服务器的规模,这个对于InfiniBand的技术来讲是很大的瓶颈。

另外还有一个技术,在IEEE的CEE的标准,融合增强以太网主要解决的是无丢包,像分布式存储系统一旦出现丢包,时延的增长是完全无法接受的。它的解决思路是什么,既然你不要丢包,把你的带宽利用率降低下来,通过大幅度降低带宽利用率来使得你不要丢包。确实达到了不丢包的目的,但是它的问题在于它的带宽利用率太低。我们需要一个什么样的技术来支撑AI的业务诉求,应该是在高吞吐、大带宽的前提下的低时延和无丢包,这是我们现在所需要的网络,而且需要有效的控制动态时延,而不仅仅去关注静态时延。

华为发布AI Fabric这个方案,这里面包含了很多技术方向,我们的目标就是要在高吞吐的情况下实现零丢包和低时延。其实我们是把传统的以太网解剖开,把它原来粗犷无序的方式变成可控有序。比如刚才讲CEE,为什么它的带宽利用率低,一个简单的原理,它提前对这个流量进行压制,比如100G的端口带宽设一个水线,比如设到50G,当流量达到50G的时候,反压前端让它不要再发了,这样就降了,自然不会出现丢包。但是为了不丢包,必须要把这个水线舍得足够低,过程中还有延迟效应,这段时间的延迟之内仍然可能会出现拥塞和丢包。我们现在提出来的这个技术,通过动态调整水线,通过实施带宽流量监控,去动态调整水线,在达到不丢包的前提之下能够达到最大的带宽利用率。当然还有一些其他的技术,大家可以到展台再去做一些深入的探讨。

这些技术已经超出了传统的以太网交换的范畴,从交换机这个角度怎么去实现这样的技术?传统的交换机的硬件架构非常简单,就是一个基于ASIC的交换芯片,很难扩展额外的复杂的智能能力。为了实现AI Fabric的这些技术能力,我们从硬件架构上做了一些设计。第一个在交换芯片之外增加了一个FPGA,来做一些比如动态水线的算法。但是仍然不够,FPGA仍然有一些限制,我们还有一个硬件上的设计,在我们的交换机上应用了CPU,在CPU内核里面专门有一个内核设计成NP的核,这个NP的核就能实现更多复杂动态的网络业务的调整,来实现AI Fabric的业务能力。这样一个硬件架构应用于AI Fabric涉及到的产品系列,包括框式和盒式的设备都是采用这样一个硬件架构。

上周刚刚在上海举行了华为的HC全联接大会,在这个大会上我们做了一个现场的演示,组了一个12台SSD服务器的网络。在AI Fabric加速的情况下,IOPS能够达到25%的提升。我们差不多是从今年初开始推出AI Fabric这样一个方案,之前我们跟一个国际权威第三方独立测试机构欧洲高级网络测试中心叫做EANTC,一起做了AI Fabric的业务测试,测试的结果发现网络时延最早可以降低44%。在今年6月份日本东京举行的Interop展会上,我们AI Fabric也获得了展会的最高奖项Interop金奖。目前我们AI Fabric这个方案也在积极跟各大互联网公司和一些金融行业的银行和公司进行一些联合创新,我们还有很多新的技术持续加入进来。

希望跟ODCC各位成员一起,把这些技术尽量完善,应用到我们的AI Fabric方案中,为现在进入到AI时代也贡献我们的一部分力量,我的演讲就到这里,谢谢大家!