1 業(yè)界需求
隨著AI,大數(shù)據(jù),分布式存儲和計算等業(yè)務(wù)的飛速發(fā)展,數(shù)據(jù)中心對高吞吐和大帶寬的要求越發(fā)迫切。思科2018年發(fā)布的GCI指數(shù)顯示,數(shù)據(jù)中心內(nèi)流量保持每年約30%的增長,到2021年將達到約20 Zettabytes。當前100G已在數(shù)據(jù)中心內(nèi)海量使用,400G預(yù)計在2019 ~2020年開始部署。2019年以太網(wǎng)聯(lián)盟發(fā)布的以太網(wǎng)路標顯示,2022年后將逐步進入800G/1.6T 時代。
圖1. Cisco Global Cloud Index, Cisco, 2018
圖2. Ethernet Roadmap, Ethernet Alliance, 2019
隨著400G產(chǎn)品的日趨成熟,800G的技術(shù)方向也逐漸明確。
1) 芯片:博通于2017年發(fā)布了12.8T的Tomahawk 3 芯片, 支持32個400G端口。預(yù)計2022年將會出現(xiàn)50T+的大容量芯片,支持64個800G端口以及最新的112G SerDes技術(shù)。
2) 光模塊:2018年起,各大主流模塊廠商陸續(xù)發(fā)布400G模塊產(chǎn)品。當前400G模塊支持光口速率單波長100G(多模除外);后續(xù)當SerDes升級到112G, 光口速率將匹配電口速率,模塊將自然演進到8*100G。
3) 系統(tǒng):2018年,思科、Arista、華為均發(fā)布了基于12.8T芯片的TOR交換機,支持32個400G端口,采用QSFP-DD或OSFP封裝。這兩種封裝格式都支持后續(xù)演進到800G。
2 技術(shù)趨勢
根據(jù)以太網(wǎng)速率和物理層標準的發(fā)展歷史,以及相關(guān)技術(shù)、器件的成熟度,我們預(yù)測,800G第一代將會以8*100G(單通道100G)為主。以下章節(jié)我們將從模塊、芯片、系統(tǒng)和封裝技術(shù)等方面對800G互聯(lián)的技術(shù)趨勢展開討論。
2.1 多模提速
圖3. 數(shù)據(jù)中心CLOS架構(gòu)和互聯(lián)
圖3 展示了數(shù)據(jù)中心主流的CLOS組網(wǎng)架構(gòu)和各層設(shè)備間的互聯(lián)關(guān)系。直連電纜(DAC)和有源光纜(AOC)用于Server和TOR交換機之間的互聯(lián),覆蓋20米以下的距離;AOC一般采用低成本的多模模塊和多模光纖。多模同時部署在TOR上行和spine交換機之間,覆蓋100米以下的距離。Spine上行,由于互聯(lián)距離較長,一般使用單模覆蓋,并通過波分技術(shù)(如CWDM)實現(xiàn)單纖傳輸,降低互聯(lián)成本。
由于巨大的成本優(yōu)勢,多模模塊和多模光纖在數(shù)據(jù)中心內(nèi)海量使用。從LightCounting 2018年發(fā)布的光模塊發(fā)貨量趨勢來看(圖4),100G多模不斷上升,到2022年達到頂峰;400G多模100米、單模500米和2km三分天下。
圖4:100G & 400G光模塊發(fā)貨量預(yù)測,LightCounting,2018
表1 展示了IEEE定義的400G多模標準:400G-SR16,400G-SR8和400G-SR4.2。400G-SR16 基于電口25G-SerDes, 需要16路光電器件,MPO-32連接器以及16對光纖。由于缺少用戶和模塊廠商的支持,該標準在業(yè)界沒有被廣泛應(yīng)用。400G-SR8和400G-SR4.2標準基于電口56G-SerDes, 器件和光纖數(shù)減半;而400G-SR4.2采用了短波分復(fù)用技術(shù)(SWDM),實現(xiàn)了單纖雙向,可以復(fù)用100G時代的4對纖部署。隨著大帶寬VCSEL器件的成熟以及DSP技術(shù)的加持,多模有望在800G時代繼續(xù)演進。
表1:IEEE 400G多模標準
2.2 封裝格式
圖5:Intel光電集成路標:可插拔模塊à在板光模塊à光電合封,Intel, 2018
隨著電口速率提升到112G,高速信號在PCB傳輸中的損耗也隨之增大。為了驅(qū)動交換芯片到光模塊的PCB走線,滿足信號完整性,SerDes可能需要使用相對復(fù)雜的DSP。這將造成芯片整體功耗大幅增加。
為了解決功耗限制,如圖5所示,業(yè)界普遍的做法是將光模塊不斷向交換芯片靠近,從而縮短芯片和模塊間的走線,即SerDes的驅(qū)動距離。在板光模塊和光電合封技術(shù)應(yīng)運而生。業(yè)界有觀點認為,到2025年,可插拔光模塊和無源銅纜將逐漸被以上兩種技術(shù)取代。
圖6:在板光模塊電接口和連接器示意圖
在板光模塊或者嵌入式光引擎的概念并不新鮮,F(xiàn)inisar的SNAP系列和Avago的POD系列等早在十多年前就已進入市場。這些產(chǎn)品均屬于私有或定制化方案,可支持12路VCSEL,并集成在PCB板上,為集群提供高速高密的框內(nèi)互聯(lián)。隨著數(shù)據(jù)中心客戶和業(yè)務(wù)的增長,業(yè)界呼喚標準化方案的出臺。2013年,微軟提出傳統(tǒng)可插拔模塊面臨功耗和密度問題,在后400G時代將選擇在板光模塊作為技術(shù)方案。同年,微軟聯(lián)合思科、博通、Finisar等14家廠商成立COBO聯(lián)盟,旨在提供標準化的在板光模塊方案;當前成員已經(jīng)超過70家。2018年,COBO發(fā)布技術(shù)規(guī)范(如圖6所示),定義了8路和16路的客戶側(cè)電接口、OBO連接器規(guī)格以及熱參數(shù),支持可插拔的在板光模塊形態(tài)。當前標準最高支持800G,未來可演進至1.6T。
光電合封,將光引擎和交換芯片封裝在一個襯底上。相比在板光模塊,合封后,SERDES IO和光引擎的距離進一步減小到毫米級,交換芯片的功耗大幅減低。合封后的芯片直接扇出光纖,交換機前面板不再受傳統(tǒng)模塊封裝格式的限制,可以采用尺寸更小的MPO連接器(此處有圖)實現(xiàn)高密高速互聯(lián)。預(yù)計單槽位將可支持上百T的容量,是現(xiàn)有可插拔模塊可支持容量的10倍以上。
圖7 光電合封示意圖
圖 8.光電合封概念樣機,Luxtera @ OFC 2018
業(yè)界普遍認為光電合封是大帶寬接口形態(tài)的必然趨勢,模塊、系統(tǒng)和線纜廠商也紛紛合作并推出樣機。2018年OFC,Luxtera展示了51.2T的光電合封樣機。如圖 8所示,該樣機采用了4個外置光源,驅(qū)動4個光電合封引擎,每個引擎支持12.8T的容量,面板采用MPO連接器扇出光纖。
2019年3月,微軟和Facebook聯(lián)合成立了Co-Packaged Optics (CPO) 協(xié)作項目。該項目聚焦用戶視角,為光電合封方案提供系統(tǒng)級需求,并針對電接口、模塊管理、芯片封裝等制定端到端的開放標準。該項目的成立表明了數(shù)據(jù)中心主流用戶對于光電合封作為下一代互聯(lián)技術(shù)方向的認可,以及對獲得產(chǎn)業(yè)鏈支持的渴望。光電合封涉及到產(chǎn)業(yè)鏈的各個環(huán)節(jié)和不同廠商,需要從接口定義、封裝、測試等各方面緊密合作和推動標準化。
2.3 大容量芯片
隨著數(shù)據(jù)中心內(nèi)業(yè)務(wù)的發(fā)展,流量的激增,用戶對于大帶寬網(wǎng)絡(luò)設(shè)備的需求越來越迫切。用戶側(cè)和網(wǎng)路側(cè)交換機的容量在10年間增長超過50倍。決定系統(tǒng)容量的主要因素就是芯片容量。在單芯片容量受限的情況下,利用多芯片scale-out的方式可以構(gòu)建大容量的系統(tǒng),傳統(tǒng)框式交換機便是這樣的思路。如圖9所示,F(xiàn)acebook 2016年發(fā)布的 Backpack框式交換機,利用12片3.2T Tomahawk 芯片(4塊線卡,4塊交換卡),實現(xiàn)了12.8T的交換容量。隨著12.8T的 Tomahawk 3單芯片的發(fā)布,一個單槽位(1RU)的盒式交換機就可以實現(xiàn)12.8T。相比Backpack, 功耗和成本都降低了80%以上。當互聯(lián)速率提升至單通道112G,傳統(tǒng)框式結(jié)構(gòu)面臨功耗散熱等諸多工程工藝的瓶頸,繼續(xù)演進面臨巨大挑戰(zhàn)。因此,基于大容量盒式交換機的scale-out架構(gòu)將成為數(shù)據(jù)中心架構(gòu)和設(shè)備形態(tài)的一大趨勢。國內(nèi)外多家數(shù)據(jù)中心用戶已經(jīng)開始了 ”盒替換框” 的進程。大容量盒子的關(guān)鍵就是大容量芯片。
圖9: 8U-12.8T-框式交換機 Vs. 1U-12.8T-盒式交換機
https://www.nextplatform.com/2018/01/20/flattening-networks-budgets-400g-ethernet/
大容量芯片在實現(xiàn)中面臨諸多挑戰(zhàn),其中一個限制就是芯片Die面積的約束。圖10展示了交換芯片的內(nèi)部架構(gòu)。芯片die size增大導(dǎo)致良率降低、成本上升。減小芯片面積的一個直接方式是升級工藝制程。CMOS制程大概每三年更新一代,2019年7nm工藝已經(jīng)成熟,產(chǎn)品陸續(xù)發(fā)布。5nm工藝已在研發(fā)中,未來將會向3nm繼續(xù)演進。從16nm到5nm的演進過程中,PPA (Performance, Power, Area) 以及成本收益逐漸放緩,新制程在綜合性能上的提升不大。雖然工藝升級可以給芯片面積帶來部分收益,但大容量芯片仍然面臨die size受限,單個die無法實現(xiàn)的巨大風險。
圖10: 交換芯片內(nèi)部架構(gòu)
圖11:單Die架構(gòu) Vs. Chiplet多Die架構(gòu)
Chiplet對芯片進行解構(gòu),突破了芯片面積的物理瓶頸,是解決die size問題,實現(xiàn)大容量芯片的一個重要途徑。Chiplet架構(gòu)將芯片按功能劃分為多個子芯片,各自獨立成die。由于每個die的面積變小,單片晶圓上可擺放的Die數(shù)目增加,良率提升,成本下降。不同die可使用不同工藝,容量升級時只需升級部分模塊/die, 加快了大容量芯片的迭代。同時,Chiplet架構(gòu)下,熱源分散,更利于散熱。Die間互聯(lián)接口、多Die集成封裝是Chiplet架構(gòu)下要解決的關(guān)鍵問題。
(a) (b) (c)
圖12: (a) Barefoot Tofino-2 Chiplet架構(gòu); (b) Marvell 12.8T test chip in MCM; (c) Intel EMIB封裝和AIB接口
Chiplet是未來大容量芯片架構(gòu)的一個重要趨勢。但還有諸多問題和挑戰(zhàn)有待業(yè)界共同探討和解決:比如,采用異構(gòu)還是同構(gòu)架構(gòu);同構(gòu)架構(gòu)下,多Die間的負載分擔,如何保證線速轉(zhuǎn)發(fā);如何進一步提高die間互聯(lián)帶寬;多Die間的流量控制和資源配置,如何提高內(nèi)存利用率,實現(xiàn)無損不丟包。
3 國際標準化進展
2019年,ODCC聯(lián)合了20多家國內(nèi)光互聯(lián)產(chǎn)業(yè)鏈會員,成立了下一代數(shù)據(jù)中心互聯(lián)項目(DCCNG),并于2019開放數(shù)據(jù)中心峰會發(fā)布《DCCNG:下一代數(shù)據(jù)中心互聯(lián)白皮書》,白皮書旨在牽引我國數(shù)據(jù)中心下一代互聯(lián)產(chǎn)業(yè)鏈在技術(shù)、規(guī)范和產(chǎn)品各個方面的探討,一經(jīng)發(fā)布就受到了業(yè)界廣泛關(guān)注。同時,ODCC代表我國數(shù)據(jù)中心產(chǎn)業(yè)伙伴,將2019開放數(shù)據(jù)中心峰會最新發(fā)布的DCCNG相關(guān)成果帶到IEEE802進行了推動,得到了業(yè)界同行的高度認可。DCCNG成果最終被IEEE802.3官方正式采納,對立項成功起到了重要支撐作用!
IEEE802.3作為定義物理連接的國際標準組織,于今年也開展了相關(guān)技術(shù)的立項研討。ODCC代表中國數(shù)據(jù)中心互聯(lián)產(chǎn)業(yè),積極投身參與到國際標準的立項工作中。ODCC相關(guān)專家聯(lián)合華為等業(yè)界伙伴,針對多模單波100G互聯(lián)方向,在IEEE802.3進行了歷時數(shù)月的多輪宣講,其對我國光互聯(lián)產(chǎn)業(yè)發(fā)展需求的調(diào)研以及相關(guān)技術(shù)的思考,得到了IEEE802.3官方的高度認可。本次IEEE802全會對該方向進行了立項投票,通過并正式立項。此次立項開啟國際單波100G多模標準的制定工作,牽引和推進產(chǎn)業(yè)鏈解決100G PAM4多模傳輸?shù)募夹g(shù)難點,催熟相關(guān)芯片研發(fā)和成熟度,支撐下一代基于112G SerDes IO的服務(wù)器100G接入和交換機互聯(lián)低成本方案。