![]() 香港飛龍.online 官方授權發布的第4代「香港飛龍」標誌 本文内容: 如果您希望可以時常見面,歡迎標星收藏哦~來源:內容編譯自nextplatform。儘管隨着以太網路線圖上的每一次減速,更扁平的網絡和更快的網絡都是可能的,但網絡規模仍然保持着足夠快的增長速度,以至於交換機ASIC製造商和交換機製造商能夠通過產量來彌補這一不足,並保持交換機業務的增長。隨着GenAI的爆發式增長,所有大型AI廠商都一致希望擺脫英偉達控制的專有InfiniBand技術,將InfiniBand的所有功能移植到全新升級的以太網上,使其能夠進一步擴展,並在更扁平的網絡中實現擴展,從而創建規模更大的AI集羣。超級以太網聯盟(UltraEthernetConsortium)的宏偉目標是實現100萬個GPU端點,而要實現這一目標,需要容量更大的交換機ASIC。如今,商用芯片市場的行業領導者博通(Broadcom)在以太網領域面臨着來自思科系統和Nvidia的激烈競爭,該公司正在向市場推出其“Tomahawk6”StrataXGS以太網交換機ASIC,該市場將以102.4Tb/秒ASIC爲主導,並展望204.8Tb/秒和409.6Tb/秒的Tomahawk7和Tomahawk8芯片,所有大型人工智能公司無疑都在博通的發展路線圖上看到了這些芯片。他們可能也在熱切期待共封裝光學器件的推出,以降低成本並擴大未來龐大網絡的主幹網的覆蓋範圍。這一切與企業市場形成了鮮明對比。過去十五年,企業市場後端和前端網絡從10Gb/秒以太網向100Gb/秒以太網的遷移進展緩慢。然而,許多人希望將人工智能限制在企業內部,以及從現有系統中提取數據以驅動人工智能的壓力,可能會導致企業加速採用比歷史趨勢更快的以太網,而且速度前所未有。人工智能後端可能會推動企業前端採用100Gb/秒、200Gb/秒甚至400Gb/秒以太網,速度遠超以往。好消息是,由於其巨大的聚合帶寬,博通的Tomahawk6ASIC芯片在實現200Gb/秒或400Gb/秒端口方面從未有過比它更便宜的方法。思科SiliconOne、英偉達Spectrum-X將緊隨其後,MarvellTeralynx、XsightLabsX3和X4,以及華爲CloudEngineASIC芯片也將迎頭趕上——而且幾乎是按照這個順序——但本週,博通似乎將率先推出104.2Tb/秒的設備。華爲將面臨尤其嚴峻的挑戰,因爲美國對交換ASIC(專用集成電路)實施了出口管制,就像對英偉達和AMD的GPU加速器一樣。此外,鑑於網絡對人工智能系統的重要性,沒有理由相信大容量以太網ASIC會獲得例外。自2020年以來,華爲海思芯片部門一直被限制使用中國本土代工廠中芯國際,該公司目前工藝製程停留在7納米,但正在努力向5納米及更低工藝邁進。博通將擁有相當明顯的先發優勢,這完全是由經濟因素驅動的,而經濟因素又由技術驅動。或許,將Tomahawk6與其前代產品Tomahawk5進行比較會有所幫助。Tomahawk5芯片於2022年8月推出,是單片Tomahawk芯片設計的最後一款產品,值得注意的是,它是在2022年11月GenAI熱潮開始之前創建並向世界展示的。博通Trident和Tomahawk交換機產品線經理PeterDelVecchio向TheNextPlatform表示,AI訓練和推理應用(不僅僅是訓練)對帶寬、低延遲和高基數的需求推動了Tomahawk6的設計。但整個以太網市場的實用性也推動了這一設計,因爲不同細分市場的發展速度不同。Tomahawk5芯片是唯一一款能夠提供51.2Tb/秒總帶寬的單片芯片;其他所有芯片都使用了chiplet技術,即將多箇信令SerDeschiplet包裹在單片數據包處理引擎周圍。博通儘可能地降低網絡引擎的發熱量和直通延遲,但可能也因此在芯片良率上付出了一些代價。Tomahawk5採用臺積電5納米工藝蝕刻而成,集成了512個SerDes,每個SerDes在去除編碼開銷後可提供一箇以100Gb/秒速度運行的通道。準確地說,該芯片的原生信令速率爲50Gb/秒,然後對信號使用PAM4調製,爲每個信號雙泵兩位數據,從而實現100Gb/秒的有效數據速率。基於Tomahawk5的交換機可以正式實現64個800Gb/秒端口、128個400Gb/秒端口、256個200Gb/秒端口。在Tomahawk5發佈時,我們認爲擁有512個以100Gb/秒運行的端口——這確實是一箇非常高的基數,從而可以用相當少的主幹交換機構建非常扁平的網絡——是一箇有趣的概念。我們不確定是否有人真正實現了這一點……無論如何,Tomahawk5以不到1瓦的功耗實現了100Gb/秒的信令傳輸,幷包含認知路由功能,有助於加速AI工作負載。重要的是,Tomahawk5中的SerDes旨在驅動長達4米的有源銅纜鏈路,以及可插拔光學器件和Tomahawk5“Bailly”版本中使用的同封裝光學器件,這些器件已在美國和中國的多家超大規模數據中心和雲服務提供商處進行了測試。或許更重要的是,正如博通和其他所有交換機芯片製造商之前的交換機ASIC一樣,每當設備的總帶寬翻倍時,一箇單芯片的交換機設備就能完成六顆芯片以一半帶寬運行的工作,提供相同數量、相同速度的端口。(你基本上是在設備內部創建一箇小型的葉子/旋轉網絡,從而在交換機盒內創建一箇無阻塞網絡。)這種縮減顯然會大幅降低每個端口的成本,即使單個N代ASIC的成本遠高於N-1代。這個等式——NASIC=4*(N-1)leaf加2*(N-1)spine——是網絡架構中每一代ASIC的綜合容量翻倍的魔力所在,同時還能降低複雜性和成本。這個等式也是爲什麼超大規模用戶和雲構建者現在就想要Tomahawk7,因爲它還要兩年纔會發佈,並且他們也對四年後可能發佈的Tomahawk8翹首以盼,他們也希望現在就能擁有它。博通的演示文稿稱Tomahawk6芯片採用3納米工藝,這意味着它採用了臺積電的N3工藝。令我們有些驚訝的是,數據包處理引擎和環繞它的SerDes都採用3納米工藝蝕刻而成。我們原本猜測中央數據包處理引擎採用臺積電N4(4納米)或N3(3納米)工藝蝕刻,但信令SerDes則採用先進的N5(5納米)或N4工藝蝕刻。縮小I/O芯片的難度比縮小計算芯片的難度更大,這對於交換機ASIC和在芯片組設計中將I/O單獨拆分的CPU來說都是如此。我們想確認SerDes和數據包處理芯片組均採用N3工藝蝕刻。Tomahawk6有兩種版本,如上圖右側所示。一種版本擁有512個SerDes(四個芯片組,每個芯片組包含128個SerDes),原生100Gb/秒信令,採用PAM4調製,每條通道有效信令速率達200Gb/秒。如果將其中八個通道組合成一箇端口,則可以獲得64個端口,運行速度達1.6Tb/秒。Tomahawk6的另一組SerDes以之前每通道100Gb/秒的信號速率運行——也就是50Gb/秒加上像Tomahawk5SerDes那樣的PAM4調製——併爲Tomahawk6數據包處理引擎提供高達1,024個通道。每個端口8個通道,總共128個通道以800Gb/秒的速率運行,是Tomahawk5在相同速度下單個ASIC所能驅動的端口數量的兩倍。如果要使用Tomahawk5驅動128個以800Gb/秒運行的端口,則需要在交換機內部的小型葉/脊結構中使用6個芯片,並且需要在交換機內部添加額外的跳數,而不是在單個Tomahawk6ASIC上添加一箇。“我們認識的每一個人——原始設備製造商(OEM)、原始設計製造商(ODM)、超大規模廠商和雲構建商——都面臨着巨大的壓力,要求我們將Tomahawk6推向市場,”DelVecchio說道。“他們都告訴我們,他們絕對必須率先推出基於Tomahawk6的GPU集羣。所以,目前我們正在進行大量的工程工作。我們會看到標準的披薩盒外形,人們不久前就不再使用底盤,而是使用披薩盒連接DAC線纜和光纖。但我們現在也看到,隨着Tomahawk6的推出,人們正努力讓這些AI集羣儘可能高效、密集,而Tomahawk6不僅在橫向擴展網絡中得到應用,也在縱向擴展網絡中得到應用。”我們將單獨深入研究基於Broadcom以太網的擴展網絡,但可以說,使用200Gb/秒的鏈路,Broadcom表示它可以使用Tomahawk6將512個XPU鏈接到單個共享內存映像中。橫向擴展的故事看起來類似於給定端口數量的交換機內部的擴展,正如您可能想象的那樣:圖顯示的是128,000個XPU,但橫向擴展集羣中實際有131,072個XPU。以下是用於連接這麼多XPU的兩層Tomahawk6網絡的結構,以及任何51.2Tb/秒以太網ASIC(包括Tomahawk5)都需要一箇三層網絡來連接相同的131,072個GPU,所有設備之間都使用200Gb/秒的端口:DelVecchio表示,這是一箇每個端點配備一條200Gb/秒鏈路的示例,爲了獲得更高的帶寬,集羣通常會增加平面數量。因此,例如,如果您希望一箇端點的總帶寬爲800Gb/秒,則需要將每層交換機的數量乘以4;如果您希望達到1.6Tb/秒(類似於Nvidia使用NVLink5端口實現的速度),則需要乘以8。如您所見,三層網絡中的交換機數量比兩層網絡高得多,是後者的3.3倍,這還只是純粹的成本。或許更重要的是,在超級主幹層和主幹層中使用的光收發器數量,在交換容量僅爲51.2Tb/秒的舊式ASIC中,要高出1.7倍。DelVecchio表示,這些光器件消耗了整個網絡約70%的電力。電力就是金錢,光器件數量越多,發生故障並導致人工智能處理停止的可能性就越高。因此,使用N代ASIC的兩層網絡的電力消耗大約是基於N-1代ASIC的三層網絡的一半。由此可見,超大規模計算平臺和雲構建商爲何希望儘快在其最先進的AI集羣中推出Tomahawk6,這些集羣的GPU數量已達到10萬甚至更多。DelVecchio表示,OEM廠商可能會在2026年第一季度準備好產品,並在2026年第二季度完成部署,但所有廠商都在儘可能加快速度。https://www.nextplatform.com/2025/06/03/the-ai-datacenter-is-ravenous-for-102-4-tb-sec-ethernet/半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4055期內容,歡迎關注。『半導體第一垂直媒體』實時專業原創深度公衆號ID:icbank喜歡我們的內容就點“在看”分享給小夥伴哦 (本文内容不代表本站观点。) --------------------------------- |