<form id="htlkx"><th id="htlkx"></th></form>
    1. <tfoot id="htlkx"><menuitem id="htlkx"></menuitem></tfoot>

      1. <th id="htlkx"><progress id="htlkx"></progress></th>
        <tfoot id="htlkx"><menuitem id="htlkx"></menuitem></tfoot>
        <em id="htlkx"></em>
        <kbd id="htlkx"><form id="htlkx"></form></kbd>
      2. <del id="htlkx"><pre id="htlkx"></pre></del>
      3. <th id="htlkx"><progress id="htlkx"></progress></th>
          <del id="htlkx"></del>
          壹象網(wǎng)

          微信掃一掃

          微信小程序
          天下好貨一手掌握

          掃一掃關(guān)注

          掃一掃微信關(guān)注
          天下好貨一手掌握

          萬卡級AI算力底座:雙平面 / 多平面網(wǎng)絡(luò)架構(gòu)全景拆解

             2026-01-08 70
          核心提示:2025 年,GPT-4 級別模型的參數(shù)已突破 10 萬億,單次訓(xùn)練需動(dòng)用 1.2 萬顆 GPU 連續(xù)跑 90 天。此時(shí),網(wǎng)絡(luò)不再是“配角”,而是與算力、存儲(chǔ)并列的“第一性資源”——AllReduce 每拖 1 μs,整體 GPU 利用率就下降 0.7

          2025 年,GPT-4 級別模型的參數(shù)已突破 10 萬億,單次訓(xùn)練需動(dòng)用 1.2 萬顆 GPU 連續(xù)跑 90 天。此時(shí),網(wǎng)絡(luò)不再是“配角”,而是與算力、存儲(chǔ)并列的“第一性資源”——AllReduce 每拖 1 μs,整體 GPU 利用率就下降 0.7%;一次 3 秒的鏈路抖動(dòng),可直接浪費(fèi) 1200 萬元電費(fèi)。傳統(tǒng)三層 CLOS 已觸達(dá)擴(kuò)展極限,雙平面/多平面(Dual-Plane / Multi-Plane)網(wǎng)絡(luò)應(yīng)運(yùn)而生,成為智算中心的新范式。


          萬卡級AI算力底座:雙平面 / 多平面網(wǎng)絡(luò)架構(gòu)全景拆解


          技術(shù)拆解:雙平面如何“三殺”傳統(tǒng)痛點(diǎn)


          延遲——路徑確定


          傳統(tǒng) ECMP 五元組哈希在大象流面前極易碰撞,導(dǎo)致部分鏈路空閑、部分鏈路溢出。雙平面把 ToR 一分為二,同一 GPU 服務(wù)器的兩個(gè)端口固定走各自平面,宏觀上實(shí)現(xiàn)“流量守恒”,微觀上無需逐包哈希,端到端微秒級抖動(dòng) <1 μs。

          丟包——隊(duì)列減半


          實(shí)測 512 顆 GPU 跑 4 個(gè) AllReduce,雙平面使 ToR 下行隊(duì)列長度從 3.2 MB 降到 260 kB,緩沖區(qū)溢出概率下降兩個(gè)數(shù)量級。

          故障域——1+1=1.5


          任意一個(gè) ToR 或上聯(lián)鏈路失效,主機(jī)只需本地刷新 ECMP 組,無需全局控制器介入,收斂時(shí)間從 600 ms 縮短到 30 ms,訓(xùn)練任務(wù)只損失 5% 步長,而傳統(tǒng)架構(gòu)損失 30% 以上。

          多平面再進(jìn)化:把“一張網(wǎng)”拆成“四張網(wǎng)”


          華為 CloudMatrix384 提出“三平面”模型,為不同流量量身定制網(wǎng)絡(luò)服務(wù):

          UB 平面(Scale-Up)


          全互聯(lián) 384 顆 NPU,單端口 196 GB/s,專供 Tensor/Expert Parallel 細(xì)粒度通信,延遲 <2 μs。

          RDMA 平面(Scale-Out)


          200 G RoCEv2,負(fù)責(zé)分布式訓(xùn)練、KV-Cache 橫向搬運(yùn);與 UB 平面物理隔離,防止長流沖擊短流。

          VPC 平面(帶外管理)


          10/25 G,跑控制、監(jiān)控、存儲(chǔ),發(fā)生故障時(shí)不影響計(jì)算面。

          在北京數(shù)字經(jīng)濟(jì)算力中心,四張物理獨(dú)立網(wǎng)絡(luò)(計(jì)算、存儲(chǔ)、業(yè)務(wù)、管理)分別采用 400 G、200 G、100 G、10 G 多平面部署,實(shí)現(xiàn)“零搶占、零抖動(dòng)、零接觸”運(yùn)維,全年網(wǎng)絡(luò)故障導(dǎo)致的訓(xùn)練中斷 <2 次。

          運(yùn)維與治理:讓“硬”拓?fù)溟L出“軟”智能


          端網(wǎng)協(xié)同 Crux 調(diào)度器


          阿里云把“通信-計(jì)算”建模成 one-hot 向量,實(shí)時(shí)感知 GPU 計(jì)算密度,優(yōu)先調(diào)度高密任務(wù),GPU 利用率再提 8.3-14.8%。

          亞毫秒級故障自愈


          交換機(jī)芯片本地監(jiān)測 BER>1E-9 即觸發(fā) ARN(Adaptive Routing Notification),通知網(wǎng)卡切換平面,端到端自愈 <1 ms。

          光模塊數(shù)字孿生


          基于 CMIS 標(biāo)準(zhǔn)實(shí)時(shí)采集溫度、OSNR、BER,AI 預(yù)測 7 天內(nèi)劣化概率,提前更換,現(xiàn)場故障率下降 70%。

          FinOps 多租戶


          在多平面基礎(chǔ)上做 VPC 切片,按“帶寬+時(shí)延”組合計(jì)費(fèi),訓(xùn)練租戶與推理租戶錯(cuò)峰,全網(wǎng)利用率提升 22%。

          未來展望:多平面的“下一站”


          光電混合多層平面


          硅光 OCS 現(xiàn)場可重構(gòu),依據(jù)模型大小動(dòng)態(tài)改變拓?fù)?,白?Fat-Tree、晚上 Torus,一張物理網(wǎng)“日切”兩次。

          智能平面 0


          利用 inline AI 芯片在交換機(jī)上做實(shí)時(shí)推理,平面 0 專跑“網(wǎng)絡(luò)自管理”流量,實(shí)現(xiàn)“網(wǎng)絡(luò)自己訓(xùn)練自己”。

          800 G/1.6 T 超雙平面


          2026 年 51.2 T 芯片將演進(jìn)到 102.4 T,單端口 800 G 物理層原生雙 400 G,雙平面天然向“超雙平面”升級,GPU 帶寬再翻倍。

          綠色多平面


          根據(jù)流量預(yù)測動(dòng)態(tài)關(guān)閉平面或降頻,夜間低負(fù)載關(guān)閉 30% 交換機(jī),全年省電 1200 萬度,相當(dāng)于減少 1 萬噸 CO?。

          結(jié)語:把“網(wǎng)絡(luò)”做成“第一算力”


          雙平面與多平面網(wǎng)絡(luò)不是簡單的“多買一套交換機(jī)”,而是讓“拓?fù)涓兄獦I(yè)務(wù)、讓平面匹配流量”,把原本浪費(fèi)在哈希極化、故障收斂、隊(duì)列緩沖上的 GPU 時(shí)間重新“搶”回來。當(dāng)大模型參數(shù)以每 10 個(gè)月 4 倍的速度膨脹時(shí),誰先完成從“單平面”到“多平面”的躍遷,誰就握住了下一代智算中心的“時(shí)間鑰匙”


           
          舉報(bào)收藏 0打賞 0評論 0
          免責(zé)聲明
          本文為小編互聯(lián)網(wǎng)轉(zhuǎn)載作品,作者: 小編。歡迎轉(zhuǎn)載,轉(zhuǎn)載請注明原文出處:http://www.scbhcity.com/news/show-29944.html 。本網(wǎng)站部分內(nèi)容來源于合作媒體、企業(yè)機(jī)構(gòu)、網(wǎng)友提供和互聯(lián)網(wǎng)的公開資料等,僅供參考。本網(wǎng)站對站內(nèi)所有資訊的內(nèi)容、觀點(diǎn)保持中立,不對內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。如果有侵權(quán)等問題,請及時(shí)聯(lián)系我們,我們將在收到通知后第一時(shí)間妥善處理該部分內(nèi)容。[email protected]。
           
          更多>同類防護(hù)頭條
          • admin
            加關(guān)注0
          • 沒有留下簽名~~
          推薦圖文
          推薦防護(hù)頭條
          點(diǎn)擊排行
          信息二維碼

          手機(jī)掃一掃

          快速投稿

          你可能不是行業(yè)專家,但你一定有獨(dú)特的觀點(diǎn)和視角,趕緊和業(yè)內(nèi)人士分享吧!

          我要投稿

          投稿須知

          微信公眾號:壹象網(wǎng)
          微博:壹象網(wǎng)

          鄂ICP備15023168號公網(wǎng)安備42010302002114號

            <form id="htlkx"><th id="htlkx"></th></form>
            1. <tfoot id="htlkx"><menuitem id="htlkx"></menuitem></tfoot>

              1. <th id="htlkx"><progress id="htlkx"></progress></th>
                <tfoot id="htlkx"><menuitem id="htlkx"></menuitem></tfoot>
                <em id="htlkx"></em>
                <kbd id="htlkx"><form id="htlkx"></form></kbd>
              2. <del id="htlkx"><pre id="htlkx"></pre></del>
              3. <th id="htlkx"><progress id="htlkx"></progress></th>
                  <del id="htlkx"></del>
                  永久免费无人区一区 | 免费在线观看视频黄 | 亚洲国产成人AⅤ毛片大全密桃 | 欧美乱插| 久热精品视频在线观看 |