谷歌公開瞄準‘代理型AI’的超大型數據中心網絡‘Vergo’……強化延遲與故障應對能力

robot
摘要生成中

谷歌公布了針對‘智能體人工智慧(Agentic AI)’時代的超大型資料中心網路與跨雲基礎設施。隨著人工智慧以毫秒為單位調用外部工具的環境日益普及,圍繞減少延遲並穩定處理大規模運算的基礎設施競爭正全面展開。

谷歌於24日發布了其全新AI基礎設施網路系統‘Virgo網路’。該系統旨在提升加速器集群內部,乃至記憶、計算、存儲資源之間往復的資料中心整體通訊速度。

核心在於‘扁平化’網路結構。該方法通過減少資料傳輸過程中經過的層級數量來降低瓶頸。據谷歌稱,Virgo網路最多可連接13萬4000個晶片,其中包括用於訓練的第8代TPU 8t處理器。其雙向帶寬每秒最高可達47拍比特(Pbps)。公司方面表示,與前代相比,每個加速器的帶寬提升了4倍以上。

此次發布值得注意的部分是,除了單純的速度競爭外,還全面強調了‘復原力’。在超大規模AI集群中,故障、延遲以及部分設備的速度下降幾乎是不可避免的。谷歌表示,為解決這一問題,他們結合了精細觀測網路整體狀態的‘可見性’功能與自動迂回/恢復軟體。其特點還包括應用了獨立的交換平面,以確保即使發生網路延遲或故障,整體吞吐量也不會急劇波動。

谷歌將Virgo網路描述為並非現有資料中心的簡單擴展,而是一個獨立的基礎設施產品,其設計理念是‘將整個園區像一台超級電腦一樣’進行設計。該公司主張,通過以小於1毫秒為單位監控系統狀態,可以在硬體和軟體的全程中優化瞬時擁塞和緩衝區管理問題。這在需要智能體AI同時處理工具調用、推理和檢索增強生成(RAG)任務的環境中尤其重要。

同時發布打破雲邊界的連結與安全層

除了資料中心網路,谷歌還發布了面向智能體AI工作負載的雲連結與安全層。該公司將此次更新歸納為四個支柱:‘彈性計算’、‘安全跨雲連結’、‘統一資料層’和‘數位主權’。

首先,‘彈性計算’是一種旨在更高效處理AI代理(Agent)需求波動性的架構。AI服務時常出現瞬間請求激增的情況,谷歌解釋稱,他們通過提高CPU的可存取性,使其能夠更快速、更經濟地應對這種需求。特別是,其設計提供了針對推理、代理編排和檢索增強生成等任務優化的CPU資源,以補充圖形處理器(GPU)的不足。

為此,谷歌在基於Google Compute Engine和Google Kubernetes Service的虛擬機(VM)上應用了C4N和M4N CPU。谷歌表示,該系統每秒能處理高達9500萬個資料包,比主要超大規模雲服務商快出最多40%。

在安全跨雲連結領域,‘代理閘道’被置於核心位置。這個控制器負責監控AI代理的存取權限,並從根本上控制和管理模型上下文協議(MCP)和代理間協議(A2A)等協議。其說明指出,該閘道能在多雲環境中,確保跨不同網路流動的資料流具備可見性並受到保護。

‘AI走向資料所在之處’而非‘移動資料’

統一資料層則聚焦於使AI能夠直接理解並利用企業分散在多個存儲庫中的資料。谷歌表示,‘智慧存儲’為資料物件注入元資料,從而將傳統的‘靜態資料’轉化為AI可讀取的知識資產。

這一架構一旦建立,就能對電子表格、文件、PDF、圖像等各種格式的資訊應用基於語義的搜尋,並實現自動註解和洞察提取。這種方式旨在減少資料被禁錮在特定存儲庫的‘孤島’現象,幫助AI代理更快地找到所需資訊。

一同公開的‘知識目錄’以圖形形式連結企業內部知識,幫助AI代理更好地理解業務流程和上下文。谷歌強調,通過這種方式,無需單獨移動資料即可實現AI學習和回應的優化。換句話說,其方法不是將資料移至中央位置,而是讓AI模型進入資料所在的‘私有環境’中運行。

此次發布表明,AI競爭的焦點正迅速從模型性能轉向支撐模型運行的網路、安全和資料基礎設施。特別是隨著‘智能體AI’在企業業務中的正式引入,低延遲、高復原力以及多雲管控極有可能成為核心競爭力。谷歌的這一舉動,被解讀為圍繞AI基礎設施主導權的大型科技公司競爭愈發激烈的信號。

TP AI注意事項 本文使用基於TokenPost.ai的語言模型進行摘要。正文主要內容可能被遺漏或與事實不符。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言