栏目分类

热点资讯

av女星

巨乳乳首深入探秘公共最大AI超等集群xAI Colossus

发布日期：2024-11-04 19:40 点击次数：177

xAI Colossus 数据中心概况

一、GPU策画系统

GPU：Colossus面前部署了10万个NVIDIA Hopper GPU，并筹画推广至20万个，其中包括5万个H100和5万个H200。扫数GPU都集成在NVIDIA HGX H100平台上，每个平台包含8个GPU。

机架设置：每个机架可容纳64个GPU，8个机架组成一个阵列，悉数512个GPU。Colossus共有跳跃1500个机架，接近200个阵列。

做事器：超微4U通用GPU液冷系统。做事器里面结构包括：

8-GPU NVIDIA HGX托盘：采纳超微定制液冷模块，每个托盘包含8个NVIDIA H100或Hopper GPU以及NVIDIA NVLink交换机。

CPU托盘：配备两个x86 CPU液冷块和一个用于冷却四个Broadcom PCIe交换机的定制液冷块。

可儿慕性：超微系统采纳可儿慕托盘联想，无需将整机从机架上移除即可进行瞻仰。每个做事器配备了四个热插拔电源。

网罗：每个做事器配备9个400GbE网罗团结，总带宽达到3.6Tbps。其中8个NVIDIA BlueField-3 SuperNIC用于AI网罗，另外1个Mellanox ConnectX-7网卡提供CPU端的其他网罗功能。

二、CPU策画系统

做事器：超微1U做事器，每机架42台。

CPU：采纳高速x86 CPU，具体型号未知。

网罗：每个做事器配备一个400GbE网卡。

散热：CPU做事器采纳风冷联想，通过机架后部的热交换器将热量传递到液冷回路中。

三、存储系统

畛域：EB级存储。

介质：NVMe SSD。

做事器：超微1U做事器。

特质：为得志AI教师对存储容量的巨大需求，Colossus的存储主要通过网罗委用，供扫数GPU和CPU做事器造访。

四、网罗系统

GPU网罗：

技巧：采纳400GbE以太网，使用NVIDIA Spectrum-X网罗经管决策，赞助RDMA技巧。

交换机：NVIDIA Spectrum-X SN5600以太网交换机，每个交换机领有64个端口，赞助高达800Gb/s的速率，并可分割成128个400GbE链路。

网卡：NVIDIA BlueField-3 SuperNIC，为每个GPU提供专用网罗团结。

存储网罗：采纳400GbE以太网，使用64端口800GbE以太网交换机。

特质：Colossus的网罗系统采纳以太网而非InfiniBand等技巧，这主若是因为以太网具有更好的可推广性，能够得志Colossus弘大的畛域需求。GPU网罗和CPU网罗分辩，以确保高性能策画集群的最好性能。

五、冷却系统

GPU做事器：

散热步地：液冷散热。

CDU：每个机架底部配备超微CDU和冗余泵系统。

冷却液轮回：冷却液通过机架分拨管谈进入每个做事器的分拨器，再流经做事器里面的8-GPU NVIDIA HGX托盘和CPU托盘的液冷块，最终回到CDU。

其他：机架中仍保留了电扇系统，用于冷却内存、电源单位、主板经管罢休器、网卡等低功耗组件。

CPU做事器、网罗开拓和存储系统：风冷散热，通过机架后部的热交换器将热量传递到液冷回路中。热交换器雷同于汽车散热器，通过电扇将热空气抽过散热片，并将热量传递给轮回水。

机房：采纳冷水轮回系统，CDU将热量传递到轮回水中，开水在局势外部冷却后轮回诈欺。弘大的给水管谈将冷水引入局势，并轮回流经每个机架中的CDU，经受热量后，开水被陶冶至局势外部的冷却开拓。

六、电力系统

供电：采纳三相电源，每个机架配备多个电源条。

储能：使用特斯拉Megapack电板组算作超等策画机和电网之间的能量缓冲器，每个Megapack可存储高达3.9MWh的电能。Megapack的引入是为了经管GPU做事器功耗波动对电网酿成的压力。

七、其他

监控系统：每个机架的CDU都有孤独的监控系统，不错监控流量、温度等参数。此外，机架后部配备LED指令灯，用于泄露开拓状态，蓝色代表普通运行，红色暗示故障。

xAI Colossus数据中心策画大厅

通过对xAI Colossus超等策画机的深度打听，咱们近距离感受到了xAI公司在田纳西州孟菲斯部署的大畛域AI算力所带来的震荡。

这个总投资数亿好意思元、配备十万片NVIDIA H100 GPU的AI策画集群，不仅以其畛域令业界堤防，其确立速率更是创下纪录——其团队仅用122天就完成了通盘集群的部署。现在，让咱们一都走进这座局势里面。

xAI的液冷机架技巧

Colossus策画集群的中枢构建单位是超微（Supermicro）的液冷机架系统。每个机架集成了八台4U做事器，单台做事器搭载八片NVIDIA H100 GPU，使单机架总GPU容量达到64片。一个完整的GPU策画机架由八台GPU做事器、一个超微冷却分拨单位（Cooling Distribution Unit， CDU）及配套开拓组成。

xAI Colossus数据中心超微液冷节点低角度

这些机架以八台为一组部署，每组可赞助512片GPU，并配备网罗互联局势，以便在更大畛域系统中形成策画子集群。

xAI Colossus数据中心超微4U通用GPU液冷做事器巨乳乳首

xAI采纳的是超微的4U通用GPU系统，这是现时市面上首先进的AI策画做事器，其上风主要体现在两个方面：当先的液冷技巧和不凡的可儿慕性。

xAI Colossus数据中心超微4U通用GPU液冷做事器

这些系统的原型初度亮相于2023年超等策画大会（SC23）。由于咱们参不雅时系统正在推行教师任务，未能在孟菲斯现场开箱展示。值得一提的是，系统采纳了可做事化托盘联想，无需将整机从机架移除即可进行瞻仰。1U机架分拨管谈厚爱为每个系统运送冷却液并回收热液。快速断开照应使得液冷系统的拆装变得方便，客岁咱们就演示过单手操作这些照应的便利性。断开照应后，托盘可平凡抽出进行瞻仰。

超微4U通用GPU系统，用于液冷的NVIDIA HGX H100和HGX 200（展示于SC23）

这些做事器原型的图片贵寓，不错展示系统里面结构。除了采纳超微定制液冷模块的8-GPU NVIDIA HGX托盘外，CPU托盘的联想充分展现了行业当先的下一代工程理念。

超微4U通用GPU系统，用于液冷的NVIDIA HGX H100和HGX 200（展示于SC23）

SC23原型中的两个x86 CPU液冷块格外常见。私有之处在于右侧。超微的主板集成了四个Broadcom PCIe交换机，这些交换机真实用于现在扫数的HGX AI做事器，而不是将它们放在单独的板上。超微然后有一个定制的液冷块来冷却这四个PCIe交换机。行业中的其他AI做事器是先构建，然后将液冷添加到风冷联想中。超微的联想从一入手即是为液冷联想的，而况全部来自一个供应商。

超微SYS 821GE TNHR，NVIDIA H100和NVSwitch液冷模块

这不错类比汽车领域：有些电动车是在传统燃油车底盘上改装而成，而有些则是原生联想的纯电动车。超微的系统属于后者，而其他HGX H100系统则雷同前者。咱们内容测试过大多数公开的HGX H100/H200平台和一些超大畛域联想，超微系统的上风相较其他系统（包括超微我方的其他液冷或风冷联想）权贵可见。

机架后部设有400GbE光纤，用于GPU和CPU组件的互联，以及用于经管网罗的铜缆。网罗接口卡（Network Interface Card， NIC）采纳孤独托盘联想，可在不拆卸机箱的情况下快速更换，装配位置在机箱后部。每台做事器配备四个热插拔电源，由三相配电单位（PDU）供电。

xAI Colossus数据中心超微4U通用GPU液冷做事器后视图

机架底部装配有冷却分拨单位（CDU），这些CDU内容上是大型热交换器。每个机架都有孤独的流体轮回系统，为扫数GPU做事器提供冷却。这里使用"流体"而非"水"，是因为轮回系统需要凭证液冷块、管谈、分拨器等硬件秉性选用特定的冷却液。

xAI Colossus数据中心超微CDU位于机架底部

每个CDU配备冗余泵和电源，赞助单泵故障时在不时机的情况下进行更换。

拆卸超微CDU泵

xAI的机架功能丰富，在2023年的联系视频中，咱们详确展示了超微CDU的结构，包括机房水路和机架分拨管谈的相差水接口，以及每个CDU的热插拔冗余电源。

av国产

超微CDU 2023后视图

Colossus机架中的CDU被各式管线和线缆遮盖着。

xAI Colossus数据中心超微CDU后视图

机架两侧配备三相PDU和机架分拨管谈。前置的1U分拨管谈为4U通用GPU系统供液，该分拨管谈则由团结CDU的机架分拨管谈供给。扫数组件采纳红蓝配色标志，红色暗示热流体回路，蓝色暗示冷流体供给。

xAI Colossus数据中心超微机架分拨器软管

机架中仍保留了电扇系统，用于冷却内存（DIMM）、电源单位、主板经管罢休器（BMC）、网卡等低功耗组件。在Colossus中，每个机架需要保抓冷却均衡，幸免使用大功率空气处理开拓。做事器电扇从前部吸入冷空气，从后部排出，随后经事后门热交换器处理。

xAI 数据中心参不雅后门热交换器

后门热交换器的道理雷同汽车散热器，将机架排出的热空气通过带散热片的热交换器处理。热交换器中的流体可将热量飘荡至机房水路系统。空气通过开拓后部的电扇抽入。这些开拓具有LED指令功能，普通运行时泄露蓝光，需要瞻仰时会转为其他颜料（如红色）。

在施工现场参不雅时，固然我莫得开启几台机架，但看到这些热交换器在机架上线时呈现出不同的颜料变化，照旧认为终点故道理。

xAI 数据中心参不雅后门热交换器

这些后门热交换器在数据中心中饰演着双重脚色：不仅处理超微液冷GPU做事器的余热，还不错处理存储系统、CPU策画集群和网罗开拓产生的热量。

xAI的存储系统

在典型的AI策画集群中，大型存储阵列是标配。在此神情中，固然运行着来自不同厂商的存储软件，但绝大部分存储做事器硬件均由超微提供。这很好麇集，因为超微是多家存储开拓供应商的OEM。

xAI Colossus数据中心超微1U NVMe存储节点

实地检会时一个引东谈主正经的细节是，部分存储做事器的外不雅与CPU策画做事器极为相似。

xAI Colossus数据中心超微1U NVMe存储节点

从咱们的图片和视频纪录不错看到大量2.5英寸NVMe硬盘托架。大畛域AI策画集群正在履历从机械硬盘存储向闪存存储（SSD）的转型。闪存存储不仅能权贵降奸诈耗，还能提供更高的性能和存储密度。固然每PB闪存的启动参预较高，但从TCO角度来看，在此畛域的集群中，闪存常常是更具经济效益的遴荐。

xAI的CPU策画系统

在大畛域策画集群中，传统CPU策画节点依然占据蹙迫位置。比拟GPU，CPU在数据处理和操作任务方面仍具私有上风。此外，将GPU资源专注于AI教师或推理（Training/Inference）责任负载，而由CPU承担其他策画任务，是一种更为高效的资源分拨策略。

xAI Colossus数据中心CPU策画机架

在神情现场，咱们看到了整排的1U做事器。每台做事器的联想都在策画密度和散热需求之间达到了精妙的均衡。以机箱正面为例，约三分之一的面板用于冷空气进气，其余部分则吩咐了带有橙色标志的NVMe硬盘托架。

xAI Colossus数据中心CPU策画机架

这些1U策画做事器采纳风冷联想，通事后门热交换器（Rear Door Heat Exchanger）将热量飘荡至机房水冷系统（Facility Water Loop）。这种联想使得xAI能够在归并数据中心基础局势中，同期兼容液冷和风冷开拓的散热需求。

xAI的网罗

网罗是此神情最为引东谈主温煦的部分之一。固然基础技巧仍所以太网（Ethernet），与普通电脑使用的网罗公约疏导，但这里采纳的是400GbE网罗，其传输速率是常见1GbE网罗的400倍。每个系统配备九个这么的团结，使单台GPU策画做事器的总带宽达到惊东谈主的3.6Tbps。

xAI Colossus数据中心网卡（NIC）

GPU的数据传输主要依赖于RDMA网罗。每个GPU都配备专用网卡，神情采纳NVIDIA BlueField-3 SuperNIC和Spectrum-X网罗经管决策。NVIDIA的网罗技巧栈具有私有上风，能确保数据在集群内高效精确地传输。

xAI Colossus数据中心交换机光纤

值得珍惜的是，与多数采纳InfiniBand等技巧的超等策画机不同，此神情遴荐了以太网。这一遴荐极具策略真谛——以太网算作互联网的基础公约，具有不凡的可推广性。现在畛域弘大的AI集群仍是超出了好多复杂专有技巧的遮蔽范围，xAI团队在这方面作念出了富饶远见的尝试。

除GPU的RDMA网罗外，CPU系统也配备了孤独的400GbE网罗，使用澈底不同的交换架构。这种GPU网罗与普通集群网罗分辩的联想，是高性能策画（HPC）集群中的最好执行。

xAI Colossus数据中心单模和多模光纤

为了直不雅麇集400GbE的性能，单条链路的带宽就跳跃了2021岁首发布的顶级Intel Xeon做事器处理器的全部PCIe通谈总额，而每台做事器配备了九条这么的团结。

xAI Colossus数据中心交换机堆叠

如斯密集的网罗互联需要大量光纤布线。每条光纤都经过精着实割、端接处理和标志经管。

xAI Colossus数据中心光纤布线

我8月份遭遇了一些从事这项责任的东谈主员。他们的结构化布线老是作念得终点整洁。

xAI Colossus数据中心光纤布线

除高速集群网罗外，局势还部署了用于经管接口和环境开拓的低速网罗，这是大畛域集群的必备组成部分。

在实地检会中，液冷网罗交换机的需求不言而喻。咱们最近评测的64端口800GbE交换机，其性能与多数AI集群使用的51.2T级交换机格外。行业靠近的挑战是如何同期经管交换芯片和光学组件的散热问题，后者在当代交换机中的功耗经常更高。这么畛域的部署大致能推动协同封装光学（Co-packaged Optics）技巧的发展，使交换机冷却能与液冷策画系统完满集成。咱们此前见过液冷协同封装光学交换机的原型展示，期待本次部署能促进这些技巧从实验走向量产。

xAI Colossus的机房局势

由于咱们采纳液冷的AI做事器机架，电力和局势用水关于装配至关蹙迫。这里展示了弘大的给水管谈，分为冷水和开水两组。冷水被引入局势，并轮回流经每个机架中的冷却液分拨单位（CDU）。热量从GPU和后门热交换器回路传递至CDU的局势用水回路。开水随后被陶冶至局势外部的冷却开拓。值得珍惜的是，这些冷却开拓并非用于制冰，而是旨在将水温镌汰至足以再次轮回诈欺的进度。

xAI Colossus数据中心局势用水管谈

电力系统通常引东谈主正经。在咱们孟菲斯之行中，目击了团队将巨大的电缆搬入到位。

xAI Colossus数据中心的电气基础局势

在机房局势外，咱们看到了装载特斯拉Megapack的集装箱。这是团队在确立这个弘大集群历程中的一项蹙迫发现。AI做事器的电力破钞并非恒定，而是会随责任负载的波动而变化。由于现场部署了大量GPU，电力峰谷表象十分明显。团队发现，毫秒级的电力峰值和低谷对系统酿成了权贵压力，因此引入特斯拉Megapack以缓冲电力峰值，从而提高系统的牢固性。

准备在xAI Colossus装配的特斯拉Megapack

天然，这只是是局势确立的入手。尽管在咱们造访时，四个25，000 GPU数据中心的启动集群已参预使用，能够赞助约100，000个GPU，但集群的推广责任正在快速鼓吹。

在孟菲斯xAI Colossus数据中心的外部

这无疑是一个令东谈主奋斗的来源。

追想

在这个历程中，我深刻体会到，xAI团队在和谐稠密供应商方面付出了巨大尽力。如斯弘大的AI集群的建成，离不开各领域各人的通力互助，他们以令东谈主难以置信的速率共同创造了一个古迹。如果仅从我拍摄视频的那天所见，很难思象背后凝华了如斯多的心血。

AI社区广漠认为，跟着策画身手的不时进步，大谈话模子（LLMs）的后劲将远不啻于聊天机器东谈主。散步在Colossus中，我深远感受到，只消当东谈主们看到了数据驱动的巨大价值，才会参预如斯巨大的资源进行确立。Grok和xAI团队的明天无疑将超过浮浅的聊天机器东谈主。稠密才调之士正倾注大量心血和财力，力求尽快已毕这一愿景。

来源：Andy730巨乳乳首，原文标题：《深入探秘公共最大AI超等集群xAI Colossus》

风险请示及免责条目市集有风险，投资需严慎。本文不组成个东谈主投资提议，也未探究到个别用户稀奇的投资主义、财务景色或需要。用户应试虑本文中的任何认识、不雅点或论断是否合乎其特定景色。据此投资，职守欢叫。

上一篇：户外勾引成者扫描仪哪个系列好？老司机带你避坑不迷途
下一篇：步非烟足交怀宁县金拱镇：监测耕地质料促进食粮增产 _大皖新闻 | 安徽网

巨乳 乳首 深入探秘公共最大AI超等集群xAI Colossus

巨乳乳首深入探秘公共最大AI超等集群xAI Colossus