av女星

巨乳 乳首 深入探秘公共最大AI超等集群xAI Colossus

发布日期:2024-11-04 19:40    点击次数:172

巨乳 乳首 深入探秘公共最大AI超等集群xAI Colossus

xAI Colossus 数据中心概况

一、GPU策画系统

GPU:Colossus面前部署了10万个NVIDIA Hopper GPU,并筹画推广至20万个,其中包括5万个H100和5万个H200。扫数GPU都集成在NVIDIA HGX H100平台上,每个平台包含8个GPU。

机架设置:每个机架可容纳64个GPU,8个机架组成一个阵列,悉数512个GPU。Colossus共有跳跃1500个机架,接近200个阵列。

做事器:超微4U通用GPU液冷系统。做事器里面结构包括:

8-GPU NVIDIA HGX托盘:采纳超微定制液冷模块,每个托盘包含8个NVIDIA H100或Hopper GPU以及NVIDIA NVLink交换机。

CPU托盘:配备两个x86 CPU液冷块和一个用于冷却四个Broadcom PCIe交换机的定制液冷块。

可儿慕性:超微系统采纳可儿慕托盘联想,无需将整机从机架上移除即可进行瞻仰。每个做事器配备了四个热插拔电源。

网罗:每个做事器配备9个400GbE网罗团结,总带宽达到3.6Tbps。其中8个NVIDIA BlueField-3 SuperNIC用于AI网罗,另外1个Mellanox ConnectX-7网卡提供CPU端的其他网罗功能。

二、CPU策画系统

做事器:超微1U做事器,每机架42台。

CPU:采纳高速x86 CPU,具体型号未知。

网罗:每个做事器配备一个400GbE网卡。

散热:CPU做事器采纳风冷联想,通过机架后部的热交换器将热量传递到液冷回路中。

三、存储系统

畛域:EB级存储。

介质:NVMe SSD。

做事器:超微1U做事器。

特质:为得志AI教师对存储容量的巨大需求,Colossus的存储主要通过网罗委用,供扫数GPU和CPU做事器造访。

四、网罗系统

GPU网罗:

技巧:采纳400GbE以太网,使用NVIDIA Spectrum-X网罗经管决策,赞助RDMA技巧。

交换机:NVIDIA Spectrum-X SN5600以太网交换机,每个交换机领有64个端口,赞助高达800Gb/s的速率,并可分割成128个400GbE链路。

网卡:NVIDIA BlueField-3 SuperNIC,为每个GPU提供专用网罗团结。

存储网罗:采纳400GbE以太网,使用64端口800GbE以太网交换机。

特质:Colossus的网罗系统采纳以太网而非InfiniBand等技巧,这主若是因为以太网具有更好的可推广性,能够得志Colossus弘大的畛域需求。GPU网罗和CPU网罗分辩,以确保高性能策画集群的最好性能。

五、冷却系统

GPU做事器:

散热步地:液冷散热。

CDU:每个机架底部配备超微CDU和冗余泵系统。

冷却液轮回:冷却液通过机架分拨管谈进入每个做事器的分拨器,再流经做事器里面的8-GPU NVIDIA HGX托盘和CPU托盘的液冷块,最终回到CDU。

其他:机架中仍保留了电扇系统,用于冷却内存、电源单位、主板经管罢休器、网卡等低功耗组件。

CPU做事器、网罗开拓和存储系统:风冷散热,通过机架后部的热交换器将热量传递到液冷回路中。热交换器雷同于汽车散热器,通过电扇将热空气抽过散热片,并将热量传递给轮回水。

机房:采纳冷水轮回系统,CDU将热量传递到轮回水中,开水在局势外部冷却后轮回诈欺。弘大的给水管谈将冷水引入局势,并轮回流经每个机架中的CDU,经受热量后,开水被陶冶至局势外部的冷却开拓。

六、电力系统

供电:采纳三相电源,每个机架配备多个电源条。

储能:使用特斯拉Megapack电板组算作超等策画机和电网之间的能量缓冲器,每个Megapack可存储高达3.9MWh的电能。Megapack的引入是为了经管GPU做事器功耗波动对电网酿成的压力。

七、其他

监控系统:每个机架的CDU都有孤独的监控系统,不错监控流量、温度等参数。此外,机架后部配备LED指令灯,用于泄露开拓状态,蓝色代表普通运行,红色暗示故障。

xAI Colossus数据中心策画大厅

通过对xAI Colossus超等策画机的深度打听,咱们近距离感受到了xAI公司在田纳西州孟菲斯部署的大畛域AI算力所带来的震荡。

这个总投资数亿好意思元、配备十万片NVIDIA H100 GPU的AI策画集群,不仅以其畛域令业界堤防,其确立速率更是创下纪录——其团队仅用122天就完成了通盘集群的部署。现在,让咱们一都走进这座局势里面。

xAI的液冷机架技巧

Colossus策画集群的中枢构建单位是超微(Supermicro)的液冷机架系统。每个机架集成了八台4U做事器,单台做事器搭载八片NVIDIA H100 GPU,使单机架总GPU容量达到64片。一个完整的GPU策画机架由八台GPU做事器、一个超微冷却分拨单位(Cooling Distribution Unit, CDU)及配套开拓组成。

xAI Colossus数据中心超微液冷节点低角度

这些机架以八台为一组部署,每组可赞助512片GPU,并配备网罗互联局势,以便在更大畛域系统中形成策画子集群。

xAI Colossus数据中心超微4U通用GPU液冷做事器巨乳 乳首

xAI采纳的是超微的4U通用GPU系统,这是现时市面上首先进的AI策画做事器,其上风主要体现在两个方面:当先的液冷技巧和不凡的可儿慕性。

xAI Colossus数据中心超微4U通用GPU液冷做事器

这些系统的原型初度亮相于2023年超等策画大会(SC23)。由于咱们参不雅时系统正在推行教师任务,未能在孟菲斯现场开箱展示。值得一提的是,系统采纳了可做事化托盘联想,无需将整机从机架移除即可进行瞻仰。1U机架分拨管谈厚爱为每个系统运送冷却液并回收热液。快速断开照应使得液冷系统的拆装变得方便,客岁咱们就演示过单手操作这些照应的便利性。断开照应后,托盘可平凡抽出进行瞻仰。

超微4U通用GPU系统,用于液冷的NVIDIA HGX H100和HGX 200(展示于SC23)

这些做事器原型的图片贵寓,不错展示系统里面结构。除了采纳超微定制液冷模块的8-GPU NVIDIA HGX托盘外,CPU托盘的联想充分展现了行业当先的下一代工程理念。

超微4U通用GPU系统,用于液冷的NVIDIA HGX H100和HGX 200(展示于SC23)

SC23原型中的两个x86 CPU液冷块格外常见。私有之处在于右侧。超微的主板集成了四个Broadcom PCIe交换机,这些交换机真实用于现在扫数的HGX AI做事器,而不是将它们放在单独的板上。超微然后有一个定制的液冷块来冷却这四个PCIe交换机。行业中的其他AI做事器是先构建,然后将液冷添加到风冷联想中。超微的联想从一入手即是为液冷联想的,而况全部来自一个供应商。

超微SYS 821GE TNHR,NVIDIA H100和NVSwitch液冷模块

这不错类比汽车领域:有些电动车是在传统燃油车底盘上改装而成,而有些则是原生联想的纯电动车。超微的系统属于后者,而其他HGX H100系统则雷同前者。咱们内容测试过大多数公开的HGX H100/H200平台和一些超大畛域联想,超微系统的上风相较其他系统(包括超微我方的其他液冷或风冷联想)权贵可见。

机架后部设有400GbE光纤,用于GPU和CPU组件的互联,以及用于经管网罗的铜缆。网罗接口卡(Network Interface Card, NIC)采纳孤独托盘联想,可在不拆卸机箱的情况下快速更换,装配位置在机箱后部。每台做事器配备四个热插拔电源,由三相配电单位(PDU)供电。

xAI Colossus数据中心超微4U通用GPU液冷做事器后视图

机架底部装配有冷却分拨单位(CDU),这些CDU内容上是大型热交换器。每个机架都有孤独的流体轮回系统,为扫数GPU做事器提供冷却。这里使用"流体"而非"水",是因为轮回系统需要凭证液冷块、管谈、分拨器等硬件秉性选用特定的冷却液。

xAI Colossus数据中心超微CDU位于机架底部

每个CDU配备冗余泵和电源,赞助单泵故障时在不时机的情况下进行更换。

拆卸超微CDU泵

xAI的机架功能丰富,在2023年的联系视频中,咱们详确展示了超微CDU的结构,包括机房水路和机架分拨管谈的相差水接口,以及每个CDU的热插拔冗余电源。

av国产

超微CDU 2023后视图

Colossus机架中的CDU被各式管线和线缆遮盖着。

xAI Colossus数据中心超微CDU后视图

机架两侧配备三相PDU和机架分拨管谈。前置的1U分拨管谈为4U通用GPU系统供液,该分拨管谈则由团结CDU的机架分拨管谈供给。扫数组件采纳红蓝配色标志,红色暗示热流体回路,蓝色暗示冷流体供给。

xAI Colossus数据中心超微机架分拨器软管

机架中仍保留了电扇系统,用于冷却内存(DIMM)、电源单位、主板经管罢休器(BMC)、网卡等低功耗组件。在Colossus中,每个机架需要保抓冷却均衡,幸免使用大功率空气处理开拓。做事器电扇从前部吸入冷空气,从后部排出,随后经事后门热交换器处理。

xAI 数据中心参不雅后门热交换器

后门热交换器的道理雷同汽车散热器,将机架排出的热空气通过带散热片的热交换器处理。热交换器中的流体可将热量飘荡至机房水路系统。空气通过开拓后部的电扇抽入。这些开拓具有LED指令功能,普通运行时泄露蓝光,需要瞻仰时会转为其他颜料(如红色)。

在施工现场参不雅时,固然我莫得开启几台机架,但看到这些热交换器在机架上线时呈现出不同的颜料变化,照旧认为终点故道理。

xAI 数据中心参不雅后门热交换器

这些后门热交换器在数据中心中饰演着双重脚色:不仅处理超微液冷GPU做事器的余热,还不错处理存储系统、CPU策画集群和网罗开拓产生的热量。

xAI的存储系统

在典型的AI策画集群中,大型存储阵列是标配。在此神情中,固然运行着来自不同厂商的存储软件,但绝大部分存储做事器硬件均由超微提供。这很好麇集,因为超微是多家存储开拓供应商的OEM。

xAI Colossus数据中心超微1U NVMe存储节点

实地检会时一个引东谈主正经的细节是,部分存储做事器的外不雅与CPU策画做事器极为相似。

xAI Colossus数据中心超微1U NVMe存储节点

从咱们的图片和视频纪录不错看到大量2.5英寸NVMe硬盘托架。大畛域AI策画集群正在履历从机械硬盘存储向闪存存储(SSD)的转型。闪存存储不仅能权贵降奸诈耗,还能提供更高的性能和存储密度。固然每PB闪存的启动参预较高,但从TCO角度来看,在此畛域的集群中,闪存常常是更具经济效益的遴荐。

xAI的CPU策画系统

在大畛域策画集群中,传统CPU策画节点依然占据蹙迫位置。比拟GPU,CPU在数据处理和操作任务方面仍具私有上风。此外,将GPU资源专注于AI教师或推理(Training/Inference)责任负载,而由CPU承担其他策画任务,是一种更为高效的资源分拨策略。

xAI Colossus数据中心CPU策画机架

在神情现场,咱们看到了整排的1U做事器。每台做事器的联想都在策画密度和散热需求之间达到了精妙的均衡。以机箱正面为例,约三分之一的面板用于冷空气进气,其余部分则吩咐了带有橙色标志的NVMe硬盘托架。

xAI Colossus数据中心CPU策画机架

这些1U策画做事器采纳风冷联想,通事后门热交换器(Rear Door Heat Exchanger)将热量飘荡至机房水冷系统(Facility Water Loop)。这种联想使得xAI能够在归并数据中心基础局势中,同期兼容液冷和风冷开拓的散热需求。

xAI的网罗

网罗是此神情最为引东谈主温煦的部分之一。固然基础技巧仍所以太网(Ethernet),与普通电脑使用的网罗公约疏导,但这里采纳的是400GbE网罗,其传输速率是常见1GbE网罗的400倍。每个系统配备九个这么的团结,使单台GPU策画做事器的总带宽达到惊东谈主的3.6Tbps。

xAI Colossus数据中心网卡(NIC)

GPU的数据传输主要依赖于RDMA网罗。每个GPU都配备专用网卡,神情采纳NVIDIA BlueField-3 SuperNIC和Spectrum-X网罗经管决策。NVIDIA的网罗技巧栈具有私有上风,能确保数据在集群内高效精确地传输。

xAI Colossus数据中心交换机光纤

值得珍惜的是,与多数采纳InfiniBand等技巧的超等策画机不同,此神情遴荐了以太网。这一遴荐极具策略真谛——以太网算作互联网的基础公约,具有不凡的可推广性。现在畛域弘大的AI集群仍是超出了好多复杂专有技巧的遮蔽范围,xAI团队在这方面作念出了富饶远见的尝试。

除GPU的RDMA网罗外,CPU系统也配备了孤独的400GbE网罗,使用澈底不同的交换架构。这种GPU网罗与普通集群网罗分辩的联想,是高性能策画(HPC)集群中的最好执行。

xAI Colossus数据中心单模和多模光纤

为了直不雅麇集400GbE的性能,单条链路的带宽就跳跃了2021岁首发布的顶级Intel Xeon做事器处理器的全部PCIe通谈总额,而每台做事器配备了九条这么的团结。

xAI Colossus数据中心交换机堆叠

如斯密集的网罗互联需要大量光纤布线。每条光纤都经过精着实割、端接处理和标志经管。

xAI Colossus数据中心光纤布线

我8月份遭遇了一些从事这项责任的东谈主员。他们的结构化布线老是作念得终点整洁。

xAI Colossus数据中心光纤布线

除高速集群网罗外,局势还部署了用于经管接口和环境开拓的低速网罗,这是大畛域集群的必备组成部分。

在实地检会中,液冷网罗交换机的需求不言而喻。咱们最近评测的64端口800GbE交换机,其性能与多数AI集群使用的51.2T级交换机格外。行业靠近的挑战是如何同期经管交换芯片和光学组件的散热问题,后者在当代交换机中的功耗经常更高。这么畛域的部署大致能推动协同封装光学(Co-packaged Optics)技巧的发展,使交换机冷却能与液冷策画系统完满集成。咱们此前见过液冷协同封装光学交换机的原型展示,期待本次部署能促进这些技巧从实验走向量产。

xAI Colossus的机房局势

由于咱们采纳液冷的AI做事器机架,电力和局势用水关于装配至关蹙迫。这里展示了弘大的给水管谈,分为冷水和开水两组。冷水被引入局势,并轮回流经每个机架中的冷却液分拨单位(CDU)。热量从GPU和后门热交换器回路传递至CDU的局势用水回路。开水随后被陶冶至局势外部的冷却开拓。值得珍惜的是,这些冷却开拓并非用于制冰,而是旨在将水温镌汰至足以再次轮回诈欺的进度。

xAI Colossus数据中心局势用水管谈

电力系统通常引东谈主正经。在咱们孟菲斯之行中,目击了团队将巨大的电缆搬入到位。

xAI Colossus数据中心的电气基础局势

在机房局势外,咱们看到了装载特斯拉Megapack的集装箱。这是团队在确立这个弘大集群历程中的一项蹙迫发现。AI做事器的电力破钞并非恒定,而是会随责任负载的波动而变化。由于现场部署了大量GPU,电力峰谷表象十分明显。团队发现,毫秒级的电力峰值和低谷对系统酿成了权贵压力,因此引入特斯拉Megapack以缓冲电力峰值,从而提高系统的牢固性。

准备在xAI Colossus装配的特斯拉Megapack

天然,这只是是局势确立的入手。尽管在咱们造访时,四个25,000 GPU数据中心的启动集群已参预使用,能够赞助约100,000个GPU,但集群的推广责任正在快速鼓吹。

在孟菲斯xAI Colossus数据中心的外部

这无疑是一个令东谈主奋斗的来源。

追想

在这个历程中,我深刻体会到,xAI团队在和谐稠密供应商方面付出了巨大尽力。如斯弘大的AI集群的建成,离不开各领域各人的通力互助,他们以令东谈主难以置信的速率共同创造了一个古迹。如果仅从我拍摄视频的那天所见,很难思象背后凝华了如斯多的心血。

AI社区广漠认为,跟着策画身手的不时进步,大谈话模子(LLMs)的后劲将远不啻于聊天机器东谈主。散步在Colossus中,我深远感受到,只消当东谈主们看到了数据驱动的巨大价值,才会参预如斯巨大的资源进行确立。Grok和xAI团队的明天无疑将超过浮浅的聊天机器东谈主。稠密才调之士正倾注大量心血和财力,力求尽快已毕这一愿景。

来源:Andy730巨乳 乳首,原文标题:《深入探秘公共最大AI超等集群xAI Colossus》

风险请示及免责条目 市集有风险,投资需严慎。本文不组成个东谈主投资提议,也未探究到个别用户稀奇的投资主义、财务景色或需要。用户应试虑本文中的任何认识、不雅点或论断是否合乎其特定景色。据此投资,职守欢叫。

上一篇:户外 勾引 成者扫描仪哪个系列好?老司机带你避坑不迷途
下一篇:步非烟 足交 怀宁县金拱镇:监测耕地质料 促进食粮增产 _大皖新闻 | 安徽网