伊隆·马斯克的数据中心:特斯拉、Dojo、X(Twitter)、xAI发表时间:2024-12-25 09:36 数据中心对于埃隆·马斯克创立、共同创立或继续积极参与的许多公司都至关重要,包括特斯拉、X Corp(Twitter)和xAI。这些公司依靠数据中心来处理、存储和分析大量用户生成和运营数据。该基础设施支持他们的核心服务、AI开发以及与全球用户群的实时互动。 伊隆·马斯克的公司特斯拉、X Corp(Twitter)和 xAI 正在全球开发和运营数据中心。这些设施的主要地点包括德克萨斯州奥斯汀、内华达州斯帕克斯、加利福尼亚州的几个站点、佐治亚州亚特兰大、俄勒冈州希尔斯伯勒、田纳西州孟菲斯和中国上海。 Dgtl Infra 探索了伊隆·马斯克旗下主要公司特斯拉、X Corp(Twitter)和xAI 背后的数据中心和计算基础设施。我们涵盖了特斯拉的高性能计算系统,包括其 Dojo超级计算机和D1芯片、X Corp 的数据中心战略以及xAI 为其AI 聊天机器人 Grok 提供支持的新兴基础设施。这些数据中心是马斯克声称两年内可以实现通用人工智能的支柱。 特斯拉数据中心和IT硬件特斯拉利用数据中心处理和存储从其全球数百万辆电动汽车 (EV) 收集的大量数据。这些数据包括传感器读数、驾驶行为、自动驾驶仪性能和无线软件更新。 这些计算和存储资源还为特斯拉的人工智能训练提供支持,这对于开发和完善其全自动驾驶 (FSD) 技术至关重要。此外,特斯拉的数据中心还支持其为车主提供的基于云的车载服务以及特斯拉移动应用程序。 资料来源:特斯拉 除了车辆遥测和AI训练之外,特斯拉的数据中心在其整个产品和服务生态系中发挥着至关重要的作用。它们为其内部导航软件提供动力,管理Powerwall家用电池系统的数据,并方便访问超级充电网络(包括特斯拉电动汽车的快速充电站)。 高性能计算加速器在其数据中心内,特斯拉部署了多种高性能计算加速器。这种加速计算包括排列成集群的NVIDIA GPU和特斯拉专为 AI训练而设计的定制D1芯片。D1芯片是特斯拉Dojo超级计算机的关键组件。 来源:特斯拉 GPU 集群迄今为止,特斯拉已为其自动驾驶汽车AI训练集群安装并调试了超过35,000 个NVIDIA H100 GPU,用于开发其全自动驾驶 (FSD) 技术。到 2024年底,特斯拉计划将其AI训练用GPU容量增加到近 90,000个NVIDIA H100等效GPU。 Tesla AI 训练能力– H100等效GPU来源:特斯拉 据报道,2024年,埃隆·马斯克指示NVIDIA将为特斯拉预留的GPU(预留总额超过5亿美元)发送给X Corp (Twitter) 和xAI。马斯克声称,特斯拉当时缺乏使用GPU的基础设施,因此这些GPU会被闲置在仓库中。 Dojo 超级计算机和 D1 芯片Dojo是特斯拉定制开发的超级计算机,用于处理大规模机器学习工作负载,并处理从特斯拉电动汽车 (EV) 收集的PB级(数千TB)视频数据。这些数据用于更有效地训练神经网络,这对于提高特斯拉全自动驾驶 (FSD) 软件的性能至关重要。 来源:特斯拉 特斯拉的目标是利用专为AI训练设计的定制D1芯片,通过Dojo超越传统 GPU的功能。埃隆·马斯克表示,特斯拉将“加倍投入”开发他们的Dojo超级计算机,并计划投资超过10亿美元用于开发。这笔投资包括芯片的研发费用和数据中心费用。 从更广泛的角度来看,特斯拉预计2024年的资本支出 (CapEx)将超过100亿美元。 特斯拉Dojo超级计算机的组件下面是支持特斯拉Dojo超级计算机的硬件架构的详细分解,从最小的组件D1 芯片开始,一直到完整的Dojo超级计算机: 特斯拉Dojo超级计算机的组件下面是支持特斯拉Dojo超级计算机的硬件架构的详细分解,从最小的组件D1芯片开始,一直到完整的Dojo超级计算机: 1. D1芯片:特斯拉专为AI训练任务设计的基础定制 AI 芯片。每个 D1芯片的处理能力为362 TFLOPS; 2. 训练块:一组25个D1芯片协同工作,以5×5的配置排列。训练块可实现高达9千万亿次浮点运算 (PFLOPS) 的处理能力; 3. 系统托盘:包含6个训练块,组合到单个板上。系统托盘的计算能力最高可达54千万亿次浮点运算 (PFLOPS); 4. 机柜:装有 2 个系统托盘,配备冗余电源,可提供高达108千万亿次浮点运算 (PFLOPS) 的处理能力。机柜还装有关键组件,包括Dojo 接口处理器:用于训练的内存(32 GB高带宽DRAM)和分解内存(640 GB高带宽DRAM),以及Dojo主机接口(总共512个x86核心); 5. ExaPOD:由10个机柜组成的集合,代表着1.1 exaFLOPS(每秒千万亿次浮点运算)的计算能力; 6. Dojo超级计算机:特斯拉最初的Dojo超级计算机设置装有大约 3,000个D1芯片,包括训练模块(25个D1芯片)、系统托盘(6个训练模块)、机柜(2个系统托盘)和10个机柜,组成一个ExaPOD。Dojo的模块化架构允许将多个ExaPOD组合为构建块,以进一步扩展Dojo系统。 特斯拉的Dojo超级计算机专为实现高性能、高带宽和低延迟神经网络训练而设计。该公司声称,Dojo可以将某些AI训练时间从一个月缩短至一周。 到 2024年底,Dojo 1将拥有相当于约8,000个NVIDIA H100 GPU的在线能力,特斯拉的目标是实现100 exaFLOPS的内部神经网络训练能力。 特斯拉对Dojo计算能力的内部预测来源:特斯拉 特斯拉Dojo超级计算机的电源和冷却充足的电力和冷却对于特斯拉的Dojo超级计算机至关重要,因为它拥有密集的高性能组件,包括D1芯片和ExaPOD。这种IT基础设施需要大量电力,并且在密集的AI训练任务期间会产生大量热量。有效管理这种热量对于提供最佳性能和减少硬件故障是必不可少的。 来源:特斯拉 Dojo支持每机柜超过200千瓦 (kW) 的功率密度(ExaPOD 为兆瓦)。为了满足密集的冷却要求,Dojo使用定制的冷却分配单元 (CDU),如上所示。 数据中心位置特斯拉在美国和国际上运营并正在开发多个战略数据中心,以支持其先进的计算需求。 德克萨斯州奥斯汀特斯拉正在位于德克萨斯州奥斯汀的总部建造一台新的Dojo超级计算机,以容纳迄今为止最大的AI训练集群。这个新的超级计算机集群位于其Giga Texas汽车制造工厂旁边,目前正在建设中(尽管有所推迟),并将配备水冷装置。 目前,特斯拉正在将H100 GPU服务器机架搬入新建成的Giga Texas南扩建区。该AI训练集群将包括2,000个NVIDIA H100 GPU和20,000台特斯拉AI5计算机。最终,Giga Texas南扩建区将容纳 50,000个NVIDIA H100 GPU集群,这将有助于推进特斯拉的全自动驾驶 (FSD) 技术。 内华达州里诺(斯帕克斯)特斯拉在其位于内华达州斯帕克斯的Gigafactory Nevada 工厂建立了一个数据中心,该工厂生产锂离子电池和电动汽车 (EV) 零部件,位于斯托里县里诺市郊外。此外,特斯拉还是Switch, Inc的客户,该公司的 Citadel 园区位于斯帕克斯的Gigafactory Nevada 旁边。Switch, Inc还与特斯拉在该地区共享一个太阳能发电场。 加利福尼亚州圣何塞特斯拉在加利福尼亚州圣何塞运营一台Dojo超级计算机。此外,特斯拉计划在加利福尼亚州帕洛阿尔托安装7台ExaPOD,该地是该公司工程和研发活动的中心。此次部署可能会将特斯拉的计算能力提升至8.8 exaFLOPS(高于目前的1.1 exaFLOPS)。 加利福尼亚州萨克拉门托特斯拉从NTT Global Data Centers租赁了位于加利福尼亚州萨克拉门托的一个数据中心,而X Corp(前身为 Twitter)之前曾将该数据中心腾空。该公司利用该数据中心的容量进行机器学习工作,包括自动驾驶汽车模拟。 中国上海特斯拉在中国上海设有一个数据中心,以遵守中国要求本地数据存储的规定。该公司将中国大陆汽车销售产生的所有数据存储在本地,以解决中国当局对潜在安全风险的担忧。 中国最大的运营商中立数据中心运营商万国数据控股表示,特斯拉是其客户之一。万国数据在上海和长三角地区共运营28个数据中心。 XCorp(Twitter)数据中心X Corp(前身为 Twitter)使用数据中心来存储和处理大量用户数据,包括推文、直接消息和媒体上传。这些数据中心还为平台的内容推荐、趋势分析和广告定位算法提供支持,使该服务能够管理全球数百万次实时互动。 自2022年10月埃隆·马斯克以440亿美元收购 Twitter以来,该公司一直在通过以下方式精简其 IT 基础设施: · 关闭和缩小数据中心规模 · 削减服务器容量 · 减少云计算支出 尽管削减了这些开支,X Corp还是增加了高性能计算加速器的产能。该公司最近购买了10,000个NVIDIA GPU用于AI开发,旨在构建本地GPU超级计算集群。 在美国,X 公司在几个关键地点运营数据中心: 乔治亚州亚特兰大X Corp在佐治亚州亚特兰大大都会区租用 QTS 数据中心的设施。其中一个值得注意的数据中心包括位于1033 Jefferson Street NW 的QTS Atlanta 1 DC1 数据中心: 来源: QTS数据中心 此外,在位于1025 Jefferson Street NW的QTS 亚特兰大 1 DC2 数据中心,X Corp获得了为期10年的1010万美元税收减免,这是在该设施部署IT设备和AI硬件的7亿美元项目的一部分。以下是QTS的亚特兰大1 DC2: 来源: QTS数据中心 然而,X公司最近也缩减了亚特兰大一家未公开的工厂的规模。 俄勒冈州波特兰(希尔斯伯勒)X 公司在位于俄勒冈州波特兰西郊希尔斯伯勒的Digital Realty数据中心租赁了超过50兆瓦 (MW) 的电力容量。俄勒冈州拥有丰富的水力发电资源,可为数据中心提供低成本(每千瓦时0.05至0.07美元)且环保的电力。 加利福尼亚州萨克拉门托–退出作为IT基础设施合理化的一部分,X Corp在租约到期后退出了位于加利福尼亚州萨克拉门托的NTT Global Data Centers所拥有的设施。随后,特斯拉接管了部分空置的数据中心空间。 X Corp还退出了Prime Data Centers旗下的另一家萨克拉门托工厂。该工厂此前于2022 年9月在加州热浪中倒塌。 总体而言,X Corp声称通过退出其萨克拉门托数据中心每年可节省1亿美元。此次退出释放了48兆瓦的容量,并涉及重新安置5,200个机架和148,000台服务器。 云服务提供商(CSP)X Corp 与云服务提供商签订了多年合同,包括Amazon Web Services (AWS)、Google Cloud和Oracle Cloud。不过,该公司报告称,通过工作负载遣返,其每月云成本减少了60%。它还将云数据存储大小减少了60%,云数据处理成本减少了75%。 xAI数据中心xAI是埃隆·马斯克于2023年创立的一家人工智能公司,目标是开发先进的AI系统来了解宇宙的真实本质。该公司旨在创造“优秀的 AGI”(通用人工智能),并发布了名为Grok的AI聊天机器人和语言模型。 2024年5月,xAI筹集60亿美元的股权,使该公司的估值达到240亿美元。此外,埃隆·马斯克目前正在寻求特斯拉董事会批准对xAI进行50亿美元的投资。 xAI利用数据中心提供训练和运行其 AI 聊天机器人Grok所需的计算能力和存储空间。这些数据中心处理的任务包括利用X Corp (Twitter) 用户数据训练大型语言模型、运行推理以及存储大量数据。此外,埃隆·马斯克还提到了将 Grok 集成到特斯拉软件中的潜在机会。 xAI已发布Grok-1.5,目前正在使用20,000个NVIDIA H100 GPU训练Grok-2。Elon Musk估计Grok-3将需要100,000个GPU。为此,xAI的数据中心近期计划包括: · 2024年底前部署10万个液冷NVIDIA H100 GPU训练集群 · 从2025年夏季开始,再增加300,000个NVIDIA B200 (Blackwell) GPU集群 田纳西州孟菲斯xAI 计划在田纳西州孟菲斯建造世界上最大的超级计算机,名为“超级计算工厂”。这台超级计算机将安置在位于孟菲斯西南部密西西比河附近工业园区的 150兆瓦 (MW) 数据中心。具体来说,该数据中心将占据南孟菲斯Boxtown地区一座占地750,000平方英尺的前伊莱克斯工厂。 来源:xAI 埃隆·马斯克的目标是在2025年秋季之前让 xAI的新工厂全面投入运营,这意味着在孟菲斯将投资数十亿美元。作为这项承诺的一部分,xAI计划投资2400万美元建造一座新变电站,并已获得孟菲斯电力、天然气和水务 (MLGW) 到 2024年底提供 150兆瓦电力容量的承诺。 该系统又称为孟菲斯超级集群,将使用单个远程直接内存访问 (RDMA) 结构连接多达100,000个NVIDIA H100 GPU。戴尔和Supermicro为xAI的孟菲斯超级计算机提供服务器。 云服务提供商(CSP)Oracle Cloud提供了xAI现有AI训练基础设施的很大一部分: · xAI目前从Oracle Cloud租用了大约16,000个NVIDIA H100 GPU · xAI从Oracle Cloud订购了24,000块NVIDIA H100 GPU用于Grok-2训练 据报道,2024年7月,xAI结束了有关100亿美元多年期AI扩展承诺的谈判,承诺从 Oracle Cloud 购买更多GPU/服务器容量。 此外,xAI利用亚马逊网络服务 (AWS) 的云服务并利用X Corp(Twitter)数据中心的备用容量。 文章来源:https://dgtlinfra.com |