AI服务器五大硬件拆解分析(搭建ai服务器)
bigegpt 2025-05-08 16:49 10 浏览
1、五大硬件部分可归纳为——GPU 板组、CPU 母板组、配件
AI 服务器我们瞄准英伟达 DGX A100 和 DGX H100 两款具有标杆性产品力的产品进行分析,鉴于 H100 发布时间较短、资料详尽度不够,我们首先从 DGX A100 出发来观测具有产品力的 AI 服务器的基本架构。英伟达DGX A100 外形类似于常见的家用主机,通过对部件构成进行深度分解,我们认为 DGX A100 大体上可以分为五个硬件板块:
1) 风扇模组,从前部(Front)入手,首先看到的是风扇模组板块,DGX A100 的风扇模组由 8 个风扇组成,这一搭配与传统服务器 8U 规格的基本一致;
2) 硬盘,前部风扇模组板块的下方摆放了硬盘和前控制台板(控制与外接设备的信号传输),DGX A100 配备了 8 个 3.84TB 的硬盘,合计内部存储 30TB;
3) GPU 板组(GPU Board Tray),后部(Rear)是整个 AI 服务器的关键组件组装区域,最核心的板块就是 GPU 板组,这也是 AI 服务器区别与普通服务器的关键,从 DGXA100 的架构来看,GPU 板组主要包含 GPU 组件、模组板、NVSwitch 三块,这三块都会涉及到不同类型的 PCB 产品;
4) CPU 母板组(CPU Motherboard Tray),这一部分是所有服务器的核心部件(包括普通服务器和 AI 服务器),其中包含 CPU 母板、系统内存、网卡、PCIE Switch 等部件,CPU 母板、系统内存、网卡是主要涉及到 PCB 用量的部分;
5) 电源模组,DGX A100 后部的下方还配有 6 组电源,电源内部会涉及到厚铜 PCB 板的使用。
从功能性的角度,我们认为 AI 服务器的 PCB 价值量计算可以归纳为三个部分,其一是AI 服务器最为核心的 GPU 板组,其二是所有服务器都必备的 CPU 母板组,最后是风扇、硬盘、电源板块等配件组。本文将基于这三大部分逐一分解。
2、GPU 板组:单机价值量 1.2 万,载板占比 52%、PCB 板占 48%
GPU 板组的 PCB 主要是由 4 个部分组成,GPU 载板、NVSwitch、OAM、UBB。
1) GPU 载板,英伟达 A100 的 GPU 和 DRAM 采用 2.5/3D 先进封装工艺,用于承载的板材采用 70*70mm~100*100mm、14~16 层的 FCBGA 载板,数量上与 GPU 数量存在一一对应关系,按照 DGX A100 搭载 8 颗 GPU 的数量来看,1 台 AI 服务器需要用到 8 颗 GPU 载板;根据产业链调研,单颗价值量约为 100 美元,即 650 元人民币/颗,由此对应单机 GPU 载板价值量为 5200 元。
2) NVSwitch,基于 NVLink 标准用于 GPU 之间通信的基础模组,搭载 NVSwitch 的载体是类似于载板的产品,加工性要求较简单、关键是承担多数据量高速传输的性能,根据产业链调研单颗价值量约为 30 美元,即 195 元/颗,按 A100 搭载 6 颗计算可得单机价值量为 1170 元。
3) OAM,OCP Accelerator Module,中文简称 GPU 加速卡,是用于承载 GPU 芯片的板卡,数量上看 OAM 与 GPU 存在一一对应的关系,以 DGX A100 搭载 8 个 GPU 的数量来看,1台 AI 服务器需要用到8块 OAM;面积上来看,借鉴 PCIE 版本 267.7mm*111.15mm的尺寸规格(内部 PCB 规格与外壳规格基本一致),可测算出 OAM 的面积尺寸约为0.03 平方米;PCB 板型上来看,由于 OAM 涉及到 GPU 高速多线路信号传递,根据产业链调研,DGX A100 OAM 的 SXM 版本需要用到 20 层、Ultra Low Loss 等级 CCL 材料、4 阶 HDI 工艺,对应产品单价为 12000 元/平方米,DGX A100 OAM 的 PCIE 版本相对规格较低,只需要用到 14 层、Ultra Low Loss 和高 Tg FR4 等级 CCL 材料混压、1 阶 HDI 工艺,对应产品单价 7000 元/平方米。综合来看,如果按照 DGX A100 机型配置,高端 AI 服务器的 OAM 单价价值量将达到 2880 元。
4) UBB,Unit Baseboard,中文简称GPU模组板,是用于搭载整个GPU平台的PCB 板,1台AI服务器对应1块UBB,根据 DGX A100整机底面规格和产业链调研,我们预估UBB面积约为0.30平方米,需要用到26层通孔PCB板,CCL材料运用Ultra Low Loss,对应单价约为10000元/平方米,对应单机价值量为 3000 元。
综上合计,英伟达DGX A100 GPU板组主要由GPU载板、NVSwitch、GPU加速卡、GPU 模组板四部分组成,四部分合计单机 PCB 面积达到 0.624 平方米,对应 PCB 单机价值量为12250 元,其中载板级别的产品单机价值量为 6370 元、占比 52%,PCB 级别的产品单机价值量 5880 元、占比 48%。
3、CPU母板组:单机价值量2845元,载板占46%、主板占40%
CPU 母板组涉及到CPU载板、CPU主板和配板,其中功能性配板包括系统内存卡、网卡、拓展卡、存储操作系统驱动板。
1)CPU 载板,根据产业链调研,CPU载板与GPU 载板规格相近,如果按单颗 CPU 载板价值量 100 美元、DGX 搭载2颗CPU,则单机价值量约为 1300 元。
2)CPU 主板,主要用于承载 CPU 芯片、PCIE Switch 芯片、TPM 模组及各种功能性配板卡,该类 PCB 板的规格主要由 CPU 平台设计和总线标准,按照 DGX A100 的方案主要采用 64 核 AMD Rome 的 CPU 芯片、总线标准仍然为 PCIE 4.0,因此 CPU 主板仍然采用 10~12 层、Low Loss 等级 CCL 材料、通孔板的设计,根据产业链调研,单价约为3000 元/平方米;按照 DGX A100 的尺寸规格设计,估测 CPU 主板面积为 0.38 平方米,由此可计算 CPU 主板单机价值量为 1140 元。
3)功能性配板,配板种类较多,根据产业链调研,配板一般采用的规格是 8~10 层板、Mid Loss 等级 CCL,单价约为 1500 元/平方米,面积和数量参照 DGX A100 则为:
CPU 内存卡,DGX A100 设计配置 32 块 CPU 内存卡、合计 2TB RAM,一般来说服务器 CPU 内存卡行业有较为统一的标准尺寸,估测单块内存卡面积约为 0.004平方米/片;
网卡,DGX A100 网卡采用 Mellanox ConnectX 系列产品(有 X-7 和 X-6 的产品选配),标配的网卡为10张(8 个单端口 200Gb/s 的 IB,2 个双端口 200Gb/s 以太网),根据英伟达官网披露 Mellanox ConnectX-7 的尺寸 68.90mm*167.65mm,计算可得单块网卡板面积约为 0.012 平方米/张;
拓展卡,Riser Card,服务器会因为板卡摆放设计而用一些拓展卡来拓展 PCIE接口,DGX A100 中因为有一张横置 Storage networking 网卡,因此需要设置一张拓展卡,根据产业链调研该拓展卡面积约为 0.01 平方米/张;
存储操作系统驱动板,DGX A100中会搭载2个1.92TB M.2 NVMe 的系统驱动器,但两个驱动器是搭载在一张PCB板的两面,因此系统驱动板只有1块,面积约为0.01 平方米/张。
上述四部分合计,功能性配板单机面积为 0.27 平方米,对应单机价值量约为 405 元。
综上合计,英伟达DGX A100 CPU母板组PCB用量面积合计为0.662平方米,单机价值量约为 2845 元,其中载板级产品占比 46%,PCB 级的主板产品占比40%,PCB级的配板产品占比14%。
4、其他配件:单机价值量合计 226 元
除 GPU 板组和CPU模板组外,其他配件还包括电源、硬盘、前控制台板等,根据产业链调研,这一类产品主要采用 6~10 层、FR4/Mid Loss 等级CCL的规格,单价约为1000~1500 元/平方米不等,参照 DGX A100 规格对用量和面积进行计算则为:
1)电源,从用量上看 DGX A100搭配6个电源,参照台达电2200W 服务器电源 DPS-2200-AB-2 型号 73.5*265.0mm的规格,我们估测单个电源用PCB板面积为0.019平方米;
2)硬盘,从用量上看 DGX A100 搭配8个硬盘,参照行业标准3.5’盘,我们估测单块硬盘中 PCB 面积为0.008平方米;
3)前控制台板,主要用于控制外接设备,是放在8个硬盘中间的1块 PCB 板,根据产业链调研,我们估测该板面积约为 0.010 平方米。
综合GPU板组、CPU模板组和配件,我们估测DGX A100整机 PCB用量面积为 1.474 平方米,单机价值量为15321元,其中GPU板组单机价值量达到 1.2万元、占比达到80%,CPU母板组单机价值量为2845 元、占比为 19%,其他配件单机价值量 226 元、占比为1%;从板级的分类来看,载板级别单机价值量为7670元、占比达到 50.1%,PCB 板级单机价值量为7651元、占比为 49.9%。
相关推荐
- Redis集群对比:主从复制、哨兵模式、Cluster一文看懂所有优缺点
-
在分布式系统中,Redis作为高性能的内存数据库,其集群方案的选择直接影响到系统的稳定性、可用性和扩展性。本文将全面对比Redis的三种主流集群方案:主从复制、哨兵模式和Cluster模式,帮助开发者...
- redis的主从复制,读写分离,主从切换
-
当数据量变得庞大的时候,读写分离还是很有必要的。同时避免一个redis服务宕机,导致应用宕机的情况,我们启用sentinel(哨兵)服务,实现主从切换的功能。redis提供了一个master,多个sl...
- # Redis 入门到精通(九)-- 主从复制(3)
-
#Redis入门到精通(九)--主从复制(3)##一、redis主从复制-常见问题(1)###1、伴随着redis系统的运行,master的数据量会越来越大,一旦master重启...
- redis - 主从复制(Redis主从复制时序图)
-
1引言在上一篇文章中,我们了解了Redis两种不同的持久化方式,Redis服务器通过持久化,把Redis内存中持久化到硬盘当中,当Redis宕机时,我们重启Redis服务器时,可以由RDB文件或AO...
- # Redis 入门到精通(九)-- 主从复制(2)
-
#Redis入门到精通(九)--主从复制(2)##一、redis主从复制--数据同步阶段注意事项###1、数据同步阶段master说明1)如果master数据量巨大,数据同步阶段应...
- Redis主从复制(redis主从复制主节点挂了)
-
介绍Redis有两种不同的持久化方式,Redis服务器通过持久化,把Redis内存中持久化到硬盘当中,当Redis宕机时,我们重启Redis服务器时,可以由RDB文件或AOF文件恢复内存中的数据。不过...
- 深入解析 Redis 集群的主从复制实现方式
-
在互联网大厂的后端开发领域,Redis作为一款高性能的内存数据库,被广泛应用于缓存、消息队列等场景。而Redis集群中的主从复制机制,更是保障数据安全、实现读写分离以及提升系统性能的关键所在。今...
- Redis主从架构详解(redis主从架构高可用如何实现)
-
Redis主从架构搭建Redis主节点配置创建主节点目录(/opt/redis-master),复制redis.conf到该目录下,redis.conf配置项修改#后台启动daemonizeyes...
- 抖音“四大包塘战神”:承包了全网的快乐
-
在抖音钓鱼垂类领域,"包塘战神"军团正掀起一场黑色幽默风暴。空军华、大表坑、李赔光、透心良四位创作者,以承包鱼塘为舞台,用连续翻车的钓鱼直播构筑起流量奇观。当钓鱼佬在抖音集体转型喜剧人...
- ORACLE 11G RAC 安装-通过VM配置共享磁盘
-
简介:在自己的电脑上通过VM软件搭建Oracle11GRAC,通过修改VM的参数文件来实现磁盘共享!目标:搭建RAC环境实现:使用VMwareWorkstation8.0.0+ORACLE...
- Linux操作系统安全配置(linux系统安全配置包括)
-
一、服务相关命令systemctlenable服务名#开机自启动systemctldisable服务名#禁用开机自启动systemctlstop服务名#停止服务systemctls...
- 关于Linux性能调优中网络I/O的一些笔记
-
写在前面和小伙伴分享一些Linux网络优化的笔记,内容很浅,可以用作入门博文内容结合《Linux性能优化》读书笔记整理涉及内容包括常用的优化工具(mii-tool,ethtool,ifconfig,i...
- 从 Sonatype Nexus Repository Manager 迁移到 Artifactory
-
1.Nexus1.1下载下载链接:https://help.sonatype.com/repomanager3/product-information/download/download-archiv...
- Ubuntu20安装zabbix5.0企业监控系统亲测教程
-
前言示例主机:zabbix10.0.100.10,将安装在UbuntuServer上教程说明:因使用官方教程无法安装成功,所以本教程与官方教程有所不同安装前提:已安装UbuntuServer2...
- Linux内核设计与实现—进程管理(linux内核程序设计)
-
进程进程就是处于执行期的程序(目标码存放在某种存储介质上)。进并不仅仅局限于一段可执行程序代码(Unix称其为代码段,textsection)。通常进程还要包含其他资源,像打开的文件,挂起的信号,...
- 一周热门
- 最近发表
- 标签列表
-
- mybatiscollection (79)
- mqtt服务器 (88)
- keyerror (78)
- c#map (65)
- xftp6 (83)
- bt搜索 (75)
- c#var (76)
- xcode-select (66)
- mysql授权 (74)
- 下载测试 (70)
- linuxlink (65)
- pythonwget (67)
- androidinclude (65)
- libcrypto.so (74)
- linux安装minio (74)
- ubuntuunzip (67)
- vscode使用技巧 (83)
- secure-file-priv (67)
- vue阻止冒泡 (67)
- jquery跨域 (68)
- php写入文件 (73)
- kafkatools (66)
- mysql导出数据库 (66)
- jquery鼠标移入移出 (71)
- 取小数点后两位的函数 (73)