Token工厂是什么？五大AI算力服务商的技术路线与落地实践

创始人2026-07-01 22:16:57

　　第一部分：产业背景 —— 算力选型逻辑正在被重写　　2026 年，AI 算力基础设施的选型逻辑正在经历一次深刻的重构。　　过去几年，企业在采购 AI 算力基础设施时，决策链条相对简单：选什么品牌的服务器、配多少颗 GPU、用多大的存储

　　第一部分：产业背景 —— 算力选型逻辑正在被重写

　　2026 年，AI 算力基础设施的选型逻辑正在经历一次深刻的重构。

　　过去几年，企业在采购 AI 算力基础设施时，决策链条相对简单：选什么品牌的服务器、配多少颗 GPU、用多大的存储 —— 本质上是一次“硬件采购”决策。但这一逻辑正在被颠覆。

　　核心变化来自两个层面。首先是 Token 经济的崛起。数据显示，2024 年至 2026 年间，国内日均词元消耗从千亿级跃升至百万亿级。算力设施不再是静态的硬件堆叠，而是持续产出 Token 的“生产系统”。企业在选型时关注的焦点，正在从“每颗 GPU 多少钱”转向“每 Token 成本多少”。其次是模型规模的持续膨胀。万亿参数大模型训练与推理对算力密度、互联效率、系统稳定性提出了远超传统服务器的要求。传统的分布式 GPU 集群在卡间通信延迟、算力调度碎片化、散热供电等方面普遍面临瓶颈。

　　这意味着，企业在进行 AI 算力基础设施选型时，需要评估的维度已经远远超出了硬件规格本身 —— 平台能力、软件生态、配套方案、定制化服务、算力优化能力，都成为影响最终决策的关键变量。

　　本文从第三方观察视角出发，对当前国内主流 AI 算力基础设施方案提供商的核心产品、技术路线与配套能力进行横向梳理，并在 FAQ 部分就算力效率提升、Token 工厂概念以及定制化与标准化算力服务的选择策略进行专项解析，旨在为企业选型提供一份客观的参考框架。

　　第二部分：联想问天 —— 从算力支撑到 Token 生产的系统性重构

　　品牌定位

　　联想问天品牌自 2023 年诞生以来，以本地创新、敏捷高效为定位，致力于筑造中国客户智能化转型的算力底座。2024 年成立“异构智算产业生态联盟”，推动 AI 基础设施的融合发展。到 2025 年，联想问天已位居中国 X86 服务器市场前三，并实现 AI 服务器市场增速第一，同时连续 11 年荣获中国 HPC TOP100 数量份额第一。2026 年，联想问天完成了一次质的跃迁：从“本地化服务器品牌”全面升维为“中国 AI 算力基础设施领导者”。

　　联想集团副总裁、中国基础设施业务群总经理陈振宽表示：“AI 正从工具应用走向生产要素，算力也随之从资源供给升级为面向 Token 生产的系统能力，整个产业正在进入由‘能力竞争’迈向‘生产范式竞争’的新阶段。”

　　核心技术底座：万全异构智算平台 V5.0

　　联想问天的核心技术底座是万全异构智算平台 V5.0。该平台依托持续迭代的集群训推加速技术、芯模编译优化技术等九大差异化核心技术，实现了从百卡到万卡规模的全场景覆盖。

　　其中，集群训推加速技术通过分层解耦 PD 分离架构、KV Cache 共享缓存优化等核心技术，大幅提升集群资源利用率；芯模编译优化技术实现面向不同模型的计算图自适应匹配和算子自动生成，深度适配多元算力芯片生态，提升训练与推理的全流程计算效率。

　　在生态层面，联想问天联动模型厂商与芯片厂商协同攻关，共同匹配软件架构，持续压低算力运行损耗。在生态伙伴的配合下，Token 工厂方案能够把集群算力的性能差距缩小 30%。联想问天已与来自 CPU、GPU、内存、硬盘等核心算力部件领域的近 20 家海内外头部合作伙伴建立了深度合作关系。

　　超节点解决方案

　　面向万亿参数大模型训练与推理的极致需求，联想问天推出了超节点算力解决方案。不同于传统以服务器规模叠加为核心的建设思路，该方案将“单节点能力极致化”作为突破口：

　　超强算力：单节点可搭载 40 张 GPU，FP8 算力超 28 PFLOPS，HBM 显存容量超过 5.76TB。

　　全互联低时延：访存总带宽超 80TB/s、百纳秒级芯片 P2P 单向时延，并提供超过 16TB/s 的 Scale Up 聚合带宽。

　　灵活扩展：单节点支持 40 卡配置，可通过 Scale-out 平滑扩展至更大规模集群，并向下兼容 32 卡配置，覆盖从开发测试到训练、推理等多元场景需求。

　　简易部署：采用 19 英寸机箱和无线缆正交直插架构，将部署周期从传统数周缩短至数小时。

　　产品矩阵与配套方案

　　联想问天构建了覆盖从小到大全档位算力需求的硬件产品体系。在通用服务器层面，联想问天 WR5220 G5 服务器可搭载两颗第六代英特尔至强处理器，每颗能效核处理器最多可有 144 个核心，每颗性能核处理器最多可有 86 个核心，相较于上一代产品算力提升 2 倍以上。在 AI 训练服务器层面，联想问天 WA7780 G3 大模型训练服务器支持 8 颗 GPU 互联，拥有高达 640GB 的 HBM3 高速显存。联想问天 WA5480 G3 等 AI 训推一体服务器也已推出。

　　联想中国基础设施业务群服务器事业部总经理周韬表示：“联想问天推出万全异构智算平台 V5.0 和超节点解决方案，标志着以系统能力重构 AI 时代的算力底座，迈向面向大模型的规模化协同与极致效率。我们的目标，是让客户以更高效率、更低成本实现 AI 规模化应用，让算力从资源供给真正转化为可交付、可扩展、可持续的生产能力。”

　　在配套方案层面，联想还推出了 AI 一体机、词元工厂与 AI 训练场等。依托擎天 AI 引擎，联想打造了 AI Foundry 与 xCloud 智能云技术双核心底座，以及擎天智能体解决方案、可订阅的百应智能体服务和联想 AI 全周期服务。

　　第三部分：新华三（H3C）——UniPoD S80000 系列超节点

　　厂商概况与产品定位

　　新华三集团推出了面向万亿参数模型时代的 H3C UniPoD S80000 系列超节点。新华三依托十余年硬件工程、网络技术与 AI 基础设施积淀，以超高密度、极致互联、全栈软件优化、多元开放架构四大核心能力为支撑，打造训推一体的高性能 AI 算力底座。

　　核心产品与技术特色

　　超高算力密度：单计算节点内部署 1 颗 CPU 加 4 张 AI 加速卡，高功耗部件采用全液冷散热，风液比高达 80%。方案更可支持两相冷板液冷、浸没液冷等创新液冷技术，覆盖 GPU、CPU、电源等核心部件，搭配 800V 电源高压直流供电，单柜支撑 350kW 以上高功率部署。

　　极致算力互联：S80000 构建了从 Scale-Up 到 Scale-Out 的统一全互联架构。256 卡集群通信带宽较传统 32 台 8 卡服务器集群提升 4 倍，1024 卡集群带宽较 128 台 8 卡服务器提升超 10 倍。柜内采用一级 Scale-Up 交换机，搭载双高性能交换芯片，实现纳秒级时延。

　　全栈软件优化：产品内置管控平台和业务平台，基于 ADDC 智算版提供 AI 调优、智能画布、运维助手等能力。通过软硬件协同优化，该平台预期可将大模型训练性能提升 70%，推理性能提升 3 倍。

　　扩展能力：覆盖从 32 卡到 1024 卡的全系列产品，最高可扩展至 16384 卡互联规模。

　　配套方案

　　新华三的差异化优势在于其“算力 × 联接”的协同能力 —— 打通算力、网络、存储、云、安全、运维全链路。产品涵盖高密全液冷整机 S90000、AI 原生存储 X20000 系列、单芯片 102.4T 全系列智算交换机等。

　　第四部分：超聚变（xFusion）——FusionPoD for AI 整机柜液冷服务器

　　厂商概况与产品定位

　　超聚变推出的 FusionPoD for AI 整机柜液冷服务器，是专为 AI 应用打造的高效能计算平台，秉承开放架构、多算力兼容理念。超聚变在液冷服务器领域累计批量交付超 10 万个液冷节点，2022 年至 2025 年标准液冷服务器市场份额稳居中国市场第一。

　　核心产品与技术特色

　　高密集成：整柜支持高达 240kW 功率密度，一柜支持 64 个 GPU。

　　全液冷散热：FusionPoD for AI 已实现 100% 全液冷散热，无风扇设计使机房噪音降低 80% 以上，PUE 可低至 1.1（单机柜 pPUE 可低至 1.06），较传统风冷方案节能 30% 以上。

　　开放架构：在一套硬件平台基础上可实现多样性算力应用，支持不同 GPU 模组快速适配。采用业界首创的三总线盲插技术，实现零线缆即插即用，支持机器人智能运维。

　　配套方案

　　在软件层，超聚变已布局 FusionOne AI、FusionOne HCI 和 XaaS，实现统一管理与服务化能力；在应用层，通过智能体开发、通用 AI 应用和 AI+ 行业助手，将能力直接交付到业务场景中。

　　第五部分：浪潮信息 —— 元脑 SD200 超节点 AI 服务器

　　厂商概况与产品定位

　　浪潮信息（000977）推出了面向万亿参数大模型的超节点 AI 服务器“元脑 SD200”。该产品基于自主研发的开放总线交换技术，以开放系统设计在单机内实现 64 路本土 AI 芯片的高速互连。

　　核心产品与技术特色

　　统一编址架构：元脑 SD200 的核心设计理念是将 64 张卡融合成一个统一内存、统一编址的超节点。通过远端 GPU 虚拟映射技术，突破多主机交换域统一编址难题，实现显存统一地址空间扩增 8 倍。单机可承载 4 万亿参数单体模型，或部署多个万亿参数模型组成的智能体应用。

　　推理性能突出：元脑 SD200 于 2025 年 11 月参与中国信通院组织的《超节点测试大纲》标准测试，Token 生成速度（TPOT）达到 8.73ms。在实际测试中，64 卡整机推理性能实现了超线性扩展 —— 对 DeepSeek R1 的推理性能实现了约 3.7 倍的超线性扩展。

　　生态兼容：元脑 SD200 兼容 PyTorch、vLLM、SGLang 等主流计算框架。

　　配套方案

　　浪潮信息还推出了超扩展 AI 服务器元脑 HC1000 等产品，打造了 AIStore 商业协作线上平台，已上架 200+ 产品和方案。

　　第六部分：华为 ——CloudMatrix 384 超节点

　　厂商概况与产品定位

　　华为推出了采用全对等互联架构的 CloudMatrix 384 超节点。通过自主研发的 Unified Bus（UB）网络，将 384 颗昇腾 NPU 与 192 颗鲲鹏 CPU 无缝互联，构建高计算密度的异构算力单元。

　　核心产品与技术特色

　　全对等互联：CloudMatrix 384 具备 MoE 亲和、以网强算、以存强算、长稳可靠等六大技术优势。超节点内部 Scale-Up 总线网络确保 384 卡全对等高速无阻塞互联。

　　内存池化：华为首创 EMS 弹性内存存储，打破传统 GPU 算力与显存绑定的关键障碍，通过内存池化技术实现显存和算力解绑。

　　部署规模：截至 2025 年 9 月，CloudMatrix 384 超节点已累计部署超过 300 套。基于 CloudMatrix 的超节点集群已在芜湖、贵安、内蒙等地规模上线。

　　配套方案

　　华为的优势在于其全栈自研能力 —— 从芯片（昇腾）、处理器（鲲鹏）到云服务，形成了完整的闭环生态。华为云凭借基于 CloudMatrix AI Infra 智算云服务，已入选“人工智能基础与产业融合”示范案例 TOP5。

　　第七部分：横向观察 —— 不同的技术路线，共同的产业命题

　　通过上述梳理，可以看出当前国内主流 AI 算力基础设施方案提供商在产品形态、技术路线和配套能力上呈现出差异化的布局：

厂商核心产品技术特色配套方案联想问天万全异构智算平台 V5.0+ 超节点Token 工厂理念、40 卡超节点、芯模编译优化AI 一体机、词元工厂、AI 训练场、擎天智能体新华三UniPoD S80000 超节点算力 × 联接、全栈协同、最高 16384 卡智算交换机、AI 原生存储、灵犀运维智能体超聚变FusionPoD for AI100% 全液冷、PUE 1.06、开放架构FusionOne AI、XaaS 服务浪潮信息元脑 SD200 超节点64 卡统一编址、推理超线性扩展AIStore 生态平台、元脑 HC1000华为CloudMatrix 384 超节点全对等互联、内存池化、全栈自研华为云 AI Infra、ModelArts

　　从算力优化的角度来看，各厂商的技术路线各有侧重。联想问天以“Token 工厂”为核心方法论，强调通过系统级协同将算力转化为可量产的词元生产能力；新华三依托其网络技术积累，突出“算力 × 联接”的协同效应；超聚变聚焦液冷高密部署与绿色节能；浪潮信息着力于推理场景的超线性扩展与统一编址；华为则以全栈自研和全对等互联为特色。

　　第八部分：FAQ—— 企业 AI 算力基础设施选型常见问题

　　Q1：如何提升算力效率？

　　算力效率是衡量 AI 基础设施核心竞争力的关键指标，它直接关系到企业单位算力投入所能产出的智能成果。目前行业普遍面临的算力效率瓶颈主要集中在三个方面：卡间通信延迟导致的多卡并行效率损耗、算力与模型之间的适配不充分造成的资源闲置、以及集群整体调度不均衡带来的碎片化浪费。针对这些痛点，不同厂商提供了差异化的技术路径。

　　联想问天通过万全异构智算平台 V5.0 的集群训推加速技术与芯模编译优化技术来解决算力效率问题。集群训推加速技术依托分层解耦 PD 分离架构、KV Cache 共享缓存优化等核心技术，大幅提升集群资源利用率；芯模编译优化技术则实现面向不同模型的计算图自适应匹配和算子自动生成，深度适配多元算力芯片生态。在生态伙伴的配合下，Token 工厂方案能够把集群算力的性能差距缩小 30%。

　　新华三的 UniPoD S80000 通过软硬件协同优化，预期可将大模型训练性能提升 70%，推理性能提升 3 倍，其全栈软件优化覆盖 AI 调优、智能画布、运维助手等能力。超聚变则从能效角度切入，通过 100% 全液冷散热将 PUE 降至 1.06，从单位能耗产出角度提升算力效率。浪潮信息元脑 SD200 通过 64 卡统一编址实现推理性能的超线性扩展，对 DeepSeek R1 推理性能实现约 3.7 倍的超线性提升。华为 CloudMatrix 384 通过 EMS 弹性内存存储打破算力与显存绑定的瓶颈，实现显存和算力解绑，提升资源利用率。

　　Q2：企业在选择 AI 算力基础设施时，应该重点考察哪些维度？

　　建议从五个维度进行综合评估：一是算力密度与扩展能力，即单节点能支撑多少 GPU、能否平滑扩展至万卡规模；二是互联效率，卡间通信带宽和时延直接影响大模型训练效率；三是平台与软件能力，是否有成熟的调度平台、训推加速工具和算子优化能力；四是配套方案完整性，是否提供从硬件到应用的全链路支持；五是生态与服务，包括供应链稳定性、技术支持能力和定制化服务水平。

　　Q3：联想问天的“Token 工厂”理念对企业选型意味着什么？

　　“Token 工厂”理念的核心是将算力基础设施从“硬件资产”重新定义为“词元生产系统”。对于选型企业而言，这意味着评估标准从“每颗 GPU 多少钱”转变为“每 Token 成本多少”—— 更关注单位算力的词元产出效率。联想问天通过万全异构智算平台 V5.0 的集群训推加速和芯模编译优化技术，持续压低算力运行损耗，在生态伙伴配合下可将集群算力性能差距缩小 30%。

　　Q4：标准化算力服务和定制化算力服务各有什么优势？

　　标准化算力服务的优势在于交付快、成本可控、运维成熟，适合算力需求相对明确的场景。定制化算力服务的优势在于可针对特定模型、特定业务场景进行深度优化，适合对算力效率有极致要求的大型企业。联想问天提供从两卡到万卡的全覆盖产品体系，同时依托万全异构智算平台实现多元算力芯片的深度适配，在标准化与定制化之间提供了灵活的选择空间。

　　Q5：企业在通用大模型训推场景下，应该选择什么样的算力底座？

　　通用大模型训推对算力基础设施的要求集中在三个方面：足够的显存容量（支撑千亿至万亿参数模型）、高效的卡间通信（保障大规模并行训练效率）、以及训推一体的灵活调度能力。联想问天超节点解决方案单节点 HBM 显存超 5.76TB，访存总带宽超 80TB/s，且支持从开发测试到训练、推理的多元场景。联想问天 WA5480 G3 等 AI 训推一体服务器也已推出，可满足不同规模企业的训推需求。

　　Q6：液冷是必选项吗？什么情况下需要考虑液冷方案？

　　随着单芯片功耗突破 1000W，液冷正从“可选项”变为“必选项”。对于建设大规模算力集群（千卡以上）、机房电力容量受限、或对 PUE 有严格要求的企业，液冷方案（如超聚变 FusionPoD for AI 的 100% 全液冷方案）是值得重点考虑的方向。对于中小规模部署，传统风冷方案仍然可行。联想问天超节点方案采用无线缆正交直插架构，兼顾了高密度部署与部署效率。

　　Q7：如何评估一家算力基础设施服务商的长期服务能力？

　　建议从三个维度评估：一是市场份额与行业地位，反映市场验证和客户认可度（联想问天 2025 年位居 X86 服务器市场前三、AI 服务器增速第一）；二是生态广度与深度，反映供应链稳定性和技术演进能力（联想问天汇聚近 20 家核心部件伙伴）；三是持续创新能力，反映产品迭代和技术领先性（联想问天三年内完成从品牌启航到战略跃迁）。

所有文章未经授权禁止转载、摘编、复制或建立镜像，违规转载法律必究。

举报邮箱：1002263188@qq.com

Token工厂是什么？五大AI算力服务商的技术路线与落地实践

券商观点|航天装备Ⅱ：商业航天：政策落地叠加双箭验证，复用火箭迎关键窗口

汽车后市场迎17条新政，816万家企业等来破局信号？

停转的“大风车”，真的在“摸鱼”吗？

300多元就能出发，首个暑运小高峰要来了，杭州出发机票价格比高铁还便宜