核心技术参数
算力规格:FP4 精度 1.56 PFLOPS,FP8 精度 1 PFLOPS;支持 FP32/FP16/FP8/MXFP4/HiF4 全精度栈;
内存与带宽:112GB 自研 HBM,带宽 1.4TB/s;内存访问粒度从 512 字节优化至128 字节,小算子访存效率提升 4 倍;
互联与功耗:互联带宽 2TB/s,支持灵衢高速互联;典型功耗 600W,适配主流液冷 / 风冷服务器;
软件生态:原生兼容昇腾 CANN 8.0+、MindSpore 框架,支持 TensorFlow/PyTorch 迁移,提供完整的推理优化工具链。
三、核心优势与场景落地
FP4 低精度商用:国内独家量产支持,大幅降低显存占用与功耗,单卡可流畅承载 700 亿参数大模型推理;
推荐场景优化:小算子效率提升 + 高并发架构,适合短视频、电商、广告的实时推荐系统;
多模态提速:文生图 / 文生视频生成速度提升 60%,满足 AIGC 平台的高吞吐需求;
产业落地:昆仑、华鲲振宇等多家服务器厂商首发整机;已在头部互联网、AI 云服务商的推理集群中部署商用。

