核心定位:专注大模型推理 Prefill 阶段与互联网智能推荐场景,追求高并行计算效率与性价比,适合对首字输出速度要求高的推理业务。
核心参数:
算力:FP8/MXFP8/HiF8 1 PFLOPS;MXFP4 2 PFLOPS;
内存:自研 HiBL 1.0 HBM,128GB 容量,带宽 1.6TB/s;
互联带宽:2TB/s;支持多精度格式(FP32~HiF4 全覆盖);
内存访问粒度优化至 128 字节,小算子效率提升 4 倍。
产品形态与落地:首发 Atlas 350 加速卡,已在多家服务器厂商整机中商用;实测单卡推理性能达英伟达 H20 的 2.87 倍,多模态生成速度提升 60%。

