文章

Atlas300I-Duo国产大模型部署与精度支持说明

Atlas300I-Duo国产大模型部署与精度支持说明

Atlas300I-Duo国产大模型部署与精度支持说明

适用于 Atlas 300I Duo 推理卡(Ascend 310P3),如 TaiShan 200 + 8×310P3(4 张 Duo / 8 Chip)。说明 FP16 / BF16 硬件约束、MindIE-LLM 国产模型(Qwen、GLM、Kimi)在 300I Duo 上的支持判读与部署速查。


一、硬件对算子精度数据类型的限制

1.1 产品归属

Atlas 300I Duo 属于昇腾 「Atlas 推理系列产品」(Ascend 310P AI 处理器),与 Atlas 800I A2(昇腾 910)属不同产品线。

1.2 芯片 AI 算力规格(技术白皮书)

同系列单芯产品 Atlas 300I Pro 的技术白皮书「3.1 基本规格」对 AI 算力的描述如下(芯片为 Ascend 310P,与 300I Duo 同架构):

精度类型AI 算力白皮书是否列出
半精度(FP16)70 TFLOPS
整数精度(INT8)140 TOPS
Bfloat16(BF16)未列出

来源:华为 Atlas 300I Pro 推理卡技术白皮书(§3.1 基本规格)

解读

  • 白皮书仅声明 FP16 / INT8 两类 AI 算力指标,未提供 BF16 算力,与 CANN 文档「310P 不在 bfloat16 支持列表」一致。
  • Atlas 300I Duo 为双芯 310P 推理卡(1 张物理卡 = 2 个 Chip),算力规格按芯片数线性扩展;本机 8 Chip(4 张 Duo 卡) 在 FP16 路径上可提供多芯并行推理能力,但仍不支持 BF16 原生加速
  • 大模型部署应使用 FP16 浮点INT8/W8A8 量化,勿按 BF16 权重直接推理。

1.3 CANN 精度模式约束(核心依据)

官方文档:CANN --precision_mode_v2 参数说明

要点说明
默认精度fp16(默认值):原图算子为 float16 / bfloat16 / float32 时,强制选择 float16
BF16 硬件白名单bfloat16 数据类型仅支持:Atlas A2/A3 训练与推理系列、Atlas 200I/500 A2、Atlas 350 加速卡
310P 结论Atlas 推理系列产品(310P)不在 bfloat16 支持列表中 → AI Core 不支持 bfloat16 原生加速
mixed_bfloat16该混合精度模式在 A2/A3、200I/500 A2 上可用;310P 不可用
310P 可用模式fp16mixed_float16origin 等(产品支持表中 Atlas 推理系列产品为 √)

1.4 大模型推理实践约束

层级Atlas 300I Duo(310P)要求
CANN / 算子默认 fp16;无 BF16 AI Core 路径
MindIE / ATBconfig.json"torch_dtype": "float16"(必须)
vLLM-Ascend--dtype float16310P 部署文档
错误用法权重保持 bfloat16 直接在 310P 上跑 → 加载失败、回退 CPU 或精度异常

1.5 与 800I A2 的对比(便于对照)

硬件BF16 原生(CANN)FP16 原生大模型推荐 dtype
Atlas 800I A2(910)bfloat16(推荐)
Atlas 300I Duo(310P)float16(必须)

二、国产模型支持列表(方法论)

2.1 主索引来源

MindIE-LLM 支持模型列表

该表提供:模型名、量化能力(W8A8 等)、Atlas 300I Duo 卡数推荐
注意:总表不单独列出 FP16/BF16 列,需下钻各模型 README 的特性矩阵,并结合第一节硬件约束解读。

2.2 判读规则(硬件 × 模型矩阵)

README 特性矩阵中 FP16 / BF16 列表示模型软件栈是否支持该精度;在 300I Duo 上还需叠加硬件限制:

README 中 FP16README 中 BF16300I Duo 实际用法
使用 FP16torch_dtype: float16);BF16 列对 310P 无效
浮点权重无法在 310P 直跑;需 W8A8 / W8A8SC 等量化权重
仅量化或其他格式;按 README 量化章节操作

各系列 README 中均有类似说明,例如 Qwen:

Qwen2/2.5 系列:800I A2 仅支持 bfloat16300I DUO 仅支持 float16
链接:Qwen README


三、通义千问(Qwen)— 300I Duo 分析

README 主链接MindIE-LLM Qwen 系列 README
ModelZoo 示例Qwen2.5-14B-Instruct

3.1 当前主流模型一览(300I Duo + FP16 核实)

模型总表 300I DuoREADME 300I TPFP16BF16310P 推荐部署方式链接
Qwen3-8B1 卡world size 1FP16 浮点总表 / README
Qwen3-14B1 卡world size 2FP16 浮点 / W8A8同上
Qwen3-32B2 卡(4 Chip)world size 4FP16 浮点 / W8A8 / W8A8SC同上
Qwen2-72B-Instruct4 卡(推荐)world size 2,4,8FP16 浮点 / W8A8同上
Qwen2.5-14B-Instruct2 卡(推荐)world size 2,4,8FP16 浮点 / W8A8 / 稀疏量化ModelZoo
Qwen3-30B-A3B(MoE)2 卡world size 2,4须 W8A8(浮点 BF16 无法在 310P 运行)README 量化章节
Qwen3-235B-A22B(MoE)4 卡 8 芯 ※README 标 ❌须 W8A8;总表与 README 卡数存在差异,部署前以 README + 实测为准同上
Qwen3-Coder-480B-A35B4 卡 8 芯 ※README 标 ❌须 W8A8;同上同上
Qwen2.5-32B / 72B32B 未列 Duo / 72B 未列 DuoREADME 标 ❌README 未验证 300I Duo 浮点路径同上

总表与 README 差异:MindIE 总表对 Qwen3-235B、Qwen3-Coder-480B 标注「300I Duo:4 卡 8 芯」,但 Qwen README 特性矩阵300I DUO Tensor Parallelism 为 ❌。建议以 README 为准做可行性评估,并优先使用 W8A8 量化权重

3.2 300I Duo 配置要点(Qwen)

1
2
3
4
// 权重目录 config.json(浮点推理)
{
  "torch_dtype": "float16"
}

3.3 结论(Qwen @ 310P)

场景推荐模型
单机 8 Chip 主力推理Qwen3-32B(FP16,2 卡 4 Chip)、Qwen3-14B、Qwen2.5-14B
最大参数量(MoE)Qwen3-235B-A22B(W8A8,占满 8 Chip,需核实总表与 README 差异)
不适合 310PQwen2.5-32B/72B(README 未支持 300I Duo 浮点)

四、智谱(GLM)— 300I Duo 分析

总表 GLM 章节MindIE 模型列表 - GLM

4.1 当前主流模型一览

模型总表 300I DuoREADME 300I TPFP16BF16310P 部署方式链接
GLM4-9B1–2 卡(推荐 1 卡)world size 1,2,4FP16 浮点 / W8A8GLM4-9B README
ChatGLM3-6B1–2 卡world size 1,2FP16 浮点ChatGLM3 README
GLM-4.1V-9B-Thinking(多模态)1 卡world size 1,2FP16 浮点 / W8A8SC;量化命令 --torch_dtype fp16GLM-4.1V README
GLM-4.5不支持需 Atlas 800I A2 16 卡(910)总表
GLM-5 / GLM-5.1未列入 MindIE 总表910B(Atlas 800T A3 等);见 昇腾 GLM-5 适配新闻

4.2 GLM4-9B 特性矩阵(README 摘录)

来源:GLM4-9B README - 特性矩阵

项目800I A2300I DUO
Tensor Parallelismworld size 1,2,4,8world size 1,2,4
FP16✅(310P 须用此项
BF16✅(矩阵项为 ✅,但 310P 硬件不支持 BF16 加速
W8A8 量化
MindIE Service

4.3 结论(智谱 @ 310P)

能否部署模型
推荐GLM4-9B(FP16,1–2 卡)
✅ 可选ChatGLM2/3-6B、GLM-4.1V-9B-Thinking(多模态)
不支持GLM-4.5、GLM-5、GLM-5.1(需 910B 集群或 API)

五、月之暗面(Kimi)— 300I Duo 分析

总表 KIMI 章节MindIE 模型列表 - KIMI
READMEKimi-K2 README

5.1 当前主流模型一览

模型总表 300I Duo硬件要求(README)FP16/BF16 矩阵310P 结论链接
Kimi-K2-Instruct不支持≥4 台 Atlas 800I A2(8×64G)/ 或 A3 16 卡README FP16/BF16 特性矩阵;推理用 W8A8 量化权重❌ 无法部署总表 / README
Kimi-K2-Thinking不支持Atlas 800I A3 16 卡 910B(vLLM TP≥16)同上❌ 无法部署vLLM-Ascend Kimi-K2
Kimi K2.5未列入 MindIE 总表Atlas 800 A2/A3 + 910B无 310P 方案❌ 无法部署昇腾 Kimi K2.5 新闻

5.2 Kimi-K2 README 要点

  • 部署 Kimi-K2 W8A8 量化推理至少需要 4 台 Atlas 800I A2(每台 8×64G NPU)
  • 权重流程:FP8 原始权重 → 转换为 BF16 → 再生成 W8A8(复用 DeepSeek-V3 转换脚本)
  • 镜像:mindie:2.2 及以后版本;无 Atlas 300I Duo 部署章节

5.3 结论(Kimi @ 310P)

现有 8×310P3(Atlas 300I Duo)无法通过 MindIE 官方路径部署 Kimi K2 / K2.5 系列。
替代方案:Moonshot 官方 API,或采购 Atlas 800I A3(910B)算力集群。


六、8×310P3 部署速查(结合用户环境)

厂家可在本机部署的最新主力模型dtype / 量化推荐卡数(300I Duo)
QwenQwen3-32B、Qwen3-14B、Qwen2-72BFP16 或 W8A82–4 卡(4–8 Chip)
智谱GLM4-9BFP16 或 W8A81–2 卡
Kimi不支持

部署前检查清单

  1. npu-smi info 确认 310P3 正常
  2. 权重 config.json"torch_dtype": "float16"
  3. MoE 大模型(Qwen3-30B-A3B 等)→ 使用 W8A8 量化权重,勿用 BF16 浮点
  4. MindIE worldSize / npuDeviceIds 与物理 Chip 数一致
  5. 查阅对应 README 特性矩阵确认 300I DUO Tensor Parallelism 列非 ❌

七、参考链接

类别链接
Atlas 300I Pro 技术白皮书(§3.1 基本规格)https://partner.huawei.com/eplus/marketing/#/cn/web/materialPreview?itemId=79b73117f68e4eac966515f81785fbbb&platType=partnerMD&origin=2&catalogId=5689&marketViewType=2&areaCode=1140
CANN BF16 硬件白名单https://www.hiascend.com/document/detail/zh/canncommercial/900/devaids/atctool/atlasatcparam_16_0069.html
Ascend C 算子数据类型https://www.hiascend.com/document/detail/zh/canncommercial/800/apiref/ascendcopapi/atlasascendc_api_07_0631.html
MindIE 模型总表https://mindie-llm-doc.readthedocs.io/zh-cn/latest/user_guide/model_support_list/
Qwen README(FP16/BF16 矩阵)https://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/qwen/README.md
GLM4-9B READMEhttps://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/chatglm/v4_9b/README.md
GLM-4.1V READMEhttps://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/glm41v/README.md
Kimi-K2 READMEhttps://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/kimi_k2/README.md
ModelZoo Qwen2.5-14Bhttps://www.hiascend.com/software/modelzoo/models/detail/c67794f848aa49dbac7557f68cbbed27
vLLM-Ascend 310Phttps://docs.vllm.ai/projects/ascend/en/latest/tutorials/hardwares/310p.html
MindIE 镜像(300I-Duo)https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c3439d48f

MindIE 总表会随版本更新;部署前请以对应模型 README 特性矩阵 + CANN 精度文档交叉验证。若总表与 README 冲突,优先以 README 特性矩阵和实测结果为准

本文由作者按照 CC BY 4.0 进行授权