Atlas300I-Duo国产大模型部署与精度支持说明

发表于 2026/06/17

作者 handsomestwei

12 分钟阅读

适用于 Atlas 300I Duo 推理卡（Ascend 310P3），如 TaiShan 200 + 8×310P3（4 张 Duo / 8 Chip）。说明 FP16 / BF16 硬件约束、MindIE-LLM 国产模型（Qwen、GLM、Kimi）在 300I Duo 上的支持判读与部署速查。

一、硬件对算子精度数据类型的限制

1.1 产品归属

Atlas 300I Duo 属于昇腾 「Atlas 推理系列产品」（Ascend 310P AI 处理器），与 Atlas 800I A2（昇腾 910）属不同产品线。

产品形态说明：昇腾 MindX SDK - 硬件形态
AI Core 数据类型（Ascend C 算子层）：Atlas 推理系列产品 支持 half（FP16）、float（FP32）、int8_t，不含 bfloat16_t
链接：SetTensorA 算子 API

1.2 芯片 AI 算力规格（技术白皮书）

同系列单芯产品 Atlas 300I Pro 的技术白皮书「3.1 基本规格」对 AI 算力的描述如下（芯片为 Ascend 310P，与 300I Duo 同架构）：

精度类型	AI 算力	白皮书是否列出
半精度（FP16）	70 TFLOPS	✅
整数精度（INT8）	140 TOPS	✅
Bfloat16（BF16）	—	❌ 未列出

来源：华为 Atlas 300I Pro 推理卡技术白皮书（§3.1 基本规格）

解读：

白皮书仅声明 FP16 / INT8 两类 AI 算力指标，未提供 BF16 算力，与 CANN 文档「310P 不在 bfloat16 支持列表」一致。
Atlas 300I Duo 为双芯 310P 推理卡（1 张物理卡 = 2 个 Chip），算力规格按芯片数线性扩展；本机 8 Chip（4 张 Duo 卡） 在 FP16 路径上可提供多芯并行推理能力，但仍不支持 BF16 原生加速。
大模型部署应使用 FP16 浮点或 INT8/W8A8 量化，勿按 BF16 权重直接推理。

1.3 CANN 精度模式约束（核心依据）

官方文档：CANN --precision_mode_v2 参数说明

要点	说明
默认精度	`fp16`（默认值）：原图算子为 float16 / bfloat16 / float32 时，强制选择 float16
BF16 硬件白名单	bfloat16 数据类型仅支持：Atlas A2/A3 训练与推理系列、Atlas 200I/500 A2、Atlas 350 加速卡
310P 结论	Atlas 推理系列产品（310P）不在 bfloat16 支持列表中 → AI Core 不支持 bfloat16 原生加速
mixed_bfloat16	该混合精度模式仅在 A2/A3、200I/500 A2 上可用；310P 不可用
310P 可用模式	`fp16`、`mixed_float16`、`origin` 等（产品支持表中 Atlas 推理系列产品为 √）

1.4 大模型推理实践约束

层级	Atlas 300I Duo（310P）要求
CANN / 算子	默认 `fp16`；无 BF16 AI Core 路径
MindIE / ATB	`config.json` 中 `"torch_dtype": "float16"`（必须）
vLLM-Ascend	`--dtype float16`；310P 部署文档
错误用法	权重保持 `bfloat16` 直接在 310P 上跑 → 加载失败、回退 CPU 或精度异常

1.5 与 800I A2 的对比（便于对照）

硬件	BF16 原生（CANN）	FP16 原生	大模型推荐 dtype
Atlas 800I A2（910）	✅	✅	bfloat16（推荐）
Atlas 300I Duo（310P）	❌	✅	float16（必须）

二、国产模型支持列表（方法论）

2.1 主索引来源

MindIE-LLM 支持模型列表

该表提供：模型名、量化能力（W8A8 等）、Atlas 300I Duo 卡数推荐。
注意：总表不单独列出 FP16/BF16 列，需下钻各模型 README 的特性矩阵，并结合第一节硬件约束解读。

2.2 判读规则（硬件 × 模型矩阵）

README 特性矩阵中 FP16 / BF16 列表示模型软件栈是否支持该精度；在 300I Duo 上还需叠加硬件限制：

README 中 FP16	README 中 BF16	300I Duo 实际用法
✅	✅	使用 FP16（`torch_dtype: float16`）；BF16 列对 310P 无效
❌	✅	浮点权重无法在 310P 直跑；需 W8A8 / W8A8SC 等量化权重
❌	❌	仅量化或其他格式；按 README 量化章节操作

各系列 README 中均有类似说明，例如 Qwen：

Qwen2/2.5 系列：800I A2 仅支持 bfloat16，300I DUO 仅支持 float16。
链接：Qwen README

三、通义千问（Qwen）— 300I Duo 分析

README 主链接：MindIE-LLM Qwen 系列 README
ModelZoo 示例：Qwen2.5-14B-Instruct

3.1 当前主流模型一览（300I Duo + FP16 核实）

模型	总表 300I Duo	README 300I TP	FP16	BF16	310P 推荐部署方式	链接
Qwen3-8B	1 卡	world size 1	✅	✅	FP16 浮点	总表 / README
Qwen3-14B	1 卡	world size 2	✅	✅	FP16 浮点 / W8A8	同上
Qwen3-32B	2 卡（4 Chip）	world size 4	✅	✅	FP16 浮点 / W8A8 / W8A8SC	同上
Qwen2-72B-Instruct	4 卡（推荐）	world size 2,4,8	✅	✅	FP16 浮点 / W8A8	同上
Qwen2.5-14B-Instruct	2 卡（推荐）	world size 2,4,8	✅	✅	FP16 浮点 / W8A8 / 稀疏量化	ModelZoo
Qwen3-30B-A3B（MoE）	2 卡	world size 2,4	❌	✅	须 W8A8（浮点 BF16 无法在 310P 运行）	README 量化章节
Qwen3-235B-A22B（MoE）	4 卡 8 芯 ※	README 标 ❌	❌	✅	须 W8A8；总表与 README 卡数存在差异，部署前以 README + 实测为准	同上
Qwen3-Coder-480B-A35B	4 卡 8 芯 ※	README 标 ❌	❌	✅	须 W8A8；同上	同上
Qwen2.5-32B / 72B	32B 未列 Duo / 72B 未列 Duo	README 标 ❌	✅	✅	README 未验证 300I Duo 浮点路径	同上

※ 总表与 README 差异：MindIE 总表对 Qwen3-235B、Qwen3-Coder-480B 标注「300I Duo：4 卡 8 芯」，但 Qwen README 特性矩阵中 300I DUO Tensor Parallelism 为 ❌。建议以 README 为准做可行性评估，并优先使用 W8A8 量化权重。

3.2 300I Duo 配置要点（Qwen）

  
// 权重目录 config.json（浮点推理）
{
  "torch_dtype": "float16"
}

精度测试脚本：权重为 float16 时，将 pa_bf16 改为 pa_fp16（见 ModelZoo Qwen2.5-14B FAQ）
稀疏量化 W8A8SC：仅支持 300I DUO（见 Qwen README）
vLLM 替代路径：Qwen3-8B/14B/32B W8A8SC-310 权重 + --dtype float16

3.3 结论（Qwen @ 310P）

场景	推荐模型
单机 8 Chip 主力推理	Qwen3-32B（FP16，2 卡 4 Chip）、Qwen3-14B、Qwen2.5-14B
最大参数量（MoE）	Qwen3-235B-A22B（W8A8，占满 8 Chip，需核实总表与 README 差异）
不适合 310P	Qwen2.5-32B/72B（README 未支持 300I Duo 浮点）

四、智谱（GLM）— 300I Duo 分析

总表 GLM 章节：MindIE 模型列表 - GLM

4.1 当前主流模型一览

模型	总表 300I Duo	README 300I TP	FP16	BF16	310P 部署方式	链接
GLM4-9B	1–2 卡（推荐 1 卡）	world size 1,2,4	✅	✅	FP16 浮点 / W8A8	GLM4-9B README
ChatGLM3-6B	1–2 卡	world size 1,2	✅	✅	FP16 浮点	ChatGLM3 README
GLM-4.1V-9B-Thinking（多模态）	1 卡	world size 1,2	✅	✅	FP16 浮点 / W8A8SC；量化命令 `--torch_dtype fp16`	GLM-4.1V README
GLM-4.5	不支持	—	—	—	需 Atlas 800I A2 16 卡（910）	总表
GLM-5 / GLM-5.1	未列入 MindIE 总表	—	—	—	仅 910B（Atlas 800T A3 等）；见昇腾 GLM-5 适配新闻	—

4.2 GLM4-9B 特性矩阵（README 摘录）

来源：GLM4-9B README - 特性矩阵

项目	800I A2	300I DUO
Tensor Parallelism	world size 1,2,4,8	world size 1,2,4
FP16	✅	✅（310P 须用此项）
BF16	✅	✅（矩阵项为 ✅，但 310P 硬件不支持 BF16 加速）
W8A8 量化	✅	✅
MindIE Service	✅	✅

4.3 结论（智谱 @ 310P）

能否部署	模型
✅ 推荐	GLM4-9B（FP16，1–2 卡）
✅ 可选	ChatGLM2/3-6B、GLM-4.1V-9B-Thinking（多模态）
❌ 不支持	GLM-4.5、GLM-5、GLM-5.1（需 910B 集群或 API）

五、月之暗面（Kimi）— 300I Duo 分析

总表 KIMI 章节：MindIE 模型列表 - KIMI
README：Kimi-K2 README

5.1 当前主流模型一览

模型	总表 300I Duo	硬件要求（README）	FP16/BF16 矩阵	310P 结论	链接
Kimi-K2-Instruct	不支持	≥4 台 Atlas 800I A2（8×64G）/ 或 A3 16 卡	README 无 FP16/BF16 特性矩阵；推理用 W8A8 量化权重	❌ 无法部署	总表 / README
Kimi-K2-Thinking	不支持	Atlas 800I A3 16 卡 910B（vLLM TP≥16）	同上	❌ 无法部署	vLLM-Ascend Kimi-K2
Kimi K2.5	未列入 MindIE 总表	Atlas 800 A2/A3 + 910B	无 310P 方案	❌ 无法部署	昇腾 Kimi K2.5 新闻

5.2 Kimi-K2 README 要点

部署 Kimi-K2 W8A8 量化推理至少需要 4 台 Atlas 800I A2（每台 8×64G NPU）
权重流程：FP8 原始权重 → 转换为 BF16 → 再生成 W8A8（复用 DeepSeek-V3 转换脚本）
镜像：mindie:2.2 及以后版本；无 Atlas 300I Duo 部署章节

5.3 结论（Kimi @ 310P）

现有 8×310P3（Atlas 300I Duo）无法通过 MindIE 官方路径部署 Kimi K2 / K2.5 系列。
替代方案：Moonshot 官方 API，或采购 Atlas 800I A3（910B）算力集群。

六、8×310P3 部署速查（结合用户环境）

厂家	可在本机部署的最新主力模型	dtype / 量化	推荐卡数（300I Duo）
Qwen	Qwen3-32B、Qwen3-14B、Qwen2-72B	FP16 或 W8A8	2–4 卡（4–8 Chip）
智谱	GLM4-9B	FP16 或 W8A8	1–2 卡
Kimi	—	—	不支持

部署前检查清单

npu-smi info 确认 310P3 正常
权重 config.json → "torch_dtype": "float16"
MoE 大模型（Qwen3-30B-A3B 等）→ 使用 W8A8 量化权重，勿用 BF16 浮点
MindIE worldSize / npuDeviceIds 与物理 Chip 数一致
查阅对应 README 特性矩阵确认 300I DUO Tensor Parallelism 列非 ❌

七、参考链接

类别	链接
Atlas 300I Pro 技术白皮书（§3.1 基本规格）	https://partner.huawei.com/eplus/marketing/#/cn/web/materialPreview?itemId=79b73117f68e4eac966515f81785fbbb&platType=partnerMD&origin=2&catalogId=5689&marketViewType=2&areaCode=1140
CANN BF16 硬件白名单	https://www.hiascend.com/document/detail/zh/canncommercial/900/devaids/atctool/atlasatcparam_16_0069.html
Ascend C 算子数据类型	https://www.hiascend.com/document/detail/zh/canncommercial/800/apiref/ascendcopapi/atlasascendc_api_07_0631.html
MindIE 模型总表	https://mindie-llm-doc.readthedocs.io/zh-cn/latest/user_guide/model_support_list/
Qwen README（FP16/BF16 矩阵）	https://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/qwen/README.md
GLM4-9B README	https://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/chatglm/v4_9b/README.md
GLM-4.1V README	https://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/glm41v/README.md
Kimi-K2 README	https://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/kimi_k2/README.md
ModelZoo Qwen2.5-14B	https://www.hiascend.com/software/modelzoo/models/detail/c67794f848aa49dbac7557f68cbbed27
vLLM-Ascend 310P	https://docs.vllm.ai/projects/ascend/en/latest/tutorials/hardwares/310p.html
MindIE 镜像（300I-Duo）	https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c3439d48f

MindIE 总表会随版本更新；部署前请以对应模型 README 特性矩阵 + CANN 精度文档交叉验证。若总表与 README 冲突，优先以 README 特性矩阵和实测结果为准。

AI, hw-ascend

本文由作者按照 CC BY 4.0 进行授权

Atlas300I-Duo国产大模型部署与精度支持说明

一、硬件对算子精度数据类型的限制

1.1 产品归属

1.2 芯片 AI 算力规格（技术白皮书）

1.3 CANN 精度模式约束（核心依据）

1.4 大模型推理实践约束

1.5 与 800I A2 的对比（便于对照）

二、国产模型支持列表（方法论）

2.1 主索引来源

2.2 判读规则（硬件 × 模型矩阵）

三、通义千问（Qwen）— 300I Duo 分析

3.1 当前主流模型一览（300I Duo + FP16 核实）

3.2 300I Duo 配置要点（Qwen）

3.3 结论（Qwen @ 310P）

四、智谱（GLM）— 300I Duo 分析

4.1 当前主流模型一览

4.2 GLM4-9B 特性矩阵（README 摘录）

4.3 结论（智谱 @ 310P）

五、月之暗面（Kimi）— 300I Duo 分析

5.1 当前主流模型一览

5.2 Kimi-K2 README 要点

5.3 结论（Kimi @ 310P）

六、8×310P3 部署速查（结合用户环境）

部署前检查清单

七、参考链接

热门标签