Atlas300I-Duo国产大模型部署与精度支持说明
Atlas300I-Duo国产大模型部署与精度支持说明
适用于 Atlas 300I Duo 推理卡(Ascend 310P3),如 TaiShan 200 + 8×310P3(4 张 Duo / 8 Chip)。说明 FP16 / BF16 硬件约束、MindIE-LLM 国产模型(Qwen、GLM、Kimi)在 300I Duo 上的支持判读与部署速查。
一、硬件对算子精度数据类型的限制
1.1 产品归属
Atlas 300I Duo 属于昇腾 「Atlas 推理系列产品」(Ascend 310P AI 处理器),与 Atlas 800I A2(昇腾 910)属不同产品线。
- 产品形态说明:昇腾 MindX SDK - 硬件形态
- AI Core 数据类型(Ascend C 算子层):Atlas 推理系列产品 支持
half(FP16)、float(FP32)、int8_t,不含bfloat16_t
链接:SetTensorA 算子 API
1.2 芯片 AI 算力规格(技术白皮书)
同系列单芯产品 Atlas 300I Pro 的技术白皮书「3.1 基本规格」对 AI 算力的描述如下(芯片为 Ascend 310P,与 300I Duo 同架构):
| 精度类型 | AI 算力 | 白皮书是否列出 |
|---|---|---|
| 半精度(FP16) | 70 TFLOPS | ✅ |
| 整数精度(INT8) | 140 TOPS | ✅ |
| Bfloat16(BF16) | — | ❌ 未列出 |
来源:华为 Atlas 300I Pro 推理卡技术白皮书(§3.1 基本规格)
解读:
- 白皮书仅声明 FP16 / INT8 两类 AI 算力指标,未提供 BF16 算力,与 CANN 文档「310P 不在 bfloat16 支持列表」一致。
- Atlas 300I Duo 为双芯 310P 推理卡(1 张物理卡 = 2 个 Chip),算力规格按芯片数线性扩展;本机 8 Chip(4 张 Duo 卡) 在 FP16 路径上可提供多芯并行推理能力,但仍不支持 BF16 原生加速。
- 大模型部署应使用 FP16 浮点或 INT8/W8A8 量化,勿按 BF16 权重直接推理。
1.3 CANN 精度模式约束(核心依据)
官方文档:CANN --precision_mode_v2 参数说明
| 要点 | 说明 |
|---|---|
| 默认精度 | fp16(默认值):原图算子为 float16 / bfloat16 / float32 时,强制选择 float16 |
| BF16 硬件白名单 | bfloat16 数据类型仅支持:Atlas A2/A3 训练与推理系列、Atlas 200I/500 A2、Atlas 350 加速卡 |
| 310P 结论 | Atlas 推理系列产品(310P)不在 bfloat16 支持列表中 → AI Core 不支持 bfloat16 原生加速 |
| mixed_bfloat16 | 该混合精度模式仅在 A2/A3、200I/500 A2 上可用;310P 不可用 |
| 310P 可用模式 | fp16、mixed_float16、origin 等(产品支持表中 Atlas 推理系列产品为 √) |
1.4 大模型推理实践约束
| 层级 | Atlas 300I Duo(310P)要求 |
|---|---|
| CANN / 算子 | 默认 fp16;无 BF16 AI Core 路径 |
| MindIE / ATB | config.json 中 "torch_dtype": "float16"(必须) |
| vLLM-Ascend | --dtype float16;310P 部署文档 |
| 错误用法 | 权重保持 bfloat16 直接在 310P 上跑 → 加载失败、回退 CPU 或精度异常 |
1.5 与 800I A2 的对比(便于对照)
| 硬件 | BF16 原生(CANN) | FP16 原生 | 大模型推荐 dtype |
|---|---|---|---|
| Atlas 800I A2(910) | ✅ | ✅ | bfloat16(推荐) |
| Atlas 300I Duo(310P) | ❌ | ✅ | float16(必须) |
二、国产模型支持列表(方法论)
2.1 主索引来源
该表提供:模型名、量化能力(W8A8 等)、Atlas 300I Duo 卡数推荐。
注意:总表不单独列出 FP16/BF16 列,需下钻各模型 README 的特性矩阵,并结合第一节硬件约束解读。
2.2 判读规则(硬件 × 模型矩阵)
README 特性矩阵中 FP16 / BF16 列表示模型软件栈是否支持该精度;在 300I Duo 上还需叠加硬件限制:
| README 中 FP16 | README 中 BF16 | 300I Duo 实际用法 |
|---|---|---|
| ✅ | ✅ | 使用 FP16(torch_dtype: float16);BF16 列对 310P 无效 |
| ❌ | ✅ | 浮点权重无法在 310P 直跑;需 W8A8 / W8A8SC 等量化权重 |
| ❌ | ❌ | 仅量化或其他格式;按 README 量化章节操作 |
各系列 README 中均有类似说明,例如 Qwen:
Qwen2/2.5 系列:800I A2 仅支持 bfloat16,300I DUO 仅支持 float16。
链接:Qwen README
三、通义千问(Qwen)— 300I Duo 分析
README 主链接:MindIE-LLM Qwen 系列 README
ModelZoo 示例:Qwen2.5-14B-Instruct
3.1 当前主流模型一览(300I Duo + FP16 核实)
| 模型 | 总表 300I Duo | README 300I TP | FP16 | BF16 | 310P 推荐部署方式 | 链接 |
|---|---|---|---|---|---|---|
| Qwen3-8B | 1 卡 | world size 1 | ✅ | ✅ | FP16 浮点 | 总表 / README |
| Qwen3-14B | 1 卡 | world size 2 | ✅ | ✅ | FP16 浮点 / W8A8 | 同上 |
| Qwen3-32B | 2 卡(4 Chip) | world size 4 | ✅ | ✅ | FP16 浮点 / W8A8 / W8A8SC | 同上 |
| Qwen2-72B-Instruct | 4 卡(推荐) | world size 2,4,8 | ✅ | ✅ | FP16 浮点 / W8A8 | 同上 |
| Qwen2.5-14B-Instruct | 2 卡(推荐) | world size 2,4,8 | ✅ | ✅ | FP16 浮点 / W8A8 / 稀疏量化 | ModelZoo |
| Qwen3-30B-A3B(MoE) | 2 卡 | world size 2,4 | ❌ | ✅ | 须 W8A8(浮点 BF16 无法在 310P 运行) | README 量化章节 |
| Qwen3-235B-A22B(MoE) | 4 卡 8 芯 ※ | README 标 ❌ | ❌ | ✅ | 须 W8A8;总表与 README 卡数存在差异,部署前以 README + 实测为准 | 同上 |
| Qwen3-Coder-480B-A35B | 4 卡 8 芯 ※ | README 标 ❌ | ❌ | ✅ | 须 W8A8;同上 | 同上 |
| Qwen2.5-32B / 72B | 32B 未列 Duo / 72B 未列 Duo | README 标 ❌ | ✅ | ✅ | README 未验证 300I Duo 浮点路径 | 同上 |
※ 总表与 README 差异:MindIE 总表对 Qwen3-235B、Qwen3-Coder-480B 标注「300I Duo:4 卡 8 芯」,但 Qwen README 特性矩阵 中 300I DUO Tensor Parallelism 为 ❌。建议以 README 为准做可行性评估,并优先使用 W8A8 量化权重。
3.2 300I Duo 配置要点(Qwen)
1
2
3
4
// 权重目录 config.json(浮点推理)
{
"torch_dtype": "float16"
}
- 精度测试脚本:权重为 float16 时,将
pa_bf16改为pa_fp16(见 ModelZoo Qwen2.5-14B FAQ) - 稀疏量化 W8A8SC:仅支持 300I DUO(见 Qwen README)
- vLLM 替代路径:Qwen3-8B/14B/32B W8A8SC-310 权重 +
--dtype float16
3.3 结论(Qwen @ 310P)
| 场景 | 推荐模型 |
|---|---|
| 单机 8 Chip 主力推理 | Qwen3-32B(FP16,2 卡 4 Chip)、Qwen3-14B、Qwen2.5-14B |
| 最大参数量(MoE) | Qwen3-235B-A22B(W8A8,占满 8 Chip,需核实总表与 README 差异) |
| 不适合 310P | Qwen2.5-32B/72B(README 未支持 300I Duo 浮点) |
四、智谱(GLM)— 300I Duo 分析
总表 GLM 章节:MindIE 模型列表 - GLM
4.1 当前主流模型一览
| 模型 | 总表 300I Duo | README 300I TP | FP16 | BF16 | 310P 部署方式 | 链接 |
|---|---|---|---|---|---|---|
| GLM4-9B | 1–2 卡(推荐 1 卡) | world size 1,2,4 | ✅ | ✅ | FP16 浮点 / W8A8 | GLM4-9B README |
| ChatGLM3-6B | 1–2 卡 | world size 1,2 | ✅ | ✅ | FP16 浮点 | ChatGLM3 README |
| GLM-4.1V-9B-Thinking(多模态) | 1 卡 | world size 1,2 | ✅ | ✅ | FP16 浮点 / W8A8SC;量化命令 --torch_dtype fp16 | GLM-4.1V README |
| GLM-4.5 | 不支持 | — | — | — | 需 Atlas 800I A2 16 卡(910) | 总表 |
| GLM-5 / GLM-5.1 | 未列入 MindIE 总表 | — | — | — | 仅 910B(Atlas 800T A3 等);见 昇腾 GLM-5 适配新闻 | — |
4.2 GLM4-9B 特性矩阵(README 摘录)
| 项目 | 800I A2 | 300I DUO |
|---|---|---|
| Tensor Parallelism | world size 1,2,4,8 | world size 1,2,4 |
| FP16 | ✅ | ✅(310P 须用此项) |
| BF16 | ✅ | ✅(矩阵项为 ✅,但 310P 硬件不支持 BF16 加速) |
| W8A8 量化 | ✅ | ✅ |
| MindIE Service | ✅ | ✅ |
4.3 结论(智谱 @ 310P)
| 能否部署 | 模型 |
|---|---|
| ✅ 推荐 | GLM4-9B(FP16,1–2 卡) |
| ✅ 可选 | ChatGLM2/3-6B、GLM-4.1V-9B-Thinking(多模态) |
| ❌ 不支持 | GLM-4.5、GLM-5、GLM-5.1(需 910B 集群或 API) |
五、月之暗面(Kimi)— 300I Duo 分析
总表 KIMI 章节:MindIE 模型列表 - KIMI
README:Kimi-K2 README
5.1 当前主流模型一览
| 模型 | 总表 300I Duo | 硬件要求(README) | FP16/BF16 矩阵 | 310P 结论 | 链接 |
|---|---|---|---|---|---|
| Kimi-K2-Instruct | 不支持 | ≥4 台 Atlas 800I A2(8×64G)/ 或 A3 16 卡 | README 无 FP16/BF16 特性矩阵;推理用 W8A8 量化权重 | ❌ 无法部署 | 总表 / README |
| Kimi-K2-Thinking | 不支持 | Atlas 800I A3 16 卡 910B(vLLM TP≥16) | 同上 | ❌ 无法部署 | vLLM-Ascend Kimi-K2 |
| Kimi K2.5 | 未列入 MindIE 总表 | Atlas 800 A2/A3 + 910B | 无 310P 方案 | ❌ 无法部署 | 昇腾 Kimi K2.5 新闻 |
5.2 Kimi-K2 README 要点
- 部署 Kimi-K2 W8A8 量化推理至少需要 4 台 Atlas 800I A2(每台 8×64G NPU)
- 权重流程:FP8 原始权重 → 转换为 BF16 → 再生成 W8A8(复用 DeepSeek-V3 转换脚本)
- 镜像:
mindie:2.2及以后版本;无 Atlas 300I Duo 部署章节
5.3 结论(Kimi @ 310P)
现有 8×310P3(Atlas 300I Duo)无法通过 MindIE 官方路径部署 Kimi K2 / K2.5 系列。
替代方案:Moonshot 官方 API,或采购 Atlas 800I A3(910B)算力集群。
六、8×310P3 部署速查(结合用户环境)
| 厂家 | 可在本机部署的最新主力模型 | dtype / 量化 | 推荐卡数(300I Duo) |
|---|---|---|---|
| Qwen | Qwen3-32B、Qwen3-14B、Qwen2-72B | FP16 或 W8A8 | 2–4 卡(4–8 Chip) |
| 智谱 | GLM4-9B | FP16 或 W8A8 | 1–2 卡 |
| Kimi | — | — | 不支持 |
部署前检查清单
npu-smi info确认 310P3 正常- 权重
config.json→"torch_dtype": "float16" - MoE 大模型(Qwen3-30B-A3B 等)→ 使用 W8A8 量化权重,勿用 BF16 浮点
- MindIE
worldSize/npuDeviceIds与物理 Chip 数一致 - 查阅对应 README 特性矩阵确认 300I DUO Tensor Parallelism 列非 ❌
七、参考链接
| 类别 | 链接 |
|---|---|
| Atlas 300I Pro 技术白皮书(§3.1 基本规格) | https://partner.huawei.com/eplus/marketing/#/cn/web/materialPreview?itemId=79b73117f68e4eac966515f81785fbbb&platType=partnerMD&origin=2&catalogId=5689&marketViewType=2&areaCode=1140 |
| CANN BF16 硬件白名单 | https://www.hiascend.com/document/detail/zh/canncommercial/900/devaids/atctool/atlasatcparam_16_0069.html |
| Ascend C 算子数据类型 | https://www.hiascend.com/document/detail/zh/canncommercial/800/apiref/ascendcopapi/atlasascendc_api_07_0631.html |
| MindIE 模型总表 | https://mindie-llm-doc.readthedocs.io/zh-cn/latest/user_guide/model_support_list/ |
| Qwen README(FP16/BF16 矩阵) | https://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/qwen/README.md |
| GLM4-9B README | https://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/chatglm/v4_9b/README.md |
| GLM-4.1V README | https://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/glm41v/README.md |
| Kimi-K2 README | https://gitcode.com/Ascend/MindIE-LLM/blob/master/examples/atb_models/examples/models/kimi_k2/README.md |
| ModelZoo Qwen2.5-14B | https://www.hiascend.com/software/modelzoo/models/detail/c67794f848aa49dbac7557f68cbbed27 |
| vLLM-Ascend 310P | https://docs.vllm.ai/projects/ascend/en/latest/tutorials/hardwares/310p.html |
| MindIE 镜像(300I-Duo) | https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c3439d48f |
MindIE 总表会随版本更新;部署前请以对应模型 README 特性矩阵 + CANN 精度文档交叉验证。若总表与 README 冲突,优先以 README 特性矩阵和实测结果为准。
