大语言模型发展过程简介

发表于 2026/05/27

作者 handsomestwei

21 分钟阅读

大语言模型发展过程简介

仅整理记录到2026年。从 Transformer（2017）到 ChatGPT（2022）再到推理模型与 Agent（2024+），梳理大语言模型发展的关键转向：架构分叉、规模涌现、对齐与后训练、开源追赶、RAG 与系统化工程。不追求名词年表，而讲清主线。
原文作者：dongzhang84 / snowboat-blog
原文链接：https://github.com/dongzhang84/snowboat-blog/blob/main/archive/%E4%B8%80%E7%AF%87%E6%96%87%E7%AB%A0%E8%AE%B2%E6%B8%85%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%8F%91%E5%B1%95%E5%8F%B2.md

1. 为什么要讲这条主线
- 按技术演变划分
2. 架构的胜利（2017–2020）
3. 从能力到可用（2022）
- 3.1 RLHF 与后训练
- 3.2 ChatGPT 与推理工程
4. ChatGPT 之后（2023–2024）
- 4.1 闭源与开源
- 4.2 Chinchilla 与 MoE
5. 新维度与系统化（2024 至今）
- 5.1 推理模型
- 5.2 RAG、工具与 Agent

1. 为什么要讲这条主线

2022 年 11 月 ChatGPT 发布后，大语言模型从实验室走向日常。预训练、微调、RLHF、Scaling Law、MoE、RAG、Agent、推理模型等名词堆叠，容易越看越乱。

真正重要的不是每一篇论文，而是几次关键转向：

Transformer 架构（2017）
    → Encoder / Decoder 分叉（2018：BERT vs GPT）
    → 规模涌现 in-context learning（2020：GPT-3）
    → 对齐与后训练（2022：InstructGPT / ChatGPT）
    → 开源与效率（2023–2024：LLaMA、Chinchilla、MoE、DeepSeek、Qwen）
    → 推理时算力 + 系统化（2024+：o1、RAG、MCP、Agent）

按技术演变划分

若不看年份年表，而按关键技术层回顾，大语言模型的发展大致是层层叠加：

架构底座 → 预训练与规模 → 训练/推理工程 → 后训练对齐
    → 结构与效率（MoE 等）→ 推理时算力 → 系统化（RAG / Agent）

技术层	代表	解决什么问题
架构	Transformer（2017）；BERT / GPT 分叉（2018）；Decoder-only 成为 LLM 主流	并行计算、长依赖；理解 vs 生成路线；统一 next-token 预训练
预训练	GPT 系列 next-token prediction；GPT-3 in-context learning；Foundation Model 范式	从海量无标注文本学语言与知识；规模涌现 few-shot；一模型多任务
训练工程	Megatron 张量并行、ZeRO、3D 并行；Chinchilla 参数×数据配比	千亿参数训得动；算力预算花在「更大模型」还是「更多 token」
后训练	SFT、RLHF（RM + PPO）、DPO、Constitutional AI	「知道什么」→「按人预期做」；预训练给知识，后训练给性格与对齐
推理工程	FlashAttention、KV Cache、量化（INT8/INT4）	推理便宜、够快 → ChatGPT 级产品用得起；用户反馈可规模化
结构与效率	MoE（Mixture of Experts，混合专家）	总参数量↑，每 token 激活参数可控；容量与单次成本解耦
推理时算力	o1、DeepSeek-R1、extended thinking	新 scaling 轴：回答阶段多「思考」，数学/代码等可验证任务更强
系统化	RAG、长上下文、Memory、Tool calling、MCP、Harness、Agent	模型从「会答」到「能查、能记、能调工具、能进工作流」

2. 架构的胜利（2017–2020）

2.1 Transformer：为翻译而生

2017 年 Google 翻译组发表《Attention Is All You Need》，提出 Transformer：用 Self-Attention 替代 RNN 的逐词串行，让 GPU 并行计算，并更好捕捉长距离依赖。

原始架构为 Encoder-Decoder：

组件	作用
Encoder	读原文，双向看上下文，输出原文表示
Decoder	写译文，因果 mask 不能偷看未来，并通过 Cross-Attention 对齐原文

Attention 的直觉：每个词给句中其他词打分，按权重融合上下文——「烤鸭」会从「北京」吸收语义，从「我」「的」吸收很少。

2.2 两半分家：BERT 与 GPT

2018 年起，Transformer 两半被拆开，各走一路。

Google → BERT（Encoder-only）

全称：Bidirectional Encoder Representations from Transformers
训练：MLM 完形填空 + NSP（下一句预测，后期许多变体已弱化）
特点：读词时可同时看左右上下文，产出 contextual embedding（非 word2vec 式固定向量）

OpenAI → GPT（Decoder-only）

全称：Generative Pre-trained Transformer
训练：预测下一个词，只看左侧，因果注意力
路线：海量无标注文本预训练 → 少量标注数据微调任务

OpenAI 反着 BERT 干的原因（当时）：Google 已占 Encoder 赛道；生成更难但赌「规模够大时生成才是通用入口」；GPT 能续写，BERT 不能自然生成。

2018–2020 学界主流判断：理解归 BERT，生成归 GPT；BERT 像「正经 NLP」，GPT 像「文字接龙」。GPT-3 之后，这一上层判断被推翻。

2.3 BERT 与 GPT：理解、生成与分工

结合工程实践，可用一句话概括今日分工：

BERT 系 = 「理解 / 表示 / 匹配」基建；GPT 系 = 「生成 / 推理 / 对话」主模型。

维度	BERT 系（Encoder）	GPT 系（Decoder-only）
预训练	遮词填空，双向上下文	下一词预测，单向上下文
典型输出	向量、分类标签、NER 标签、答案 span	自回归文本
是否单独「理解模块」	本身就是理解编码	无独立理解模型；读 prompt 的 Prefill 阶段即编码
开放生成	弱	强
今天主战场	分类、检索向量、Rerank	Chat、代码、Agent 中枢

GPT 也要「理解」输入：推理时先 Prefill（整段 prompt 过 Decoder），再 Decode（逐 token 生成）。理解与生成共用同一套参数，不是先挂一个 BERT 再挂一个 GPT。

为何 LLM 主流不加回 Encoder？ 不是 Transformer「不完整」，而是 Decoder-only + 单一 next-token 目标 在 scaling、工程统一性上更占优；双向理解型任务仍由 Encoder / Cross-Encoder 承担（如 BGE、E5 embedding，RAG 里「搜」与「答」常分工）。

Embedding 是否都是 BERT？ 检索向量很多源于 Encoder 一脉（Sentence-BERT、BGE、E5），也有 LLM 抽 hidden state 或闭源 API；RAG 常见组合是 Encoder 负责召回，Decoder 负责生成。

2.4 GPT-3：规模与范式转移

模型	时间	参数量	要点
GPT-1	2018.06	1.17 亿	生成式预训练 + 任务微调
GPT-2	2019.02	15 亿	长文本续写出圈；benchmark 仍打不过 RoBERTa
GPT-3	2020.05	1750 亿	Few-shot / in-context learning 涌现

GPT-3 训练 1750 亿参数依赖 3D 并行（Megatron 张量并行、GPipe 流水线并行、ZeRO 优化器切分）及万卡级 GPU 集群——工程先造「望远镜」，理论实验才成为可能。

范式转移（相对 2018–2020「每任务 fine-tune 一个 BERT」）：

维度	老范式	新范式（Foundation Model）
数据	每任务标注集	通用语料 + prompt 示范
模型	一任务一模型	一基础模型多任务
新任务	重新标注、微调	写新 prompt
研究焦点	fine-tuning 技巧	规模 + prompt

GPT-3 之后，前沿 LLM（GPT、Claude、Gemini、LLaMA、DeepSeek、Qwen）均为 Decoder-only 后代；BERT 系仍在搜索、分类、向量、Rerank 等窄场景主力运行。

3. 从能力到可用（2022）

3.1 RLHF 与后训练

GPT-3 API 能力很强，但不听话：胡编、跑题、不安全。鸿沟在于：「模型知道什么」≠「模型愿意按人预期做」。

OpenAI InstructGPT（2022.03）确立 RLHF 标准流程。先记术语：

缩写	英文全称	中文
RLHF	Reinforcement Learning from Human Feedback	基于人类反馈的强化学习——用人类偏好（排序、打分）训练模型，使其输出更符合期望
SFT	Supervised Fine-Tuning	监督微调——用「输入 → 标准答案」成对数据，像考试标准卷一样直接教模型该怎么答
Reward Model	Reward Model（常简称 RM）	奖励模型——不生成回答，只给任意回答打「人类会多喜欢」的分，供强化学习阶段使用
PPO	Proximal Policy Optimization	近端策略优化——一种强化学习算法；在 RLHF 里指让语言模型多生成、由奖励模型打分，再小步更新参数，避免训崩
Post-training	Post-training	后训练——预训练之后一切再训练的总称（SFT、RLHF、DPO、安全对齐等）

RLHF 典型三段：

1. SFT（监督微调）
   人工针对 prompt 写出「理想回答」→ 用 (问题, 标准答案) 对微调基座模型

2. 训练 Reward Model（奖励模型）
   同一 prompt 生成多个候选回答 → 人工排序好→坏
   → 训练 RM：输入 (prompt, 回答)，输出标量奖励分

3. PPO（近端策略优化）
   语言模型生成回答 → RM 打分 → 用 PPO 更新模型参数
   目标：提高 RM 认为「人类更喜欢」的回答概率，同时勿偏离 SFT 模型太远

关键结果：13 亿参数的 InstructGPT 在人类偏好上击败 1750 亿原版 GPT-3——「变好用」与「变大」几乎是两条路。

由此 后训练（Post-training） 与预训练并列：

阶段	英文	作用
预训练	Pre-training	语言与世界知识（next-token prediction）
后训练	Post-training	听指令、风格、安全（SFT、RLHF、DPO、Constitutional AI 等）

文中另出现的 DPO（Direct Preference Optimization，直接偏好优化）可视为 RLHF 的简化替代：直接用「偏好 A 优于 B」的数据优化模型，不必单独训 Reward Model + 跑 PPO，成本更低，DeepSeek 等后期对齐常用。

2022.11.30 ChatGPT 发布（GPT-3.5 + RLHF 路线），5 天百万用户——让模型从「会续写」变成「能对话」的，正是对齐层。

Anthropic 另走 Constitutional AI（宪法 AI / CAI）：用明文原则让模型自评、自改，减少依赖亿级用户反馈；Claude 相对克制、愿承认「不知道」与此相关。

3.2 ChatGPT 与推理工程

RLHF 要持续改进，需要大规模、用得起的推理。ChatGPT 背后还有一轮工程窗口：

技术	作用
FlashAttention	减少 attention 的 HBM 搬运，显著提速
KV Cache	生成时复用已算 K/V，长对话更省
量化	FP16 → INT8/INT4，单卡装更大模型

预训练给知识，后训练给性格；便宜推理让用户反馈从「40 人标注作坊」变成亿级信号（虽非唯一路径，Anthropic、DeepSeek 等用合成数据与 DPO 等亦追平）。

4. ChatGPT 之后（2023–2024）

4.1 闭源与开源

闭源前沿：GPT-4o、Claude、Gemini、Grok——卖 API/App/订阅，拼算力、产品、分发、企业销售。

开源 / 开放权重：Meta LLaMA（2023.02）引爆——证明「小参数 + 多数据 + 开放权重」可行；LLaMA-2 商用许可、Llama-3 追近 GPT-4；2025 后 DeepSeek、Qwen 等在开源前沿接棒。

全球格局简述：

区域	特点
美国	闭源前沿 + xAI/Google/Anthropic 多线
中国	反应快（文心、通义、GLM、Kimi、豆包等）；DeepSeek、Qwen 开源全球开发者
欧洲	Mistral 等，体量相对小

新模型架构多同源（Decoder-only + RoPE + RMSNorm 等 LLaMA 系配方），但权重与训练配方各自独立，不是复制粘贴 LLaMA 权重。

4.2 Chinchilla 与 MoE

Chinchilla（2022）：同样算力下，参数与训练 token 应协同增长；700 亿参数 + 更多数据可胜过更大但数据不足的模型——修正「只堆参数」的直觉，LLaMA 路线受益。

MoE（混合专家）

缩写	英文全称	中文
MoE	Mixture of Experts	混合专家——把 FFN 等子模块拆成多个「专家」子网络，由路由器为每个 token 只激活其中少数几个，总参数量大但单次计算量可控
Expert	Expert	专家——MoE 层里的一条独立前馈子网络；不同专家可侧重不同模式（如语法、事实、代码等，非人工指定，训练中自发分化）
Router / Gate	Router / Gating Network	路由器 / 门控网络——根据 token 表示计算各专家得分，选出 Top-K 个专家参与计算
Top-K routing	Top-K Routing	Top-K 路由——每个 token 只走得分最高的 K 个专家（常见 K=1 或 2）
Sparse activation	Sparse Activation	稀疏激活——相对「稠密模型」每次前向都动用全部参数，MoE 每次只激活总参数的一小部分
Dense model	Dense Model	稠密模型——标准 Transformer，每层 FFN 全体参数对每个 token 都参与计算

直觉：普通模型像「每次问题都全员开会」；MoE 像「调度员只叫最相关的 2 位专家上场」。总容量（参数量）可以很大，单次推理激活参数量却接近小模型，成本与效果更平衡。

代表	说明
Mixtral 8×7B	8 个专家，每 token 激活 2 个；总参数约 47B 量级，激活约 13B
DeepSeek-V3	总参数约 6710 亿，每 token 激活约 370 亿

MoE 早年因路由不均、训练不稳定、多卡通信成本高而难落地；2023 年后工程成熟（路由算法、通信优化、低精度训练等），Mixtral、DeepSeek-V3 等将其推入主流。

二者合起来：更会分配算力（数据 + 稀疏激活），是 2023–2024 开源快速追赶的重要背景。

5. 新维度与系统化（2024 至今）

5.1 推理模型

预训练 scaling 仍在，但出现新轴：推理时算力（test-time compute）——回答前多「思考」、多试路径、可验证任务（数学、代码）用 RL 奖励。

代表	时间	要点
OpenAI o1	2024.09	推理模式进入公众视野
DeepSeek R1	2025.01	开源推理能力
Claude extended thinking 等	2025	各家跟进

大力出奇迹从「训练时砸算力」扩展到「回答时也砸算力」；用户看到一句答案，背后可能已有大量内部 thinking token。

5.2 RAG、工具与 Agent

模型变强后，瓶颈转向如何进入真实工作流：

RAG          → 接外部知识库（检索 + 生成）
长上下文      → 单轮读更多材料
Memory       → 跨会话记住偏好与背景
Tool calling → 输出结构化调用，触发 API/数据库
MCP          → 工具与数据源的统一接入协议
Harness      → 权限、日志、评测、重试、审批等「套在模型外的工程壳」
Agent        → 目标拆解 + 工具循环 + 人在回路

RAG 源于 2020 年 Facebook AI 论文，ChatGPT 后成为企业知识库标配；与 BM25 / 向量混合检索、Rerank 等配合（参见本站 RAG 专栏）。Coding Agent（Cursor、Claude Code）因代码有明确对错反馈，成为 Agent 最先跑通的场景之一。

2025 年起竞争重心部分从「模型榜单」转向「应用与流程」：基础模型公司做 Agent 产品，SaaS 被迫 Agent 化，企业买的是更低成本、更快流程、更少错误，而非单纯 token。

八年压缩成一句：一个为机器翻译设计的架构，经预训练放大、后训练对齐、工程降本、MoE 提效、系统封装后，成为软件世界的新接口——往下接数据、工具与算力，往上接人、流程与决策。LLM 不只是一类聊天产品，而是可被调用、约束、组合、部署的通用计算零件；接下来几年，主角将越来越是围绕模型搭建能交付结果的系统。

AI, AI基础

AI LLM Transformer BERT GPT ChatGPT

本文由作者按照 CC BY 4.0 进行授权

大语言模型发展过程简介

大语言模型发展过程简介

目录

1. 为什么要讲这条主线

按技术演变划分

2. 架构的胜利（2017–2020）

2.1 Transformer：为翻译而生

2.2 两半分家：BERT 与 GPT

2.3 BERT 与 GPT：理解、生成与分工

2.4 GPT-3：规模与范式转移

3. 从能力到可用（2022）

3.1 RLHF 与后训练

3.2 ChatGPT 与推理工程

4. ChatGPT 之后（2023–2024）

4.1 闭源与开源

4.2 Chinchilla 与 MoE

5. 新维度与系统化（2024 至今）

5.1 推理模型

5.2 RAG、工具与 Agent

热门标签