大语言模型发展过程简介
大语言模型发展过程简介
仅整理记录到2026年。从 Transformer(2017)到 ChatGPT(2022)再到推理模型与 Agent(2024+),梳理大语言模型发展的关键转向:架构分叉、规模涌现、对齐与后训练、开源追赶、RAG 与系统化工程。不追求名词年表,而讲清主线。
- 原文作者:dongzhang84 / snowboat-blog
- 原文链接:https://github.com/dongzhang84/snowboat-blog/blob/main/archive/%E4%B8%80%E7%AF%87%E6%96%87%E7%AB%A0%E8%AE%B2%E6%B8%85%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%8F%91%E5%B1%95%E5%8F%B2.md
目录
1. 为什么要讲这条主线
2022 年 11 月 ChatGPT 发布后,大语言模型从实验室走向日常。预训练、微调、RLHF、Scaling Law、MoE、RAG、Agent、推理模型等名词堆叠,容易越看越乱。
真正重要的不是每一篇论文,而是几次关键转向:
1
2
3
4
5
6
Transformer 架构(2017)
→ Encoder / Decoder 分叉(2018:BERT vs GPT)
→ 规模涌现 in-context learning(2020:GPT-3)
→ 对齐与后训练(2022:InstructGPT / ChatGPT)
→ 开源与效率(2023–2024:LLaMA、Chinchilla、MoE、DeepSeek、Qwen)
→ 推理时算力 + 系统化(2024+:o1、RAG、MCP、Agent)
按技术演变划分
若不看年份年表,而按关键技术层回顾,大语言模型的发展大致是层层叠加:
1
2
架构底座 → 预训练与规模 → 训练/推理工程 → 后训练对齐
→ 结构与效率(MoE 等)→ 推理时算力 → 系统化(RAG / Agent)
| 技术层 | 代表 | 解决什么问题 |
|---|---|---|
| 架构 | Transformer(2017);BERT / GPT 分叉(2018);Decoder-only 成为 LLM 主流 | 并行计算、长依赖;理解 vs 生成路线;统一 next-token 预训练 |
| 预训练 | GPT 系列 next-token prediction;GPT-3 in-context learning;Foundation Model 范式 | 从海量无标注文本学语言与知识;规模涌现 few-shot;一模型多任务 |
| 训练工程 | Megatron 张量并行、ZeRO、3D 并行;Chinchilla 参数×数据配比 | 千亿参数训得动;算力预算花在「更大模型」还是「更多 token」 |
| 后训练 | SFT、RLHF(RM + PPO)、DPO、Constitutional AI | 「知道什么」→「按人预期做」;预训练给知识,后训练给性格与对齐 |
| 推理工程 | FlashAttention、KV Cache、量化(INT8/INT4) | 推理便宜、够快 → ChatGPT 级产品用得起;用户反馈可规模化 |
| 结构与效率 | MoE(Mixture of Experts,混合专家) | 总参数量↑,每 token 激活参数可控;容量与单次成本解耦 |
| 推理时算力 | o1、DeepSeek-R1、extended thinking | 新 scaling 轴:回答阶段多「思考」,数学/代码等可验证任务更强 |
| 系统化 | RAG、长上下文、Memory、Tool calling、MCP、Harness、Agent | 模型从「会答」到「能查、能记、能调工具、能进工作流」 |
2. 架构的胜利(2017–2020)
2.1 Transformer:为翻译而生
2017 年 Google 翻译组发表《Attention Is All You Need》,提出 Transformer:用 Self-Attention 替代 RNN 的逐词串行,让 GPU 并行计算,并更好捕捉长距离依赖。
原始架构为 Encoder-Decoder:
| 组件 | 作用 |
|---|---|
| Encoder | 读原文,双向看上下文,输出原文表示 |
| Decoder | 写译文,因果 mask 不能偷看未来,并通过 Cross-Attention 对齐原文 |
Attention 的直觉:每个词给句中其他词打分,按权重融合上下文——「烤鸭」会从「北京」吸收语义,从「我」「的」吸收很少。
2.2 两半分家:BERT 与 GPT
2018 年起,Transformer 两半被拆开,各走一路。
Google → BERT(Encoder-only)
- 全称:Bidirectional Encoder Representations from Transformers
- 训练:MLM 完形填空 + NSP(下一句预测,后期许多变体已弱化)
- 特点:读词时可同时看左右上下文,产出 contextual embedding(非 word2vec 式固定向量)
OpenAI → GPT(Decoder-only)
- 全称:Generative Pre-trained Transformer
- 训练:预测下一个词,只看左侧,因果注意力
- 路线:海量无标注文本预训练 → 少量标注数据微调任务
OpenAI 反着 BERT 干的原因(当时):Google 已占 Encoder 赛道;生成更难但赌「规模够大时生成才是通用入口」;GPT 能续写,BERT 不能自然生成。
2018–2020 学界主流判断:理解归 BERT,生成归 GPT;BERT 像「正经 NLP」,GPT 像「文字接龙」。GPT-3 之后,这一上层判断被推翻。
2.3 BERT 与 GPT:理解、生成与分工
结合工程实践,可用一句话概括今日分工:
BERT 系 = 「理解 / 表示 / 匹配」基建;GPT 系 = 「生成 / 推理 / 对话」主模型。
| 维度 | BERT 系(Encoder) | GPT 系(Decoder-only) |
|---|---|---|
| 预训练 | 遮词填空,双向上下文 | 下一词预测,单向上下文 |
| 典型输出 | 向量、分类标签、NER 标签、答案 span | 自回归文本 |
| 是否单独「理解模块」 | 本身就是理解编码 | 无独立理解模型;读 prompt 的 Prefill 阶段即编码 |
| 开放生成 | 弱 | 强 |
| 今天主战场 | 分类、检索向量、Rerank | Chat、代码、Agent 中枢 |
GPT 也要「理解」输入:推理时先 Prefill(整段 prompt 过 Decoder),再 Decode(逐 token 生成)。理解与生成共用同一套参数,不是先挂一个 BERT 再挂一个 GPT。
为何 LLM 主流不加回 Encoder? 不是 Transformer「不完整」,而是 Decoder-only + 单一 next-token 目标 在 scaling、工程统一性上更占优;双向理解型任务仍由 Encoder / Cross-Encoder 承担(如 BGE、E5 embedding,RAG 里「搜」与「答」常分工)。
Embedding 是否都是 BERT? 检索向量很多源于 Encoder 一脉(Sentence-BERT、BGE、E5),也有 LLM 抽 hidden state 或闭源 API;RAG 常见组合是 Encoder 负责召回,Decoder 负责生成。
2.4 GPT-3:规模与范式转移
| 模型 | 时间 | 参数量 | 要点 |
|---|---|---|---|
| GPT-1 | 2018.06 | 1.17 亿 | 生成式预训练 + 任务微调 |
| GPT-2 | 2019.02 | 15 亿 | 长文本续写出圈;benchmark 仍打不过 RoBERTa |
| GPT-3 | 2020.05 | 1750 亿 | Few-shot / in-context learning 涌现 |
GPT-3 训练 1750 亿参数依赖 3D 并行(Megatron 张量并行、GPipe 流水线并行、ZeRO 优化器切分)及万卡级 GPU 集群——工程先造「望远镜」,理论实验才成为可能。
范式转移(相对 2018–2020「每任务 fine-tune 一个 BERT」):
| 维度 | 老范式 | 新范式(Foundation Model) |
|---|---|---|
| 数据 | 每任务标注集 | 通用语料 + prompt 示范 |
| 模型 | 一任务一模型 | 一基础模型多任务 |
| 新任务 | 重新标注、微调 | 写新 prompt |
| 研究焦点 | fine-tuning 技巧 | 规模 + prompt |
GPT-3 之后,前沿 LLM(GPT、Claude、Gemini、LLaMA、DeepSeek、Qwen)均为 Decoder-only 后代;BERT 系仍在搜索、分类、向量、Rerank 等窄场景主力运行。
3. 从能力到可用(2022)
3.1 RLHF 与后训练
GPT-3 API 能力很强,但不听话:胡编、跑题、不安全。鸿沟在于:「模型知道什么」≠「模型愿意按人预期做」。
OpenAI InstructGPT(2022.03)确立 RLHF 标准流程。先记术语:
| 缩写 | 英文全称 | 中文 |
|---|---|---|
| RLHF | Reinforcement Learning from Human Feedback | 基于人类反馈的强化学习——用人类偏好(排序、打分)训练模型,使其输出更符合期望 |
| SFT | Supervised Fine-Tuning | 监督微调——用「输入 → 标准答案」成对数据,像考试标准卷一样直接教模型该怎么答 |
| Reward Model | Reward Model(常简称 RM) | 奖励模型——不生成回答,只给任意回答打「人类会多喜欢」的分,供强化学习阶段使用 |
| PPO | Proximal Policy Optimization | 近端策略优化——一种强化学习算法;在 RLHF 里指让语言模型多生成、由奖励模型打分,再小步更新参数,避免训崩 |
| Post-training | Post-training | 后训练——预训练之后一切再训练的总称(SFT、RLHF、DPO、安全对齐等) |
RLHF 典型三段:
1
2
3
4
5
6
7
8
9
10
1. SFT(监督微调)
人工针对 prompt 写出「理想回答」→ 用 (问题, 标准答案) 对微调基座模型
2. 训练 Reward Model(奖励模型)
同一 prompt 生成多个候选回答 → 人工排序好→坏
→ 训练 RM:输入 (prompt, 回答),输出标量奖励分
3. PPO(近端策略优化)
语言模型生成回答 → RM 打分 → 用 PPO 更新模型参数
目标:提高 RM 认为「人类更喜欢」的回答概率,同时勿偏离 SFT 模型太远
关键结果:13 亿参数的 InstructGPT 在人类偏好上击败 1750 亿原版 GPT-3——「变好用」与「变大」几乎是两条路。
由此 后训练(Post-training) 与预训练并列:
| 阶段 | 英文 | 作用 |
|---|---|---|
| 预训练 | Pre-training | 语言与世界知识(next-token prediction) |
| 后训练 | Post-training | 听指令、风格、安全(SFT、RLHF、DPO、Constitutional AI 等) |
文中另出现的 DPO(Direct Preference Optimization,直接偏好优化)可视为 RLHF 的简化替代:直接用「偏好 A 优于 B」的数据优化模型,不必单独训 Reward Model + 跑 PPO,成本更低,DeepSeek 等后期对齐常用。
2022.11.30 ChatGPT 发布(GPT-3.5 + RLHF 路线),5 天百万用户——让模型从「会续写」变成「能对话」的,正是对齐层。
Anthropic 另走 Constitutional AI(宪法 AI / CAI):用明文原则让模型自评、自改,减少依赖亿级用户反馈;Claude 相对克制、愿承认「不知道」与此相关。
3.2 ChatGPT 与推理工程
RLHF 要持续改进,需要大规模、用得起的推理。ChatGPT 背后还有一轮工程窗口:
| 技术 | 作用 |
|---|---|
| FlashAttention | 减少 attention 的 HBM 搬运,显著提速 |
| KV Cache | 生成时复用已算 K/V,长对话更省 |
| 量化 | FP16 → INT8/INT4,单卡装更大模型 |
预训练给知识,后训练给性格;便宜推理让用户反馈从「40 人标注作坊」变成亿级信号(虽非唯一路径,Anthropic、DeepSeek 等用合成数据与 DPO 等亦追平)。
4. ChatGPT 之后(2023–2024)
4.1 闭源与开源
闭源前沿:GPT-4o、Claude、Gemini、Grok——卖 API/App/订阅,拼算力、产品、分发、企业销售。
开源 / 开放权重:Meta LLaMA(2023.02)引爆——证明「小参数 + 多数据 + 开放权重」可行;LLaMA-2 商用许可、Llama-3 追近 GPT-4;2025 后 DeepSeek、Qwen 等在开源前沿接棒。
全球格局简述:
| 区域 | 特点 |
|---|---|
| 美国 | 闭源前沿 + xAI/Google/Anthropic 多线 |
| 中国 | 反应快(文心、通义、GLM、Kimi、豆包等);DeepSeek、Qwen 开源全球开发者 |
| 欧洲 | Mistral 等,体量相对小 |
新模型架构多同源(Decoder-only + RoPE + RMSNorm 等 LLaMA 系配方),但权重与训练配方各自独立,不是复制粘贴 LLaMA 权重。
4.2 Chinchilla 与 MoE
Chinchilla(2022):同样算力下,参数与训练 token 应协同增长;700 亿参数 + 更多数据可胜过更大但数据不足的模型——修正「只堆参数」的直觉,LLaMA 路线受益。
MoE(混合专家)
| 缩写 | 英文全称 | 中文 |
|---|---|---|
| MoE | Mixture of Experts | 混合专家——把 FFN 等子模块拆成多个「专家」子网络,由路由器为每个 token 只激活其中少数几个,总参数量大但单次计算量可控 |
| Expert | Expert | 专家——MoE 层里的一条独立前馈子网络;不同专家可侧重不同模式(如语法、事实、代码等,非人工指定,训练中自发分化) |
| Router / Gate | Router / Gating Network | 路由器 / 门控网络——根据 token 表示计算各专家得分,选出 Top-K 个专家参与计算 |
| Top-K routing | Top-K Routing | Top-K 路由——每个 token 只走得分最高的 K 个专家(常见 K=1 或 2) |
| Sparse activation | Sparse Activation | 稀疏激活——相对「稠密模型」每次前向都动用全部参数,MoE 每次只激活总参数的一小部分 |
| Dense model | Dense Model | 稠密模型——标准 Transformer,每层 FFN 全体参数对每个 token 都参与计算 |
直觉:普通模型像「每次问题都全员开会」;MoE 像「调度员只叫最相关的 2 位专家上场」。总容量(参数量)可以很大,单次推理激活参数量却接近小模型,成本与效果更平衡。
| 代表 | 说明 |
|---|---|
| Mixtral 8×7B | 8 个专家,每 token 激活 2 个;总参数约 47B 量级,激活约 13B |
| DeepSeek-V3 | 总参数约 6710 亿,每 token 激活约 370 亿 |
MoE 早年因路由不均、训练不稳定、多卡通信成本高而难落地;2023 年后工程成熟(路由算法、通信优化、低精度训练等),Mixtral、DeepSeek-V3 等将其推入主流。
二者合起来:更会分配算力(数据 + 稀疏激活),是 2023–2024 开源快速追赶的重要背景。
5. 新维度与系统化(2024 至今)
5.1 推理模型
预训练 scaling 仍在,但出现新轴:推理时算力(test-time compute)——回答前多「思考」、多试路径、可验证任务(数学、代码)用 RL 奖励。
| 代表 | 时间 | 要点 |
|---|---|---|
| OpenAI o1 | 2024.09 | 推理模式进入公众视野 |
| DeepSeek R1 | 2025.01 | 开源推理能力 |
| Claude extended thinking 等 | 2025 | 各家跟进 |
大力出奇迹从「训练时砸算力」扩展到「回答时也砸算力」;用户看到一句答案,背后可能已有大量内部 thinking token。
5.2 RAG、工具与 Agent
模型变强后,瓶颈转向如何进入真实工作流:
1
2
3
4
5
6
7
RAG → 接外部知识库(检索 + 生成)
长上下文 → 单轮读更多材料
Memory → 跨会话记住偏好与背景
Tool calling → 输出结构化调用,触发 API/数据库
MCP → 工具与数据源的统一接入协议
Harness → 权限、日志、评测、重试、审批等「套在模型外的工程壳」
Agent → 目标拆解 + 工具循环 + 人在回路
RAG 源于 2020 年 Facebook AI 论文,ChatGPT 后成为企业知识库标配;与 BM25 / 向量混合检索、Rerank 等配合(参见本站 RAG 专栏)。Coding Agent(Cursor、Claude Code)因代码有明确对错反馈,成为 Agent 最先跑通的场景之一。
2025 年起竞争重心部分从「模型榜单」转向「应用与流程」:基础模型公司做 Agent 产品,SaaS 被迫 Agent 化,企业买的是更低成本、更快流程、更少错误,而非单纯 token。
八年压缩成一句:一个为机器翻译设计的架构,经预训练放大、后训练对齐、工程降本、MoE 提效、系统封装后,成为软件世界的新接口——往下接数据、工具与算力,往上接人、流程与决策。LLM 不只是一类聊天产品,而是可被调用、约束、组合、部署的通用计算零件;接下来几年,主角将越来越是围绕模型搭建能交付结果的系统。
