2025 年度报告 · 精读笔记

从「规模」到
「智能密度」

哈尔滨工业大学自然语言处理研究所（HIT-NLP）在 2026 年 1 月发布了一份近 330 页的《2025 年大语言模型进展报告》，由车万翔老师统稿、十余位教师与数十位研究生联合编撰，系统梳理了过去一年里架构、训练、部署、智能体、应用、评测与治理等多条战线上的关键进展。本页是对这份年度综述的精读摘要，保留原报告的技术脉络与判断立场，去掉 120 多页参考文献的负担。

Chapters

8章

Core Pages

328页

Publisher

HIT-NLP

Editor-in-Chief

车万翔

Executive Summary · 年度判断

2025：大模型从「对话工具」走向「主动智能体」的转折年

从年初 DeepSeek-R1 引爆全球到年末 Gemini 3 Pro 多项跃升，2025 年的叙事主线不是参数继续堆大，而是效率、推理与自主性同时提速：全注意力、稀疏注意力、状态化模型、MoE 四条架构路线并行收敛；后训练从 SFT+PPO 的单点优化进入 GRPO/DAPO/GSPO 的群体相对化策略时代。

部署侧的答题结构正式由 vLLM、SGLang、TensorRT-LLM 三巨头瓜分；应用侧编程助手、Deep Research、GUI Agent 从实验品变成日常工具。安全侧从内容合规升级为贯穿训练—推理—系统的可追溯治理，宪法 AI 从"红线"成为"方法论"。

哈工大团队给出的预判是——下一轮竞争的胜负手，不在模型能力上限，而在可靠性、可控性与治理能力能否同步进化。

Chapters Overview · 全览

八章路线图

Chapter 01

模型架构的演进

全注意力、稀疏注意力、MoE、状态化模型、多模态架构、扩散语言模型等新兴方向的并行突破。

Chapter 02

大语言模型训练

后训练新范式（GRPO/DAPO/GSPO）、数据治理、长上下文、推理、数学代码、Agentic RL、开源训练框架。

Chapter 03

大语言模型部署

量化、剪枝、蒸馏三板斧；投机解码与 KV Cache；vLLM / SGLang / TensorRT-LLM / llama.cpp 框架选型。

Chapter 04

智能体演进

自主规划、工具链与 MCP、RAG、长期记忆、自我反思与进化、GUI Agent、多智能体协作。

Chapter 05

大语言模型的应用进展

编程助手、写作、设计、Deep Research、AI4Science，以及教育、医疗、金融、法律、农业五大行业。

Chapter 06

评测基准和模型进展

多轮对话、工具使用、智能体、多模态四大评测线；闭源/开源生态全景；7 个能力维度排行榜。

Chapter 07

大语言模型安全与伦理

安全对齐、生成风险控制、水印与溯源、攻击与防御、宪法人工智能的系统治理。

Chapter 08

未来展望

从规模到智能密度、世界模型与具身智能、云边协同、算力不均与跨学科融合的挑战。

Chapter 01 · Architecture

模型架构的演进

2025 年大语言模型架构的主线已经不再是单纯的规模扩张，而是在效率与表达力之间寻求帕累托最优：从静态规则转向动态适应、从外挂式感知走向原生统一、从纯 Transformer 走向混合态。这一年的架构革新证明，架构本身仍然是挖掘智能的核心杠杆。

1.1

全注意力序列建模

核心命题在显存效率、噪声控制与位置外推三重瓶颈下，追求「效率」与「表达能力」的帕累托最优。

MFA（Multi-matrix Factorization Attention）：将低秩投影引入 Query 矩阵，以「共享矩阵 + 专属矩阵」分解，在压缩 KV Cache 的同时拓展注意力头数，突破 MQA 表征瓶颈。
TPA（Tensor Product Attention）：以张量积分解注意力运算，提供与 RoPE 兼容的低秩分解（rank=1 特殊形式），同步降低 KV Cache 与参数量。
Softpick：用 Rectified Softmax（ReLU + Softmax-1）替代传统 Softmax，破除「注意力总和必须为 1」硬约束，生成稀疏化输出，抑制 Attention Sink。
Gated Attention & GPT-OSS：前者以遗忘门主动过滤累积噪声、改善深层网络训练稳定性；后者引入可训练偏置 Token 作为专职 Sink，吸纳冗余注意力得分。
HoPE：针对 RoPE 的「Lost-in-the-Middle」问题，保留高频局部信号、抑制长程噪声的低频分量，打破 RoPE 强制衰减约束，显著提升大海捞针能力。
iRoPE（Llama 4）/ MLA（DeepSeek V3）：RoPE 与 NoPE 逐层交替或隐式融合，被视为支持千万级 Token 窗口的关键设计。

全注意力正从「静态规则」迈向「动态稀疏 + 软硬协同」的内生按需计算范式。

1.2

稀疏序列建模

核心命题在自然语言固有的局部性与稀疏性下实现「高信噪比」的动态稀疏，打破 O(N²) 桎梏。

DuoAttention：基于注意力头「检索头 vs 流式头」的二分特性，对流式头实施激进稀疏化，大幅压缩 KV Cache 而精度几乎无损。
FlexPrefill & X-Attention：引入细粒度分块估计机制，用低成本先验评估动态筛选高概率注意力块，显著提升长文吞吐量。
MoBA & NSA（Native Sparse Attention）：摒弃全注意力预训练，采用块级稀疏的原生训练范式，契合 GPU 稠密块乘法的硬件特性。
DSA（DeepSeek-V3.2 Dynamic Sparse Attention）：通过轻量化索引器与高度定制算子实现 Token 级动态稀疏选择，从块级稀疏跨越到 Token 级细粒度稀疏。

稀疏建模正从「静态启发式」走向「动态自适应」，胜负手转移到稀疏算子与加速器内存层级的协同设计。

1.3

混合专家模型

核心命题以「高参数、低激活」为范式，在底层路由、负载与扩展定律三个维度完成深度重构。

专家粒度分化：GLM-4.5 收敛至 160 个专家的紧凑设计，Kimi K2 扩张至 384 个专家追求极致专业化；Qwen3 在移除与恢复共享专家之间反复，Qwen3-Next 最终重新引入。
特殊专家设计：LongCat-Flash 引入 MoE++ 的零计算专家，允许对简单 Token 路由至「空」专家以动态调节资源利用率。
跨架构融合：Hunyuan-TurboS 提出 Mamba-Transformer Synergy 与回收路由；LLaDA-MoE 尝试 Diffusion + MoE 的生成式扩散路线。
无辅助损失路由：DeepSeek-V3/R1 与 gpt-oss 采用 Sigmoid Routing，解耦专家竞争关系并移除干扰主任务的辅助损失项。
系统级负载均衡：DeepSeek 的 EPLB 通过复制高负载专家应对静态热点，LPLB 用线性规划解决动态抖动；Qwen 团队将负载统计从微批次扩展到全局批次。
极致稀疏度验证：Qwen3-Next 仅激活 3.7% 参数，Ling-mini-2.0 160 亿参数仅激活 1.4 亿，gpt-oss-120b 在 117B 总参数下仅激活 5.1B。

MoE 已从「组件堆叠」转向系统级协同设计，软硬协同（如 Pangu Ultra MoE 针对 NPU 优化）将决定下一轮扩展上限。

1.4

状态化序列建模

核心命题在 Delta Rule 基础上，通过门控化与混合化，让线性注意力在真实长程任务上「够用」。

Gated DeltaNet：门控机制的自适应记忆控制与 Delta Rule 的精确记忆修改结合，语境切换下快速清除过期信息。
Comba：受闭环控制理论启发，提出「标量 + 低秩」状态转移方案，以状态反馈与输出反馈提升稳定性。
RWKV-7 & KDA（Kimi Delta Attention）：以向量值衰减替代标量衰减；KDA 进一步通过对角化门控衰减强化表达力，并配套硬件高效算子。
Titans：将隐状态视为可学习权重矩阵，以测试时训练思想引入权重衰减与动量机制，构建神经长期记忆模块。
混合架构成为共识：MiniMax-01/M1（Lightning Attention + GQA, 7:1）、Hunyuan-TurboS（Mamba2 + GQA, 57:7）、Qwen3-Next（Gated DeltaNet + GQA, 3:1）、Kimi Linear（KDA + MLA, 3:1）；字节与 Meta 的研究均指出 3:1 至 6:1 是当前最佳混合比。

纯线性已不足以独立对抗标准注意力，「混合即共识」的工程阶段已经到来，软硬件一体化是下一个主战场。

1.5

多模态语言模型架构

核心命题从「外挂式感知」的三明治结构跃迁到「深度融合、原生统一」。

Qwen3-VL：DeepStack 机制借 U-Net 跳跃连接，将视觉多层级特征注入 LLM 不同层级；M-RoPE 交织高度 / 宽度 / 时间维度，实现 256k token 原生窗口与一小时级视频理解；NaViT 式原生动态分辨率抛弃填充与缩放。
Ernie 4.5-VL：通过 MoE 路由特化动态激活视觉专家或跨模态专家，模拟人类的慢思考过程。
InternVL 3.5：提出视觉分辨率路由器（ViR），对高信息量 Patch 保留原分辨率、低信息量 Patch 高倍压缩，减少约 50% 视觉 Token 且性能几乎无损。
Bagel（ByteDance）：双塔混合专家架构，保留两个独立视觉编码器分别服务理解与生成，由路由动态切换「理解专家层 / 生成专家层」。
Janus-Pro（DeepSeek）：输入端完全解耦，SigLIP 供 LLM 阅读、VQ-Tokenizer 供 LLM 预测，但推理核心由统一自回归 Transformer 完成。

多模态架构正走向「感官解耦、思维统一」，M-RoPE 带来的原生时空坐标系让 LLM 开始具备构建世界模型的架构雏形。

1.6

新兴方向

核心命题面向自回归 Transformer 的三大痛点——并行性、动态深度、持续学习——系统性重构底层逻辑。

LLaDA：以掩码生成策略重新定义离散文本扩散过程，从完全掩码状态到完全文本状态逐步揭示，支持双向上下文建模。
Dream-LLM：采用「AR 初始化 + 扩散微调」的混合路线，继承 AR 语义知识的同时获得并行生成能力。
HRM（Hierarchical Reasoning Model）：分层路由机制在关键推理步骤触发深层循环、在简单语义连接使用浅层网络。
TRM（Tiny Recursive Model）：仅 7M 参数通过反复自我迭代，在 ARC-AGI 上超越参数量大其数万倍的传统大模型。
Ouro（字节）：递归 Transformer 块在时间步上复用权重，用思维循环取代物理层堆叠，边缘设备上增加推理时间即可扩展推理深度。
Nested Learning（Hope 架构）：将优化算法本身内化为模型一部分，「快权重 + 慢权重」模拟海马体与皮层，前向传播中动态权重调整回避灾难性遗忘。

新兴架构不是替代 Transformer，而是将与其融合形成复合架构，把语言模型推向「认知系统」。

Chapter 02 · Training

大语言模型训练

2025 年训练技术的主基调是 RLVR 的爆发与后训练范式的重构：静态监督被动态交互取代，单一能力被多能力协同取代，人工标注被自进化闭环取代。训练正在从「对齐工具」变为「智能体能力发动机」。

2.1

后训练技术更新

核心命题SFT 在理论学科的武装下继续降低门槛，强化学习在 RLVR 驱动下从边缘跃升为大模型能力的主引擎。

SFT 高效收敛：LORA-One 以训练集梯度 SVD 分解做 LORA 初始化加速全局最优；Dual-LORA 分解符号与绝对值维持语义方向稳定。
SFT 极致参数压缩：QR-LORA 把参数量压到 O(r)；Quantum-PEFT 借幺正算符张量积压到 O(log(d))；Uni-LoRA 把不同层 LORA 建模为同一向量的不同投影。
Thinking Machines Lab 的 LORA 工程定量：LORA 应覆盖 MLP 层、最佳学习率约为全参数微调的 10 倍、秩需与数据量匹配。
在线 RLVR：GRPO（DeepSeek-R1 主力）之上衍生 DAPO（动态采样 + 双截断 + Token 级梯度）、Dr-GRPO（修复长度与难度偏差）、GSPO（序列似然比替代 Token 概率比）、SAPO（软截断）、BNPO（Beta 标准化）。
离线 RLVR：Light-R1 用 DPO 实现 RLVR 得到不逊于在线的效果；f-PO、IPO、LiPO 试图建立统一理论框架。
混合策略强化学习：ReMix 截断重要性采样复用旧轨迹，ExGRPO 优先经验回放，SRFT 策略熵动态平衡 SFT 与 RL，SuperRL 稀疏奖励时回退监督。
奖励模型范式跃迁：DeepSeek-V3.2 双轨奖励 + DeepSeek-GRM 的 SPCT、RM-R1 的评价链、Agentic Reward Modeling 调用搜索 / 代码、GenPRM 以生成式代码验证稠密化过程奖励。
虚拟环境基建：Environments Hub 统一环境 API，E2B 基于 Firecracker microVM 提供轻量沙盒，CWM、WMA、RLVR-World 推动具备因果可验证反馈的世界模型。

RLVR 让大模型强化学习首次获得「真正的训练信号」，体系化与离线 RLVR 将决定这条路径能走多远。

2.2

数据获取与数据治理

核心命题数据工作从「比规模」升级为「比规模 × 质量 × 对齐度」，并在预训练—中训练—后训练三段式分工中各自成熟。

预训练扩规模且领域化：Nemotron-CC-Math（1330 亿）、MegaMath（3710 亿）、MobileLLM-R1（2 万亿）、NaturalReasoning（1.2 万亿）、CodeScale-Corpus（1 万亿 / 7 种语言）、Seed-Coder（字节）。
「中训练」概念被工业界集体复兴：Qwen3、Kimi K1.5、LongCat-Flash、dots.llm1、MiMo、Pangu Ultra，70%–75% 通用 + 25%–30% 专项的配比成为事实标准。
强推理数据集井喷：DeepMath-103K、AoPS-Instruct、PHYSICS、SciReasoner-Instruct、Llama-Nemotron、CODE I/O++、OpenCodeInstruct、OpenCodeReasoning，多以 DeepSeek-R1 生成的完整推理轨迹为核心标注管线。
数据处理六大新趋势：GneissWeb 动态语义去重（10 万亿 token 无冗余）；Ultra-FineWeb 以 fastText 分类器量化数据预测强度；IF-Guide + HarmFormer 做 Token 级细粒度有害识别；Aioli 在线动态调整数据配比；Token-Level Editing 与 XL-Instruct 把合成从模板走向知识驱动。
多模态数据专项化：BigDocs、InfiniHumanData、MedTrinity-25M、PIN-200M、NautData、VideoMind 覆盖文档、3D 人体、医疗、水下、视频；BLIP3o-60k、Math-VR、Situat3DChange 服务于统一模型后训练。

数据工程已从「采购型」变为「生产型」，模型既是消费者也是标注者，数据—模型闭环将取代单向供应链。

2.3

模型能力提升

核心命题能力训练从「静态模仿学习」转向「动态策略优化」，RL + 真实环境成为突破各项能力瓶颈的共同路径。

长上下文：NExtLong 对比学习硬负样本 + Prolong 40% 短数据 + 60% 长数据最优配比；LLM×MapReduce 分治问答；SPELL / LongReward / LongPO 用自我博弈 + DPO 自举；LongBench v2、RefLong、ELITR-Bench、LONGCODEU、MiniLongBench 形成真实场景评测谱系。
推理：范式从 CoT→ReFT→MCTS-DPO→R1→R-Zero 迁移至 RL self-play；AEPO、TreePO 将树搜索融入 RL；ShorterBetter / AdaCtrl / AdaptThink / C3oT / TokenSkip 系统化压缩 Long CoT 冗余；ReTool、CoRT、rStar2-Agent 让代码执行成为推理本体；Coconut、ParaThinker、Thor 开辟隐式、并行、层次化新推理范式。
数学 / 代码：DeepMath-103K、OpenThoughts、AIMO-2、OpenCodeReasoning 重塑长思维链数据管线；SWE-smith、SWE-Mirror、SWE-Synth、SWE-Dev、SWE-Gym、Skywork-SWE 构建仓库级可执行数据；Agent-RL、ReVeal、DeepSWE 以沙箱结果为客观反馈，验证纯 RL 工程能力上限。
工具调用：BUTTON 自底向上合成多步交互，REFUEL 以 Q 值回归处理长程协变量偏移，Tool-MVR EXPLORE 把错误纠正率从 9.1% 提到 58.9%，FAIL-TALMS 引入主动求助，GenTool / Tool-Zero 纯 RL 实现零样本工具泛化；τ²-Bench、BFCL、AceBench、HammerBench 构成新评估矩阵。
Agentic RL：DeepSeek-R1 以纯 GRPO 涌现自我反思；SCoRE 构建生成-验证-修正闭环；rStar 以 MCTS + 过程偏好模型让小模型逼近 o1；Agent Q 以 AlphaZero 式树搜索 + DPO 处理长程 Web 导航；AFLOW 将多智能体协作转为图搜索并超越人类工作流。

能力提升的主战场已从「训练更大的模型」迁移到「设计更好的闭环环境」，自进化成为通向 AGI 的主路径。

2.4

开源训练框架

核心命题六大框架各自解决一个瓶颈，但体系尚未收敛，通用化基础设施还在路上。

VeRL（字节 + 港大）：HybridFlow 编程模型 + 3D-HybridEngine 原位重分片，彻底消除推理与训练双份权重冗余，是 70B+ 超大模型训练的工业代表。
ROLL（阿里）：基于 ROLL Flash 异步生成-训练 + RollPacker 打包调度，专治长尾延迟和 GPU 气泡，对 DeepSeek-R1 系列算法开箱即用。
PRIME-RL（Prime Intellect）：隐式过程奖励 + 跨广域网去中心化训练（TopLoc、ShardCast），面向离线 RL 与算力分散场景。
Slime（智谱）：GLM-4.5/4.6 底层引擎，SGLang Native + Megatron-LM 深度绑定，借 RadixAttention 在 300B+ MoE 规模实现极致吞吐。
RAGEN：基于 VeRL 二次开发，StarPO 把多轮交互轨迹视为整体优化，专门服务 Agent 任务并破解回声陷阱。
OpenRLHF：Ray 分布式调度 + HuggingFace 兼容，社区最成熟易上手的基线框架。

差异化分工的短期红利终将让位于接口统一与体系化通用训练基础设施的长期需求。

Chapter 03 · Deployment

大语言模型部署

2025 年大模型部署的主要矛盾已从「追算法」转向「算显存 / 延迟账」。压缩、加速与框架三层共振，标志行业从「以算力换智能」进入「软硬协同、全链路协同」的系统工程阶段。

3.1

模型压缩

核心命题压缩不再是被动「瘦身」，而是对模型信息表达形式的主动重构——在几何、几何变换与信息编码层面重塑权重。

量化：打破 PTQ/QAT 边界。几何变换派 Ostquant、SpinQuant 用正交 / 可学习旋转矩阵平摊激活离群点；EfficientQAT 以块状重建替代全图反传，让千亿模型 2-bit QAT 在单机可行；超低位宽 LittleBit、BTC、SDQ 把平均位宽压进 0.1-bit 级；AWQ / GPTQ / MXFP4 仍是上一代基线。
剪枝：从「理论稀疏度」转向「真实墙钟加速」。静态结构化以 ShortGPT（层删除）、BlockPruner（MHA / MLP 模块级）、CFSP（FFN 通道对齐 128 倍数）形成层-块-通道三级粒度；动态侧 DLP 按层敏感度分配稀疏度，SlimInfer / LazyLLM 在推理期跳过 KV 计算；MoE 专属 Stun、信息论派 CCE 另开战场。
蒸馏：DeepSeek-R1 把范式从「概率拟合」彻底推向「推理回路迁移」；Baek et al. 用 Sparse Crosscoder 证实学生模型内生出独立推理特征。Logits 侧 AKL 动态平衡前向 / 反向 KL，BiLD 只对齐 Top-k 抑制长尾噪声；Capacity Gap 定律终结「越大越好」神话，ACoTD 与多教师 Wasserstein 对齐推动「因材施教」。

压缩从参数删减升维为「特征空间对齐 + 信息编码」；未来基座将直接发布量化亲和权重，混合精度 NAS 和「思维链剪枝」将成为新前沿。

3.2

模型加速

核心命题瓶颈已从算力墙转向显存带宽墙与容量墙，投机解码与 KV Cache 管理是两条主战场。

投机解码：EAGLE-3 抛弃特征预测，引入 Training-Time Test（TTT）直接优化吞吐并做多层特征融合；Judge Decoding、FLy 用「裁判式 / 熵门控」宽松验证打破无损匹配，放行语义等价词；SLEM / TLI / SLRS、TokenTiming 用字符串级对齐解除异构词表约束；Token Recycling（邻接矩阵 BFS + 树注意力）、SuffixDecoding 走「去草稿」路线；DeepSeek-V3 的 MTP 预训练目标把自我投机烘进基座。
KV Cache：量化深入 Sub-1.4 bit（XQuant 跨层压缩、RotateKV 旋转矩阵、MiniKV 量化 + 驱逐）；稀疏 / 低秩派 RazorAttention（检索头与普通头分治）、Palu（post-training SVD）、ThinKV（通道稀疏假设）挖掘注意力内在结构；GPU-CPU 协同 ShadowKV（压缩 Key 留 GPU、完整 Value 下放 CPU）、SpecCache（低精度副本预取）突破容量墙；R-KV、LazyEviction 专治推理模型的「反复重访」访问模式。

加速从「外挂组件」走向「内生能力」，推理系统从无损验证过渡到语义优先的智能控制；KV Cache 将走向按层熵值的弹性分配与 GPU-CPU 透明融合。

3.3

开源部署框架 · 选型对比

框架	杀手锏	定位 / 适用
vLLM	PagedAttention + 连续批处理 + 多种并行，显存利用率 95%+	企业级高并发 API；极低延迟场景不敌 TensorRT-LLM
SGLang	RadixAttention 前缀复用 + 压缩有限状态机 + API 投机执行	多轮对话吞吐 5×；多模态与超大集群扩展性待补
TensorRT-LLM	预编译引擎 + FP8/FP4/INT4 + 内核级 CUDA	TTFT 极致；锁死 NVIDIA，定制灵活性差
LMDeploy	TurboMind + 硬件感知权重打包 / 自适应头对齐 / KV 流水线	国产昇腾适配最好；H100 长序列高并发吞吐最优
llama.cpp	纯 C/C++ + GGUF 4/8-bit，跨 CPU / ARM / Apple Silicon / NPU	本地 / 边缘首选；高并发与多模态不足
Ollama	一键部署、跨平台、模型生态丰富	个人本地原型；不达生产门槛

生态分层：vLLM / SGLang / TensorRT-LLM / LMDeploy 卷云端高并发，llama.cpp / Ollama 卷端侧易用性；选型要基于 Token 分布、并发数与硬件栈三维决策。

Chapter 04 · Agents

智能体演进

2025 年智能体从概念验证跨入真实应用体系，底层能力（模型 / 记忆 / 工具）、中层应用系统与上层行业产品的三层结构成型；大模型竞争从「单模型能力秀」转向「以任务为中心的系统化构建」。

4.1

自主任务规划

双层框架长程任务：Plan-And-Act 用不同配方训练 Planner / Executor；ReFlexGrad 在 TextGrad 上构建任务分解 + 策略梯度 + 自省闭环，零样本刷榜。
树状与多智能体规划：HyperTree Planning 的超树结构与 Agent-Tree 在多智能体 + 树搜索上细化依赖管理。
环境信息管理：Learning When to Plan 用 RL 培养「适度思考」；AutoManuals 以实体-属性列表 + ToDo 压缩上下文；Context-Folding 学习折叠策略；Dynamic Cheatsheet 做跨任务经验迁移。
反思粒度细化：ReflAct 做动作级反思对治 ReAct 推理漂移；STeP 蒸馏反思轨迹到小模型。

规划智能体将向更远视、更高效、更鲁棒演进，主动预测未来状态取代被动响应。

4.2

工具链整合

MCP 标准化：Anthropic 的 Model Context Protocol 被微软、OpenAI、Google、AWS、JetBrains、Apple 全面接纳，被视为 2025 年智能体「寒武纪大爆发」的催化剂；社区涌现 FastMCP 等实现，并开始关注 MCP 凭证暴露与性能基准。
多智能体编排：CrewAI（角色扮演）、AutoGen（微软对话驱动）、LangGraph（状态图）、n8n（工作流可观测性）；Spring AI Alibaba 补齐 ReAct + Nacos 企业接入。
多模态工具调用：SENSEI 智能路由、MLLM-Tool 多模态编码器、mm-agent 视觉任务工具组合。
动态工具发现：意图感知 MCP 检索 + DAG 规划 + 蒸馏执行；Hasan、Ding et al. 研究协议无关集成与生产级可维护性。
评测升级：Webwalker、FDABench、AgentClinic 为 2025 新基准；BFCL、ToolBench、WorkBench 持续迭代，指标从成功率扩至工具选择 / 参数生成准确率、错误恢复、延迟与 Token 成本。
落地案例：OpenAI Codex / OpenHands 自动化软件开发；德勤构建财务 / 供应链智能体；西门子用于工业预测性维护。

自主学习与发现、复杂长链规划、伦理治理三线并行；工具调用已从技术概念演化为协议-框架-评估-治理的完整生态。

4.3

检索增强生成（RAG）

检索前：MaFeRw 多视角反馈驱动查询重写；Amato et al. 在法律场景验证 Step-Back 优于 Multi-Query / Decomposition；HyDE「答案即查询」在数学 IR 上获最大收益。
检索中：Blended RAG 稠密 + 关键词双层；Yan et al. 多向量补丁级剪枝；HM-RAG 三代理跨模态分层检索；Graph RAG / CG-RAG（学术引用网络）、Chen et al. KG 路径挖掘走结构化。
检索后：Chen et al. 把文档集压成单 token 极致上下文压缩；Zhang et al. 显式证据重排；Kardan 时间戳重排序。
自适应 / 自主 RAG：Feng et al. 按复杂度触发多轮检索；Guan et al. 把 RAG 建模为 MDP 用 RL 统一迭代；KnowTrace 引入 Self-Bootstrapping 训练多跳推理；Self-Routing RAG、ExpertRAG（MoE 路由）、UltraRAG v2（MCP 架构把 Retriever/Generation 封装为 Server）。
Agentic RAG：Singh et al. 定义检索-评估-生成-反思四阶段（流水线 / 辩论 / 协作三类 + RAG-AgentBench）；HM-RAG 首个分层多智能体多模态 RAG 在 MMBench / DocVQA 登顶。
多模态 RAG：Yue et al. 把 MLLM 做检索器；Lin et al. 统一文本 / 图像 / 表格编码；Tian et al. NLI 一致性评分解决模态冲突；Zhang et al. 文本-表格异构 RAG。

RAG 从「基础设施」迈向「主动推理的闭环智能系统」，多模态融合与极致效率优化是核心增长线。

4.4

长期记忆

范式成型：从 MemGPT（Letta 前身）、MemoryBank、Memory3 延续的记忆模块，今年演进为记忆构建 / 存储 / 检索三层架构。
记忆构建：情景 / 语义 / 用户画像三类；Mem0、MemOS、A-MEM 用 prompt 驱动增删改空操作；Memory-R1 专训记忆管理 agent；LightMem、memobase 用读写解耦与异步批处理降低在线开销。
记忆存储：纯文本（主流）、结构化图谱（Zep、MemOg）、多模态（MIRIX 资源记忆、M3-Agent 处理无限视频 / 音频流）、向量、模型参数（MemOS）五种形态并存。
记忆检索：向量 / 图结构 / 关键词元数据多粒度混用；EverMemOS 引入重排；A-MEM 借 Zettelkasten 笔记原子性做自主演进。

重心从单模态走向多模态统一与系统级自主进化，代理将自主优化记忆管理流程而非依赖人工设计。

4.5

自我反思自我修正

模型原生反思：Agent-R 迭代自训练把反思蒸馏进参数；AgentRefine、STeP 在解码阶段即时自批判；MIT SEAL 让 LLM 通过环境交互自生成微调数据——从「外部管道」进入「内部原生」阶段。
自适应迭代控制：升级版 Reflexion 以 Evaluator 置信度做自适应控制器；MAML 等元学习注入快速适应能力。
动态奖励：Self-Adaptive Reward Strategy 与 Adaptive Reward Scaling 按历史成功率动态调节；Yun et al. 解耦准确性 / 逻辑性 / 创造性多维反馈。
RL + 口头反馈：Qu et al. 把反思文本转为 DPO 偏好；pmlr 提出 DPSDP 演员-评论家；MobileUse 分层反思在 Android 任务显著减少失败；Huang et al. 用流形引导抑制推理模型 overthinking。
检索增强反思：Self-RAG、InstructRAG 显式去噪；RealRAG 把自反思对比学习引入文生图检索。

反思机制正由「任务级外部修正」走向「模型级内部演化」，安全对齐与通用性-效率平衡将是接下来三年主戏。

4.6

自我进化

基座能力进化：STaR 自举推理链、AGENTGYM 沙盒；RL 侧 Absolute Zero（任务创建-执行双角色）、R-Zero（出题-解题协同）、RAGEN 轨迹级 RL、Co-EPG（GUI 规划-定位协同）、AgentEvolver（自问 / 自导 / 自归因）摆脱密集奖励。
提示词进化：ORPO 把 LLM 作优化器、Promptbreeder 遗传算法进化双提示、PromptAgent MCTS + 错误反馈；TextGrad 文本梯度、SPO 自监督对偶 LLM 优化。
自治结构进化：记忆侧 MemInsight / Mem0 / A-MEM / Flex / Evo-Memory；工具侧 Alita 基于 MCP 搜索生成复用、Alita-G 把通用 Agent 转为领域专家、ToolGen 把工具映射为 LLM 词表 token；整体结构 ADAS 把 Agent 视为可执行代码迭代重写、AgentSquare 模块化做架构搜索。
多智能体进化：GPTSwarm / AFLOW / MaMS / FlowReasoner 优化工作流拓扑；EvoAgent 遗传算法搜索群体；AgentNet 去中心化 DAG + RAG 自学习；ProAgent 引入心智理论做零样本协作；CATArena 用迭代同伴学习解决基准饱和。

进化目标从单对象走向模型 / 提示 / 工具 / 记忆 / 协作多目标联合，低开销持续进化与群体智能涌现是下一阶段焦点。

4.7

GUI Agent

感知：UGround（1000 万 GUI 元素）把视觉定位绝对提升 20%，纯视觉输入超文本 Agent；SeeClick + ScreenSpot 基准；GUI-G² 把元素建模为二维高斯做连续奖励。
规划：MobileUse 分层反思 + 按需反思提升长链任务韧性；Agent S2 组合式 Mixture-of-Grounding + 主动分层规划；ProgRM 用 LCS 自标注生成密集进度奖励。
执行：CoAct-1 混合 GUI 操作员 + Python / Bash 程序员智能体绕开冗长 GUI 链；Lin et al. UI 连接图稀疏自注意力降开销；UI-Evol 从失败轨迹沉淀知识；GUI-R1 强制执行前输出 CoT 做「三思而后行」。
专用模型：字节 UI-TARS-2（多轮 RL，覆盖 2B / 7B / 72B）解决数据稀缺、环境割裂、能力单一、训练不稳定四大问题；JEDI 3B / 7B + 400 万样本；AutoGLM-OS-9B 分布式 RL 编排数千虚拟桌面；OpenCUA 全开源；Mobile-Agent-v3 端到端决策。
评测：GUI-360°（120 万动作步骤，覆盖 Windows 办公）、WorldGUI（中间态起点 + 上下文多变）、MMBench-GUI 跨 Windows / macOS / Linux / iOS / Android / Web 四层次。

GUI Agent 从「任务驱动」迈向「能力驱动」；Operator / Claude Computer Use 级产品背后都指向跨应用泛化与长程稳定性的系统工程。

4.8

多智能体协作

通信建模：从隐式实现上升为显式系统建模，稀疏通信拓扑、DAG 拓扑序传播替代全连接，降低冗余与时延。
结构构建：搜索式（AFlow、SWE-Search）、生成式（Assemble、MAS-GPT 根据任务直接生成结构）、策略化选择（MAS²、Agentic Supernet 在候选协作网络间采样），结构从静态外生变为可动态确定的内部变量。
运行期治理：分层编排 MegaAgent / HALO；跨团队并行 Cross-team Orch；动态学习型调度 Maporl / Evolving Orch；异构开放协作 Internet of Agents；Latent Collaboration 把信息交换压入连续隐空间降低时延。
评测：从「成功率」扩展至协作质量、资源效率、用户对齐的过程级分析；Manus、Deep Research、AgentScope 等产品形态均在此框架下受益。

多智能体协作从「手工拼装」迈向「自适应可进化」；核心议题是 token / 调用 / 时延约束下的稳定协作增益、运行期鲁棒治理与「质量-成本-对齐」三元评测。

Chapter 05 · Applications

大语言模型的应用进展

2025 年是大语言模型从「演示玩具」跃迁为「生产力基础设施」的分水岭。按任务应用与行业落地双主线铺陈：前者讲 LLM 如何重构脑科学、编程、写作、设计、社会模拟、心理咨询、Deep Research、AI for Research 八大知识密集型范式；后者讲 LLM 如何与教育、医疗、金融、法律、农业五大行业的业务流程深度耦合。贯穿始终的命题是：AI 已从「生成工具」升级为「认知伙伴」，从「副驾驶」向「主驾驶」迁徙。

5.1 任务应用

5.1.1

大模型与脑科学

神经数据规模首次推升至 25,000 小时、参数量 17 亿；序列依赖建模与多任务统一架构走向统一，脑科学迎来自己的「GPT-3 时刻」。
生成式脑信号解码全面铺开，EEG Emotion Copilot 等工作把 LLM 作为情感对话策略引擎，兼顾隐私与端侧部署。
「双向赋能」成为显学：脑信号反哺 LLM 训练信号，LLM 又为认知神经科学提供假设生成器。

脑科学 AI 进入基座模型时代，未来比拼的不是单任务 SOTA，而是跨被试、跨模态、跨任务的统一表征能力。

5.1.2

编程助手 · 最拥挤的战场

Cursor（Anysphere）：兼容 VS Code 插件生态、百万行级项目精准分析、企业级隐私，IDE 层的事实标准。
Claude Code / Claude Opus 4.5：SWE-Bench Verified 以 80.9% 夺魁，BFCL 工具调用 95.8%，Agent 工作流首选底座。
OpenAI Codex：从云端到手机、从 GitHub 到 Terminal 全场景覆盖，主打跨端协同。
Devin / OpenHands / DeepCode：开源多 Agent 框架崛起，DeepCode 在 Paper2Code 基准上超越人类专家。
GitHub Copilot Workspace：从仓库 Issue 直接启动 AI 开发流，自动规划「需求 → 实现」完整路径。
国产矩阵：字节 Trae（Agent 化 IDE）、阿里通义灵码（首批通过信通院「可信 AI 编码 4+」）、腾讯 CodeBuddy（中文支持行业第一）。

下一阶段是「企业级确定性协同」与「人机协同普惠化」双主线，编程助手会成为企业研发流水线的核心中间件。

5.1.3

写作助手 · 合规替代能力成为瓶颈

2025 Q1 统计：约 18% 的金融消费者投诉文本、24% 的企业新闻稿由 LLM 生成或深度润色，渗透率进入临界点。
Deep Research 把 AI 从「阅读者」升级为「主动搜资料的研究员」，改写非虚构写作流程。
版权诉讼爆发年：法律与合规风险替代技术能力成为头号瓶颈；「认知脱钩」与「文化表达扁平化」引发教育界警惕。

赢家不是生成最快的模型，而是能追溯出处、合规可控、保留人类主导权的系统。

5.1.4

设计助手

AI 设计从单点工具走向「思维与创造过程的延伸」，但真正的「共同思考」机制尚未建立。
三重范式转变：素材生成 → 意图理解；单点工具 → 全链路协作；效率工具 → 创意伙伴。
伦理、法律、可解释性框架尚未健全，阻碍规模化。

未来沿「深度—广度—融合」三维演进，长远将成为「理解意图、洞察需求、重塑创作范式」的新基础设施。

5.1.5

社会模拟

AgentSociety 与 SocioVerse 把社会模拟从演示玩具明确为实验流程。
YuLan-Onesim 从可用性切入，模板化 + 分布式扩展降低社科研究者门槛。
Simulating / Promising 等方法论工作提出：社会模拟必须显式建模代表性、外推性、干预一致性。

社会模拟正成为「类实验方法」，对政策制定、舆论推演、市场博弈的参考价值将快速放大。

5.1.6

心理咨询

数据层：公开高质量语料长期匮乏，多方构建指令演化 + 主题切换 + 回溯的多轮对话语料。
技术层：跨会话长程对话、情感状态建模、资深咨询师决策模拟成为研发重点。
评估层：CARE-Bench 等基准引入专业咨询师设计的来访者画像库，从静态单轮考察转向动态复杂场景胜任力。

单一文本模态已近瓶颈，具身化、多模态心理支持是下一站；临床有效性与社会伦理将决定能否真正规模化。

5.1.7

Deep Research · 知识工作的新基础形态

架构层：查询意图建模 → 任务规划 → Web 行动 → 128K+ 长上下文聚合 → 结构化报告输出的闭环成熟。
评测层：DR Tulu 等提出动态评价规则，应对研究过程中目标随证据演化的特性。
产品四强：ChatGPT Deep Research（复杂问题分解 + 多步推理）、Gemini Deep Research（显式研究计划可编辑）、Perplexity Deep Research（高频多轮 + 来源可追溯）、Microsoft Copilot / Bing Chat（企业生态集成）。

Deep Research 将成为知识工作的新基础形态，在科研、教育、决策支持领域发挥核心作用；可信性与合规性是规模部署的闸门。

5.1.8

AI for Research

AI 参与科研全流程：文献调研、假设生成、实验设计、数据分析、论文撰写、同行评审。
基因组学、蛋白质设计、材料科学等领域出现「AI 提出假设 → 人类验证」的新创新机制。
多样性、创造性与可解释性成为核心议题——警惕 AI 批量生产同质化研究。

AI for Research 正在重塑科研生产关系，但必须主动维护研究体系的多样性才能实现可持续演进。

5.2 行业应用

5.2.1

教育

SMART（Scarlatos et al.）等方法把教育测量理论对齐进 LLM 训练，从「答案级反馈」跃升到「能力与思维级反馈」。
国内外产品百花齐放：CheggMate、通义教育、科大讯飞星火教育、网易有道加速产品化。
以学习者为中心的「智能闭环」成为学术与产业的共同共识。

下一战场不是「谁家 AI 老师更聪明」，而是「谁能构建可信、可控、可扩展的教育闭环系统」。

5.2.2

医疗

四条技术主线：知识适配 → 持续预训练 → 推理增强（带过程质量监督）→ 全流程医疗 Agent。
多模态扩展：影像、3D 体数据、病理走向「能对齐、能定位、能迁移」。
AfriMed-QA 等评测推动模型从单一地区走向跨地区、跨人群的外部有效性检验。
2025 年 11 月多部门联合印发《促进和规范「人工智能+医疗卫生」应用》；蚂蚁 AQ、京东京医千询 2.0、微软 Dragon Copilot 相继落地 C 端与临床工作流。

医疗 AI 进入「监管—产品—临床」三元对齐阶段，合规与可解释性会筛掉一批玩家。

5.2.3

金融

FinCoT 把杜邦分析法等金融模型显式融入推理链条；多角色 Agent 流水线提升智能投研质量。
合规审计侧：FMD-Bench 检测金融谣言，对 FTX 等高风险人物角色的对抗性测试成为标配。
2025 年 11 月国家金融监督管理总局发布首批《金融生成式 AI 风险治理指引》；通义金融 Agent 2.0、文心金融 4.5（因果风控）集中发布；上海、深圳金融数据交易所上线「语料资产专区」。

金融 AI 从「智能客服」进化到「能通过专业资格考试 + 复杂工具调用的金融智能体」，头部机构加速「自研 + 结盟」双轮驱动。

5.2.4

法律

LFP 从原始证据直接预测法律事实；CLEAR 区分易混淆法条；ATRIE 自动化分析判例界定模糊概念；LawShift 应对法律动态变化。
SyLeR 强制三段论论证结构；CoCoLex 引入置信度复制解码防止关键法条「写错」。
LegalSearchLM 提出基于「法律要素生成」的新检索范式，摆脱关键词匹配；CitaLaw 强化引用能力。
2025 年 9 月云栖大会通义法睿发布企业 API，支持法律智能体调用搜索 + 文档生成工具。

法律 AI 正在完成「司法基础设施」的全面智能化，国家级平台建立行业标准，合规风险识别与普惠法律服务成两大主战场。

5.2.5

农业

育种：ProGen3 等模型设计出自然界不存在的 OpenCRISPR-1 基因编辑工具；48 种作物基因组零样本突变预测成为现实。
具身智能：John Deere See & Spray Ultimate 毫秒级区分作物与杂草，除草剂使用量减少 2/3；AgReason 基准验证大型推理模型在复杂农业因果上的优势。
知识服务：Farmer.Chat（RAG 限制幻觉）、神农大模型 3.0（36 智能体 + 千万级知识图谱）、AgriEval（首个中文农业基准）、Agri-CM3（多模态农业管理）成型。
供应链金融：云原生金融平台让信贷处理时间缩短 81%，农业贷款违约率降低 30%。

农业从「经验依赖型」转为「数据与算力驱动型」，是全球粮食安全问题的新技术解法。

Chapter 06 · Benchmarks

评测基准与模型进展

2025 年评测范式发生结构性位移：从「静态知识测试」转向「动态、过程导向、真实环境」评估；从「纯文本处理」走向「多模态 + 工具调用 + 智能体决策」四维联考。模型生态同步分叉——闭源向「代理工作流 + 极致推理」收敛，开源在「架构效率 + 端侧部署」爆发。闭源与开源之间的性能差距已压缩到单位数百分点，真正的战场转移到「成本—延迟—可控性」三角。

6.1

四类新评测基准

多轮对话：MemEval（500 题动态多会话）、MultiChallenge（指令保持 / 推理记忆 / 一致性细粒度诊断）取代 MT-Bench / ChatBench；评估下沉到过程质量。
工具使用：BFCL（基于 AST 校验参数类型 / 嵌套 / 多轮状态）成为金本位；τ²-Bench / ToolBench 覆盖多轮、并行调用；Terminal-Bench、OSWorld、WebArena 把 Agent 拉进真实操作系统；GAIA 打碎「全能性」神话。
智能体：垂直领域 FinGAIA（金融）、MLE-Bench（AutoML 工程）、SWE-Bench 系列（代码工程）；多智能体基准开始支持异构 Agent 与协调协议敏感性测试。
多模态：视频类从分钟级推到小时级，Video-MMMU、MVBench 挑战长时依赖；文档 OmniDocBench；推理 MMMU-Pro；痛点是幻觉细粒度检测与物理常识融入。

长程交互、过程级评估、真实环境执行成为三位一体的新评测范式，静态基准加速作废。

6.2.1

新闭源模型 · 四强格局

OpenAI GPT-5 / GPT-5.2（2025-12-11 发布）：核心创新是「智能路由器」架构，模型内部自主分配算力；400K 上下文，AIME 2025 配合工具达 100%。定位「通用智能工作流主干」。
Google Gemini 3 Pro / 3 Deep Think / 3.0 Flash：原生多模态 + 100 万 token 统一架构；Video-MMMU 87.6%、MMMU-Pro 81.0%，多模态领域统治级；Deep Think 对标 o3-pro 采用迭代推理。
Anthropic Claude 4 / 4.5 Opus / Sonnet 4.5 / Haiku 4.5：混合推理 + 透明化 Thinking Mode；SWE-Bench Verified 80.9% SOTA，BFCL 95.8%；Computer Use 成核心差异化。定价 $5/$25 per M。
xAI Grok 4 / 4.1 / 4 Heavy：1.7 万亿参数稀疏 MoE + 多代理协同；HLE 得分 50.7% 登顶，LMArena 1483 Elo 第一；独家护城河是 X 平台实时全量数据；Grok 4.1 Fast 输入 $0.20/M 推动智能商品化。

6.2.2

新开源模型

Meta Llama 4（2025-04-05）：Scout + Maverick 双版本，首次全面转向 MoE + 原生多模态 + 千万级上下文（10M）；社区许可仍有商业限制，更准确是「开放权重」。
DeepSeek R1 / V3.2：首个完全开源、对标 o1 的推理模型，被视为中美差距缩小的标志性时刻；V3.2 引入 DSA 稀疏注意力；V3 API 低至 $0.14/M token 倒逼全球降价；MIT 许可。
Qwen 3 系列 / Qwen3-Max：Qwen3-Next-80B-A3B（总 80B、激活 3B）；Qwen3-Max 思维模式 AIME 25 达 100%；Apache 2.0 + 0.6B 到万亿全尺寸矩阵，成全球微调首选基座。
Kimi K2 / GLM-4.5/4.6/4.7：LiveCodeBench 第一梯队；GLM-4.7 在 Web 开发领域取得开源第一（总榜第 6）。
Mistral Large 3 / Devstral 2：MoE 675B/41B 激活，Devstral 2 在 SWE-Bench Verified 拿到 72.2%。
Google Gemma 3 / 3n：MatFormer「套娃」架构，动态切换 2B/4B 参数，移动端原生。

6.2.3

国产开源的结构性崛起

成本优势：DeepSeek-V3 训练成本约 550–600 万美元，仅为 GPT-4 的 1/20；推理价格比 GPT-4o 低 10–25 倍。
数量优势：截至 2025-07 全球大模型 3755 个，中国贡献 1509 个（全球第一）。
生态优势：Qwen 衍生模型突破 10 万个，全球下载量超 3 亿次，成全球最大开源模型族群。
市场份额：OpenRouter 100 万亿 Token 实证显示，中国开源模型市场份额从 2024 年底 1.2% 飙升至 2025 年中近 30%；塞浦路斯 Latenode 用 DeepSeek 成本仅为 OpenAI 的 1/17；沙特阿美把 DeepSeek 部署进自家数据中心。
榜单霸榜：LMArena 2025-12-31 文本领域开源 Top 10 中 9 个为国产；GLM-4.7 拿 Web 开发开源第一；Qwen 视觉领衔；LiveCodeBench 由 DeepSeek 与 Kimi 稳居第一梯队。

首次实现「不是追赶，而是在特定维度领先」的格局翻转。

6.3

综合能力排行榜 · 七大维度

维度 / 基准	第一名	关键注
语言 · Arena Hard Auto	Gemini 3 Pro 92.5	GPT-5.2 91.2、Claude 4.5 Opus 89.7；开源 DeepSeek V3.2 85.0
长上下文 · RULER	Gemini 3 Pro 94.2%	1M+ 几乎无衰减；Llama 4 Scout 86.5% 为开源最强
视觉推理 · VCR	GPT-5.2 Vision 92.8%	Qwen3-Max 91.9% 紧追，打破「原生多模态才能推理」神话
多模态数学 · MMMLU	Gemini 3 Pro 91.8%	原生多模态早期融合碾压拼接架构
视频理解 · MVBench	Gemini 3 Pro 89.2%	开源与闭源差距 15+ 百分点
语音 ASR · Open Leaderboard	Mistral Voxtral Small 2.1% WER	开源小模型碾压闭源巨头，模态专用小模型的胜利
编程工程 · SWE-Bench Verified	Claude Opus 4.5 80.9%	GPT-5.2 Thinking 80.0% 紧随；从「辅助编程」迈向「自主工程」
编程竞赛 · LiveCodeBench	DeepSeek / Kimi 第一梯队	开源推理模型统治竞赛编程场
工具调用 · BFCL	Claude 4.5 Opus 95.8%	解释了为何开发者构建复杂 Agent 优先选 Claude
数学竞赛 · AIME 2025	GPT-5.2 Thinking 100%	高中竞赛级数学被彻底攻克；DeepSeek R1 达 93.1% 紧随
研究级数学 · FrontierMath	GPT-5.2 40.3%	大多数模型 <20%，真正的「数学家级 AI」尚未诞生
专业推理 · MMLU-Pro	Gemini 3 Pro 90.10%	首次跨过 90% 门槛；DeepSeek-V3.2 85.00% 全球开源第一
博士级科学 · GPQA Diamond	GPT-5.2 92.4%	Gemini 3 Pro 91.9% 几乎持平，「双子星」格局
流体智力 · ARC-AGI-2	GPT-5.2 Thinking 52.9%	抽象推理远低于晶体智力，AGI 关键一公里
终极考试 · HLE	Grok 4 Heavy 50.7%	实时数据 + 多代理协同的意外冠军
通用助手 · GAIA	Su Zero + SQ Pro 97.8%	模型集成碾压单模型；Gemini 3 Pro 单模型 ~92%
GUI 操作 · OSWorld	Qwen 3 VL 66.7%	开源逆袭经典一战，击败 Claude Opus 4.5（66.3%）
网页 · WebArena	Gemini 3 Pro 1490	Grok 4.1 Thinking 1477、Claude Opus 4.5 1469

一句话：Gemini 3 Pro 霸主多模态与长上下文；GPT-5.2 统治数学与科学推理；Claude 4.5 Opus 是编程与工具调用之王；Grok 4 凭实时数据 + 多代理抢下 HLE；开源阵营由 DeepSeek（推理 + 成本）、Qwen（编程 + GUI + 生态）、Mistral Voxtral（ASR）分据前沿。

Chapter 07 · Safety

大语言模型安全与伦理

2025 年大模型安全已从早期的「内容过滤」走向「系统性治理」，研究重心从被动防御转向主动治理、从单一维度迈向多维协同。本章围绕安全对齐、生成风险控制、内容真实性、攻防博弈、宪法人工智能五条主线，整体呈现「安全规范工程化、机理可解释化、红队评测基础设施化」的趋势——安全正从经验性护栏升级为可验证的系统科学。

7.1

安全对齐与治理

审慎对齐（Deliberative Alignment）：OpenAI 提出不再仅惩罚有害输出，而是直接教授安全规范，让模型在生成前显式推理规范；STAIR、SRG 进一步优化安全思维链。
表征层干预：Persona Vectors 等方法在激活空间识别并操纵恶意方向，对抗微调诱发的「涌现未对齐」（Emergent Misalignment）。
外置监测与 CoT 审计：Qwen3Guard（Stream / Gen 双版本）、CoT 监控、「忏悔」机制共同构成「弱到强」外部治理栈。
机械可解释性：Anthropic 对 Claude 3.5 Haiku 的特征归因研究，把安全机理从外部行为拓展至神经元级表征。
新兴风险识别：Sleeper Agents 类「欺骗性对齐」、奖励黑客、Scheming、CoT 忠实性缺失、规模无关的数据投毒（有害样本绝对数量决定成功率）。

安全对齐正从「参数微调」转向「可维护的规范系统 + 可验证的推理过程」，全生命周期协同治理成为稳健 AI 的核心路径。

7.2

生成风险控制

训练阶段：以 RLHF / DPO 为主轴——SPIT（DPO 抑制确认偏差）、幻觉聚焦 CPO（无需人工标注的内生拒绝）、事实性自对齐（模型自评生成偏好数据）。
推理阶段 · 检索增强：GNN-RAG（图神经网络解耦检索）、SAFE 双智能体事实核查系统。
推理阶段 · 解码策略：CoDA 反遮蔽对比解码（R-PMI 定位被遮蔽知识）、MoLE 层专家混合解码、CDT 比较器驱动解码。
知识图谱融合：ReMindRAG（检索-记忆一体化）、PGR 程序化图推理。
神经符号结合：将可逻辑验证的结构化知识引入关键领域生成闭环。

幻觉治理从「直接回复」走向「思考-检索-验证-修正」的智能体工作流，训练范式从追求「知识量」转向提升「诚实度」与边界自知。

7.3

内容真实性与可追溯性

水印 · 自适应：MorphMark 基于文本特征动态调节嵌入强度，困惑度损失降低约 30%。
水印 · 无偏：STA 采样-接受机制理论无偏，检测率 96.2%。
水印 · 集成：藏头诗 + 感官运动词 + 红绿列表三特征融合，Llama 3.1 8B 上检测率 97.75%，改写后仍 95.19%。
水印可探测性：Water-Probe / Water-Bag 揭示水印隐蔽性-鲁棒性-效率的三角矛盾。
可验证生成：Agentic Reward Modeling（人类偏好 + 机器验证信号融合）；IRIS 框架（无表格因果发现）；自然语言到 Coq / Lean 形式化证明（5 种语言、1.8 万条指令数据集）。
溯源体系：TROVE（句子级来源定位 + 关系分类）、HypER（医学假设时序推理链）、开源模型后门水印与蒸馏水印、DA-MTL 多任务检测-归因框架。
标准化基础设施：SynthID-Text（对文本质量影响小的文本水印）+ C2PA 内容凭证标准实现跨平台加密绑定溯源。

可信内容不再依赖单点检测工具，而走向「水印 + 标准化溯源协议 + 多方生态」的组合范式，把透明度与可追责性嵌入生产分发流程。

7.4

攻击与防御

提示词攻击：隐写式提示注入（图像编码嵌入指令）、跨模态隐式越狱、CASE-Bench 多轮攻击、Latent Fusion Jailbreak（隐空间向量融合激活有害语义）。
提示词防御：PSF 多层防御、EDDF 基于「攻击本质」的语义识别、JBShield 激活概念分析与主动干预。
评测基准：JailbreakBench、HarmBench、PANDAGUARD 把越狱鲁棒性从模糊概念变为可量化指标。
数据安全：N-Gram 污染检测、KDS 核散度评分、LASTINGBENCH 反事实题目修复、AntiLeakBench 严格无污染范式；LeakSealer 模型无关输出端防御。
隐私训练 · 差分隐私：Opacus 扩展 LLM、FedCEO 低秩协同去噪打破隐私-效用权衡。
隐私训练 · 联邦：FedTT / FedTT+ 张量分解 PEFT、ECOLORA 轮询分段共享降低通信 79%、FedShield-LLM 融合 LoRA + 剪枝 + 全同态加密（FHE）。
安全多方计算与遗忘：SEEC 内存安全 2PC、PCG 范式 OLE 生成优化；机器遗忘 ESC / ESC-T、CoUn、QPAudioEraser。

攻防博弈已深入模型语义与概念层面，防御从被动过滤转向主动干预与纵深体系；LLM 安全供应链与「对齐-安全」内在矛盾成为下一阶段根本难题。

7.5

宪法人工智能（CAI）

原则构建：C3AI 框架引入心理测量学（EGA 探索项图分析）自动识别无害性与诚实性维度；逆向宪法 ICAI 改进原则生成、子采样与过滤，降低样本拟合、提升通用性。
原则适配：8B 级小模型上 CAI 虽降攻击成功率但易引发「模型崩溃」（过度拒绝、重复输出）；DeepSeek-R1 等强推理模型能通过 CoT 显式评估风险并恢复防御——证明对齐建立在推理能力之上。
原则应用扩展：负责任联邦大模型架构（Llama Guard 3 + CAI 端云双保险）、独立于模型的输入 / 流式输出分类器（未知攻击拦截率超 95%，误报仅 +0.38%）、性格宪法塑造 AI 人格、心理危机干预专用宪法。

CAI 已从 Claude's Constitution 的单一实践扩散至多模型、多场景，正走向「半自动化 + 动态演进 + 垂直场景定制」的标准化价值映射机制。

Chapter 08 · Outlook

未来展望

大模型发展的技术主轴正从「堆规模」转向「提智能密度」，从被动生成走向可行动的智能体，从单模态拼接迈向原生统一的多模态与世界模型。面向 2035 年，因果推理与世界模型将成为技术内核，具身与空间智能把模型带入物理世界，而安全、伦理与治理将决定这场跃迁能否稳健向善。

8.1.1