哈尔滨工业大学自然语言处理研究所(HIT-NLP)在 2026 年 1 月发布了一份近 330 页的《2025 年大语言模型进展报告》,由车万翔老师统稿、十余位教师与数十位研究生联合编撰,系统梳理了过去一年里架构、训练、部署、智能体、应用、评测与治理等多条战线上的关键进展。本页是对这份年度综述的精读摘要,保留原报告的技术脉络与判断立场,去掉 120 多页参考文献的负担。
从年初 DeepSeek-R1 引爆全球到年末 Gemini 3 Pro 多项跃升,2025 年的叙事主线不是参数继续堆大,而是效率、推理与自主性同时提速:全注意力、稀疏注意力、状态化模型、MoE 四条架构路线并行收敛;后训练从 SFT+PPO 的单点优化进入 GRPO/DAPO/GSPO 的群体相对化策略时代。
部署侧的答题结构正式由 vLLM、SGLang、TensorRT-LLM 三巨头瓜分;应用侧编程助手、Deep Research、GUI Agent 从实验品变成日常工具。安全侧从内容合规升级为贯穿训练—推理—系统的可追溯治理,宪法 AI 从"红线"成为"方法论"。
哈工大团队给出的预判是——下一轮竞争的胜负手,不在模型能力上限,而在可靠性、可控性与治理能力能否同步进化。
全注意力、稀疏注意力、MoE、状态化模型、多模态架构、扩散语言模型等新兴方向的并行突破。
后训练新范式(GRPO/DAPO/GSPO)、数据治理、长上下文、推理、数学代码、Agentic RL、开源训练框架。
量化、剪枝、蒸馏三板斧;投机解码与 KV Cache;vLLM / SGLang / TensorRT-LLM / llama.cpp 框架选型。
自主规划、工具链与 MCP、RAG、长期记忆、自我反思与进化、GUI Agent、多智能体协作。
编程助手、写作、设计、Deep Research、AI4Science,以及教育、医疗、金融、法律、农业五大行业。
多轮对话、工具使用、智能体、多模态四大评测线;闭源/开源生态全景;7 个能力维度排行榜。
安全对齐、生成风险控制、水印与溯源、攻击与防御、宪法人工智能的系统治理。
从规模到智能密度、世界模型与具身智能、云边协同、算力不均与跨学科融合的挑战。
2025 年大语言模型架构的主线已经不再是单纯的规模扩张,而是在效率与表达力之间寻求帕累托最优:从静态规则转向动态适应、从外挂式感知走向原生统一、从纯 Transformer 走向混合态。这一年的架构革新证明,架构本身仍然是挖掘智能的核心杠杆。
2025 年训练技术的主基调是 RLVR 的爆发与后训练范式的重构:静态监督被动态交互取代,单一能力被多能力协同取代,人工标注被自进化闭环取代。训练正在从「对齐工具」变为「智能体能力发动机」。
2025 年大模型部署的主要矛盾已从「追算法」转向「算显存 / 延迟账」。压缩、加速与框架三层共振,标志行业从「以算力换智能」进入「软硬协同、全链路协同」的系统工程阶段。
| 框架 | 杀手锏 | 定位 / 适用 |
|---|---|---|
| vLLM | PagedAttention + 连续批处理 + 多种并行,显存利用率 95%+ | 企业级高并发 API;极低延迟场景不敌 TensorRT-LLM |
| SGLang | RadixAttention 前缀复用 + 压缩有限状态机 + API 投机执行 | 多轮对话吞吐 5×;多模态与超大集群扩展性待补 |
| TensorRT-LLM | 预编译引擎 + FP8/FP4/INT4 + 内核级 CUDA | TTFT 极致;锁死 NVIDIA,定制灵活性差 |
| LMDeploy | TurboMind + 硬件感知权重打包 / 自适应头对齐 / KV 流水线 | 国产昇腾适配最好;H100 长序列高并发吞吐最优 |
| llama.cpp | 纯 C/C++ + GGUF 4/8-bit,跨 CPU / ARM / Apple Silicon / NPU | 本地 / 边缘首选;高并发与多模态不足 |
| Ollama | 一键部署、跨平台、模型生态丰富 | 个人本地原型;不达生产门槛 |
2025 年智能体从概念验证跨入真实应用体系,底层能力(模型 / 记忆 / 工具)、中层应用系统与上层行业产品的三层结构成型;大模型竞争从「单模型能力秀」转向「以任务为中心的系统化构建」。
2025 年是大语言模型从「演示玩具」跃迁为「生产力基础设施」的分水岭。按任务应用与行业落地双主线铺陈:前者讲 LLM 如何重构脑科学、编程、写作、设计、社会模拟、心理咨询、Deep Research、AI for Research 八大知识密集型范式;后者讲 LLM 如何与教育、医疗、金融、法律、农业五大行业的业务流程深度耦合。贯穿始终的命题是:AI 已从「生成工具」升级为「认知伙伴」,从「副驾驶」向「主驾驶」迁徙。
2025 年评测范式发生结构性位移:从「静态知识测试」转向「动态、过程导向、真实环境」评估;从「纯文本处理」走向「多模态 + 工具调用 + 智能体决策」四维联考。模型生态同步分叉——闭源向「代理工作流 + 极致推理」收敛,开源在「架构效率 + 端侧部署」爆发。闭源与开源之间的性能差距已压缩到单位数百分点,真正的战场转移到「成本—延迟—可控性」三角。
| 维度 / 基准 | 第一名 | 关键注 |
|---|---|---|
| 语言 · Arena Hard Auto | Gemini 3 Pro 92.5 | GPT-5.2 91.2、Claude 4.5 Opus 89.7;开源 DeepSeek V3.2 85.0 |
| 长上下文 · RULER | Gemini 3 Pro 94.2% | 1M+ 几乎无衰减;Llama 4 Scout 86.5% 为开源最强 |
| 视觉推理 · VCR | GPT-5.2 Vision 92.8% | Qwen3-Max 91.9% 紧追,打破「原生多模态才能推理」神话 |
| 多模态数学 · MMMLU | Gemini 3 Pro 91.8% | 原生多模态早期融合碾压拼接架构 |
| 视频理解 · MVBench | Gemini 3 Pro 89.2% | 开源与闭源差距 15+ 百分点 |
| 语音 ASR · Open Leaderboard | Mistral Voxtral Small 2.1% WER | 开源小模型碾压闭源巨头,模态专用小模型的胜利 |
| 编程工程 · SWE-Bench Verified | Claude Opus 4.5 80.9% | GPT-5.2 Thinking 80.0% 紧随;从「辅助编程」迈向「自主工程」 |
| 编程竞赛 · LiveCodeBench | DeepSeek / Kimi 第一梯队 | 开源推理模型统治竞赛编程场 |
| 工具调用 · BFCL | Claude 4.5 Opus 95.8% | 解释了为何开发者构建复杂 Agent 优先选 Claude |
| 数学竞赛 · AIME 2025 | GPT-5.2 Thinking 100% | 高中竞赛级数学被彻底攻克;DeepSeek R1 达 93.1% 紧随 |
| 研究级数学 · FrontierMath | GPT-5.2 40.3% | 大多数模型 <20%,真正的「数学家级 AI」尚未诞生 |
| 专业推理 · MMLU-Pro | Gemini 3 Pro 90.10% | 首次跨过 90% 门槛;DeepSeek-V3.2 85.00% 全球开源第一 |
| 博士级科学 · GPQA Diamond | GPT-5.2 92.4% | Gemini 3 Pro 91.9% 几乎持平,「双子星」格局 |
| 流体智力 · ARC-AGI-2 | GPT-5.2 Thinking 52.9% | 抽象推理远低于晶体智力,AGI 关键一公里 |
| 终极考试 · HLE | Grok 4 Heavy 50.7% | 实时数据 + 多代理协同的意外冠军 |
| 通用助手 · GAIA | Su Zero + SQ Pro 97.8% | 模型集成碾压单模型;Gemini 3 Pro 单模型 ~92% |
| GUI 操作 · OSWorld | Qwen 3 VL 66.7% | 开源逆袭经典一战,击败 Claude Opus 4.5(66.3%) |
| 网页 · WebArena | Gemini 3 Pro 1490 | Grok 4.1 Thinking 1477、Claude Opus 4.5 1469 |
2025 年大模型安全已从早期的「内容过滤」走向「系统性治理」,研究重心从被动防御转向主动治理、从单一维度迈向多维协同。本章围绕安全对齐、生成风险控制、内容真实性、攻防博弈、宪法人工智能五条主线,整体呈现「安全规范工程化、机理可解释化、红队评测基础设施化」的趋势——安全正从经验性护栏升级为可验证的系统科学。
大模型发展的技术主轴正从「堆规模」转向「提智能密度」,从被动生成走向可行动的智能体,从单模态拼接迈向原生统一的多模态与世界模型。面向 2035 年,因果推理与世界模型将成为技术内核,具身与空间智能把模型带入物理世界,而安全、伦理与治理将决定这场跃迁能否稳健向善。