论文精读 · Epoch AI · 2024

数据会耗尽吗？
LLM Scaling 的人类数据极限

人类生成的公开文本约有 300 万亿 tokens——这就是当前语言模型规模扩展的天花板。按现有趋势，这个天花板将在 2026 至 2032 年间被触碰。

Pablo Villalobos et al. · Epoch AI 2024-06-06 ArXiv 2211.04325 ↗ 原文链接 ↗

01 · 引言
02 · 研究结果
03 · 与 2022 年旧估计的比较
04 · 讨论
05 · 术语表 & 核心数据

引言

规模扩展（Scaling）一直是推动 AI 进步的核心驱动力。模型参数不断增长，训练数据集持续扩大，训练计算量因此呈指数级攀升，模型性能也随之大幅跃升。从几乎语无伦次的 GPT-2，到能力强大的 GPT-4，相隔仅五年时间，但算力投入却跨越了整整四个数量级。

迄今为止，AI 开发者除了采购 AI 芯片之外，尚未遭遇规模扩展的重大瓶颈。算力是稀缺的，但供应增长迅速。如果算力是唯一约束，AI 系统的算力将大概率继续以指数方式增长，能力前沿也将持续推进。

因此，预测 AI 进展的一个关键问题浮现出来：除原始算力之外，其他输入要素是否会成为约束性瓶颈？

规模扩展要求训练数据集随之扩大。目前最强大的 AI 系统是语言模型，这些模型主要在来自互联网的数万亿词汇的人类生成文本上训练。然而，互联网上人类生成的数据是有限的——这引出了本文的核心问题：

训练数据，是否会成为规模扩展的主要瓶颈？

Epoch AI 团队通过估计人类生成公开文本数据的有效存量来探讨这一问题，并对其 2022 年的分析进行了系统更新。

战略洞察

数据比算力更难以作为瓶颈来应对：算力可以通过投资购买，数据无法凭空生产。人类每年生成的文字总量是有上限的，而这个上限基本不会因为 AI 需求而改变。

方法论视角

这篇研究的意义不只是一个时间预测，更是一个框架：把"数据"从过去被忽视的背景要素，提升为可量化、可追踪的核心变量。这种认知转变本身就很有价值。

2022 年原论文预测高质量文本数据将在 2024 年被耗尽；本次 2024 年更新大幅修正为 2026–2032 年。预测本身的大幅变动，也是重要信号。

如果算力可以无限扩展，而数据即将触顶，AI 能力的增长曲线会是什么形状？

不是"停止增长"，而是增长方式会根本性转变——从双轴扩展（算力 × 数据）退化为单轴扩展（仅算力）。就像一辆双引擎飞机，一台引擎即将熄火。飞机不会马上坠落，但巡航高度和加速能力会永久性下降。

研究结果

研究的核心发现：人类生成公开文本数据的有效总存量约为 300 万亿 tokens（3×10¹⁴），90% 置信区间为 100T 到 1000T。这一估计仅包括质量足够高、可用于训练的数据，并已考虑对同一数据集进行多轮训练的可能性。

三种训练策略下的数据耗尽时间

数据被完全利用的时间节点，取决于模型的扩展方式。研究建立了两种数据集增长模型（历史趋势外推 + 基于算力的预测），综合预测显示：

计算最优训练（每参数 ~20 tokens） ~2028

过度训练 5× 策略 ~2027

过度训练 100× 策略 ~2025

计算最优策略下，现有数据足以训练一个具有 5×10²⁸ FLOP 规模的模型，预计该规模将在 2028 年达到。80% 置信区间内，数据将在 2026 年至 2032 年之间某个时间点被完全利用。

近期模型普遍采用"过度训练"策略——使用较少参数但投喂更多数据——以提高推理阶段的计算效率。Llama 3-70B 的过度训练因子约为 10 倍，介于两种激进策略之间。

研究还建立了一个简化的收入与成本模型：在特定假设下，将模型过度训练多达 100 倍在经济上是合理的——因为模型参数越少，推理成本越低，商业回报可能更高。

300T

有效文本存量
中位估计（tokens）

2026–32

数据耗尽预测
80% 置信区间

5×10²⁸

计算最优下
可训练最大模型

10×

Llama 3-70B
实际过度训练因子

关键警示

Llama 3 已经用了 10 倍过度训练——意味着它消耗数据的速度，是计算最优模型的 10 倍。如果这一趋势持续，行业实际触达数据天花板的时间，会比"计算最优"场景下的 2028 年早得多。

注意：100 倍过度训练下，数据耗尽时间约为 2025 年。这篇论文发表于 2024 年 6 月，意味着最激进的训练策略已经在论文发表后不久就会触及上限。

300T tokens 是"够用"还是"不够"——这个答案完全取决于模型训练效率，而训练效率本身也在变化。这是一个移动的靶子。

论文给出的是一个存量上限，但消耗速率却由商业决策决定——什么训练策略最划算，这是个经济学问题，不是技术问题。因此，数据耗尽的时间窗口，本质上是由竞争压力下的行业集体选择决定的，而不是由物理定律决定的。

与 2022 年旧估计的比较

2022 年的原论文预测高质量文本数据将在 2024 年被完全利用，而本次更新将这一时间推迟到 2026–2032 年。这一差异源于两项关键的方法论修正，每一项都大幅提升了有效数据存量的估计。

原因一：网络数据重新评估（估计量增加约 5 倍）

2022 年的研究将高质量数据建模为网络爬取数据与人工策划语料库（已发表科学论文、书籍等）大约各占一半，得出约 10 万亿 tokens 的高质量数据估计。

然而，后来的研究证明：经过精心过滤的网络数据可以超越人工策划的语料库。由于网络数据的绝对体量远超手动策划数据，这一发现使高质量数据存量的估计增加了约 5 倍。

关键结论：决定数据质量的，是过滤方法，而非数据来源。来自互联网的原始文本，经过足够精细的筛选后，其训练价值可以媲美甚至超越精挑细选的书籍和论文。

原因二：多轮训练发现（有效存量进一步增加 2–5 倍）

另一项颠覆旧假设的发现是：模型可以在多个 epochs（轮次）上进行训练，而不会出现显著的性能下降。这意味着同一数据集可以在训练过程中被多次使用，有效增加了可用数据量，进一步将存量估计扩大了 2–5 倍。

两项发现叠加，最终将有效数据存量从约 10T tokens 提升至约 300T tokens，将数据耗尽时间推迟了数年。

深度解读

"过滤策略比数据来源更重要"——这一发现重新定义了数据资产的价值。拥有大量原始互联网数据的公司，如果掌握更好的过滤方法，其数据资产价值可以远超那些花费巨资人工策划数据的竞争者。

被忽视的变量

多轮训练的可行性，暗示着"每个数据点的信息量"并未随重复训练而线性衰减。这与直觉相悖——模型真的能从同一文本中"反复学习"吗？还是说多轮训练只是在利用数据的不同方面？这个问题本文并未深究。

数字对比：2022 估计约 10T tokens → 2024 更新约 300T tokens，整体提升约 30 倍。预测误差之大，说明这类研究的置信区间本就应该很宽。

2022 年预测 2024 年耗尽，2024 年更新为 2026–2032 年。每次我们以为"知道了高质量数据的边界"，下一篇论文就会扩大它。这种估计的不稳定性本身意味着什么？

这不是预测方法失败，而是这个问题的本质——"高质量数据"的定义本身是动态的，随训练技术的进化而改变。今天认为噪声太多不可用的数据，可能因为更好的过滤器明天就变成金矿。预测数据耗尽时间，其实是在预测未来的训练技术能力。

讨论

为何专注于人类生成的公开文本数据

除公开人类文本之外，还存在许多其他类型的数据。研究选择专注于此，基于三个理由：

文本是训练前沿模型的主要模态，也更可能成为关键瓶颈——其他模态（图像、视频）更容易合成生成，或尚未被证明对 LLM 训练具有同等价值
AI 生成的合成数据尚未被充分理解，目前仅在数学和编程等相对狭窄的领域被证明能可靠地提升能力
非公开数据（如即时消息）似乎不太可能大规模使用——法律问题以及数据分散在多个利益竞争的平台上

欠训练策略：边际收益递减的出路

一种可以在数据触顶后继续取得进展的方式是：固定数据集规模于 300T tokens，同时持续增大模型参数量——这一策略称为"欠训练"（undertraining）。

虽然欠训练可以提供相当于额外约两个数量级计算最优扩展的收益，但最终会达到平台期——边际收益递减，模型不再从更多参数中受益，因为数据量已不足以充分激活这些参数。

2030 年后的三条创新路径

要在数据耗尽后的 2030 年代维持能力进步，需要新的技术突破。研究识别出三类最相关的方向：

合成数据（Synthetic Data）：用 AI 生成的数据补充人类生成的数据——目前仅在数学、代码等结构化领域被证明有效
从其他模态学习（Learning from Other Modalities）：利用图像、视频、音频等非文本数据，扩展可用训练信号的边界
数据效率提升（Data Efficiency Improvements）：用更少的数据实现同等或更好的训练效果——包括更好的课程学习、更高效的架构设计等

随着数据相对于算力变得越来越稀缺，投入到开发这些技术的资源将大幅增加。Epoch AI 预计这种投入水平的提升将推动这些方向取得突破。

合成数据悖论

合成数据的核心矛盾：用模型生成的数据来训练下一代模型——这不可避免地会引入当前模型的偏见和局限性。如果模型 A 的错误被写进训练数据，模型 B 会把这些错误当作"事实"学进去。这个循环的上限在哪里？

被低估的多模态路径

论文假设"1张图 ≈ 30 个文本 tokens"，但这个等价关系在不同任务类型下差异巨大。视觉-语言对齐的质量远比数量重要——一张带高质量文字说明的图，训练价值可能不亚于数千张裸图片。

欠训练的真正含义：当无法扩展数据，只能扩展参数时，我们正在用"模型记忆力"替代"见识广度"——这两者的训练效果并不等价。

数据效率提升是这三条路径中最"安全"的，因为它不改变信息来源，只改变提取效率。但历史上，架构优化带来的效率提升往往很快就被更大的模型消耗掉——数据效率提升的成果，会立刻被转化为更激进的扩展。

合成数据如果有效，意味着未来的 AI 将在"AI 写的文字"上成长，而非人类写的文字——这种文明知识传承的断裂，我们准备好了吗？

人类的书写是思维外化的痕迹，承载着犯错、修正、矛盾和情感。AI 生成的"完美"文本，可能恰恰缺少这种混乱性——而这种混乱性，正是人类智慧中最有价值的部分。当模型开始自我繁殖训练数据，我们无法预知它会收敛到什么样的"知识宇宙"，也无法保证那个宇宙与人类真实世界的对应关系。

术语表 & 核心数据

核心概念对照

训练策略 A

计算最优

固定算力下，选择能产生最佳性能的模型大小和数据量。根据 Hoffmann et al. (2022)，密集模型每参数约训练 20 个 token 可达最优。

训练策略 B

过度训练

用超过计算最优规定的数据量训练。模型参数更少，推理更高效，但消耗更多数据。Llama 3 采用约 10 倍过度训练。

训练策略 C

欠训练

数据耗尽后，通过增加参数数量继续提升性能。推理效率低，但不受数据量限制。可提供约 2 个数量级的额外算力当量。

其他关键术语

术语	定义
Token	LLM 处理的基本文本单元；1 token ≈ 0.8 个英文单词；1 张图 ≈ 30 tokens，1 秒视频 ≈ 30 tokens
Epoch	对整个训练数据集的一次完整遍历；多轮训练 = 多个 epoch
FLOP	浮点运算次数，衡量训练算力的单位
Scaling Law	描述模型性能与算力、数据、参数三者关系的幂律；Chinchilla (Hoffmann 2022) 是当前最常引用的版本

核心数据汇总

项目	数值
有效高质量文本存量（中位估计）	300 万亿 tokens（3×10¹⁴）
90% 置信区间	100T — 1000T tokens
数据耗尽预测区间（80% 置信）	2026 — 2032 年
计算最优下可训练的最大模型	5×10²⁸ FLOP（预计 2028 年达到）
5 倍过度训练下数据耗尽时间	约 2027 年
100 倍过度训练下数据耗尽时间	约 2025 年
Llama 3-70B 过度训练因子	约 10 倍
2022 年旧估计（高质量数据存量）	约 10 万亿 tokens
网络数据重评估导致的存量增幅	约 5 倍
多轮训练导致的有效存量增幅	约 2–5 倍
欠训练可提供的额外算力当量	约 2 个数量级

三种策略的本质差别

计算最优是"性价比最高的训练方式"，过度训练是"牺牲训练成本换推理成本"，欠训练是"牺牲推理成本换训练可行性"。这三者不是孰优孰劣，而是在不同商业约束下的不同权衡。

数据成本的逆转

当前顶级 AI 实验室在算力上的花费，远超在数据上的花费。一旦数据成为瓶颈，这种经济结构会逆转——高质量数据的采集、清洗、版权许可将成为主要成本中心。

原文脚注提示：即使达到数据上限，训练也不会"突然停止"——而是边际收益持续递减，最终进入平台期。这不是悬崖，而是斜坡。

数据会耗尽吗？LLM Scaling 的人类数据极限

引言