论文精读 · Epoch AI · 2024

数据会耗尽吗?
LLM Scaling 的人类数据极限

人类生成的公开文本约有 300 万亿 tokens——这就是当前语言模型规模扩展的天花板。 按现有趋势,这个天花板将在 2026 至 2032 年间被触碰。

Pablo Villalobos et al. · Epoch AI 2024-06-06 ArXiv 2211.04325 ↗ 原文链接 ↗
目录
01

引言

规模扩展(Scaling)一直是推动 AI 进步的核心驱动力。模型参数不断增长,训练数据集持续扩大,训练计算量因此呈指数级攀升,模型性能也随之大幅跃升。从几乎语无伦次的 GPT-2,到能力强大的 GPT-4,相隔仅五年时间,但算力投入却跨越了整整四个数量级。

迄今为止,AI 开发者除了采购 AI 芯片之外,尚未遭遇规模扩展的重大瓶颈。算力是稀缺的,但供应增长迅速。如果算力是唯一约束,AI 系统的算力将大概率继续以指数方式增长,能力前沿也将持续推进。

因此,预测 AI 进展的一个关键问题浮现出来:除原始算力之外,其他输入要素是否会成为约束性瓶颈?

规模扩展要求训练数据集随之扩大。目前最强大的 AI 系统是语言模型,这些模型主要在来自互联网的数万亿词汇的人类生成文本上训练。然而,互联网上人类生成的数据是有限的——这引出了本文的核心问题:

训练数据,是否会成为规模扩展的主要瓶颈?

Epoch AI 团队通过估计人类生成公开文本数据的有效存量来探讨这一问题,并对其 2022 年的分析进行了系统更新。

战略洞察

数据比算力更难以作为瓶颈来应对:算力可以通过投资购买,数据无法凭空生产。人类每年生成的文字总量是有上限的,而这个上限基本不会因为 AI 需求而改变。

方法论视角

这篇研究的意义不只是一个时间预测,更是一个框架:把"数据"从过去被忽视的背景要素,提升为可量化、可追踪的核心变量。这种认知转变本身就很有价值。

2022 年原论文预测高质量文本数据将在 2024 年被耗尽;本次 2024 年更新大幅修正为 2026–2032 年。预测本身的大幅变动,也是重要信号。

如果算力可以无限扩展,而数据即将触顶,AI 能力的增长曲线会是什么形状?

不是"停止增长",而是增长方式会根本性转变——从双轴扩展(算力 × 数据)退化为单轴扩展(仅算力)。就像一辆双引擎飞机,一台引擎即将熄火。飞机不会马上坠落,但巡航高度和加速能力会永久性下降。

02

研究结果

研究的核心发现:人类生成公开文本数据的有效总存量约为 300 万亿 tokens(3×10¹⁴),90% 置信区间为 100T 到 1000T。这一估计仅包括质量足够高、可用于训练的数据,并已考虑对同一数据集进行多轮训练的可能性。

三种训练策略下的数据耗尽时间

数据被完全利用的时间节点,取决于模型的扩展方式。研究建立了两种数据集增长模型(历史趋势外推 + 基于算力的预测),综合预测显示:

计算最优训练(每参数 ~20 tokens) ~2028
过度训练 5× 策略 ~2027
过度训练 100× 策略 ~2025

计算最优策略下,现有数据足以训练一个具有 5×10²⁸ FLOP 规模的模型,预计该规模将在 2028 年达到。80% 置信区间内,数据将在 2026 年至 2032 年之间某个时间点被完全利用。

近期模型普遍采用"过度训练"策略——使用较少参数但投喂更多数据——以提高推理阶段的计算效率。Llama 3-70B 的过度训练因子约为 10 倍,介于两种激进策略之间。

研究还建立了一个简化的收入与成本模型:在特定假设下,将模型过度训练多达 100 倍在经济上是合理的——因为模型参数越少,推理成本越低,商业回报可能更高。
300T
有效文本存量
中位估计(tokens)
2026–32
数据耗尽预测
80% 置信区间
5×10²⁸
计算最优下
可训练最大模型
10×
Llama 3-70B
实际过度训练因子
关键警示

Llama 3 已经用了 10 倍过度训练——意味着它消耗数据的速度,是计算最优模型的 10 倍。如果这一趋势持续,行业实际触达数据天花板的时间,会比"计算最优"场景下的 2028 年早得多。

注意:100 倍过度训练下,数据耗尽时间约为 2025 年。这篇论文发表于 2024 年 6 月,意味着最激进的训练策略已经在论文发表后不久就会触及上限。

300T tokens 是"够用"还是"不够"——这个答案完全取决于模型训练效率,而训练效率本身也在变化。这是一个移动的靶子。

论文给出的是一个存量上限,但消耗速率却由商业决策决定——什么训练策略最划算,这是个经济学问题,不是技术问题。因此,数据耗尽的时间窗口,本质上是由竞争压力下的行业集体选择决定的,而不是由物理定律决定的。

03

与 2022 年旧估计的比较

2022 年的原论文预测高质量文本数据将在 2024 年被完全利用,而本次更新将这一时间推迟到 2026–2032 年。这一差异源于两项关键的方法论修正,每一项都大幅提升了有效数据存量的估计。

原因一:网络数据重新评估(估计量增加约 5 倍)

2022 年的研究将高质量数据建模为网络爬取数据与人工策划语料库(已发表科学论文、书籍等)大约各占一半,得出约 10 万亿 tokens 的高质量数据估计。

然而,后来的研究证明:经过精心过滤的网络数据可以超越人工策划的语料库。由于网络数据的绝对体量远超手动策划数据,这一发现使高质量数据存量的估计增加了约 5 倍

关键结论:决定数据质量的,是过滤方法,而非数据来源。来自互联网的原始文本,经过足够精细的筛选后,其训练价值可以媲美甚至超越精挑细选的书籍和论文。

原因二:多轮训练发现(有效存量进一步增加 2–5 倍)

另一项颠覆旧假设的发现是:模型可以在多个 epochs(轮次)上进行训练,而不会出现显著的性能下降。这意味着同一数据集可以在训练过程中被多次使用,有效增加了可用数据量,进一步将存量估计扩大了 2–5 倍

两项发现叠加,最终将有效数据存量从约 10T tokens 提升至约 300T tokens,将数据耗尽时间推迟了数年。

深度解读

"过滤策略比数据来源更重要"——这一发现重新定义了数据资产的价值。拥有大量原始互联网数据的公司,如果掌握更好的过滤方法,其数据资产价值可以远超那些花费巨资人工策划数据的竞争者。

被忽视的变量

多轮训练的可行性,暗示着"每个数据点的信息量"并未随重复训练而线性衰减。这与直觉相悖——模型真的能从同一文本中"反复学习"吗?还是说多轮训练只是在利用数据的不同方面?这个问题本文并未深究。

数字对比:2022 估计约 10T tokens → 2024 更新约 300T tokens,整体提升约 30 倍。预测误差之大,说明这类研究的置信区间本就应该很宽。

2022 年预测 2024 年耗尽,2024 年更新为 2026–2032 年。每次我们以为"知道了高质量数据的边界",下一篇论文就会扩大它。这种估计的不稳定性本身意味着什么?

这不是预测方法失败,而是这个问题的本质——"高质量数据"的定义本身是动态的,随训练技术的进化而改变。今天认为噪声太多不可用的数据,可能因为更好的过滤器明天就变成金矿。预测数据耗尽时间,其实是在预测未来的训练技术能力。

04

讨论

为何专注于人类生成的公开文本数据

除公开人类文本之外,还存在许多其他类型的数据。研究选择专注于此,基于三个理由:

  1. 文本是训练前沿模型的主要模态,也更可能成为关键瓶颈——其他模态(图像、视频)更容易合成生成,或尚未被证明对 LLM 训练具有同等价值
  2. AI 生成的合成数据尚未被充分理解,目前仅在数学和编程等相对狭窄的领域被证明能可靠地提升能力
  3. 非公开数据(如即时消息)似乎不太可能大规模使用——法律问题以及数据分散在多个利益竞争的平台上

欠训练策略:边际收益递减的出路

一种可以在数据触顶后继续取得进展的方式是:固定数据集规模于 300T tokens,同时持续增大模型参数量——这一策略称为"欠训练"(undertraining)。

虽然欠训练可以提供相当于额外约两个数量级计算最优扩展的收益,但最终会达到平台期——边际收益递减,模型不再从更多参数中受益,因为数据量已不足以充分激活这些参数。

2030 年后的三条创新路径

要在数据耗尽后的 2030 年代维持能力进步,需要新的技术突破。研究识别出三类最相关的方向:

  1. 合成数据(Synthetic Data):用 AI 生成的数据补充人类生成的数据——目前仅在数学、代码等结构化领域被证明有效
  2. 从其他模态学习(Learning from Other Modalities):利用图像、视频、音频等非文本数据,扩展可用训练信号的边界
  3. 数据效率提升(Data Efficiency Improvements):用更少的数据实现同等或更好的训练效果——包括更好的课程学习、更高效的架构设计等
随着数据相对于算力变得越来越稀缺,投入到开发这些技术的资源将大幅增加。Epoch AI 预计这种投入水平的提升将推动这些方向取得突破。
合成数据悖论

合成数据的核心矛盾:用模型生成的数据来训练下一代模型——这不可避免地会引入当前模型的偏见和局限性。如果模型 A 的错误被写进训练数据,模型 B 会把这些错误当作"事实"学进去。这个循环的上限在哪里?

被低估的多模态路径

论文假设"1张图 ≈ 30 个文本 tokens",但这个等价关系在不同任务类型下差异巨大。视觉-语言对齐的质量远比数量重要——一张带高质量文字说明的图,训练价值可能不亚于数千张裸图片。

欠训练的真正含义:当无法扩展数据,只能扩展参数时,我们正在用"模型记忆力"替代"见识广度"——这两者的训练效果并不等价。
数据效率提升是这三条路径中最"安全"的,因为它不改变信息来源,只改变提取效率。但历史上,架构优化带来的效率提升往往很快就被更大的模型消耗掉——数据效率提升的成果,会立刻被转化为更激进的扩展。

合成数据如果有效,意味着未来的 AI 将在"AI 写的文字"上成长,而非人类写的文字——这种文明知识传承的断裂,我们准备好了吗?

人类的书写是思维外化的痕迹,承载着犯错、修正、矛盾和情感。AI 生成的"完美"文本,可能恰恰缺少这种混乱性——而这种混乱性,正是人类智慧中最有价值的部分。当模型开始自我繁殖训练数据,我们无法预知它会收敛到什么样的"知识宇宙",也无法保证那个宇宙与人类真实世界的对应关系。

05

术语表 & 核心数据

核心概念对照

训练策略 A

计算最优

固定算力下,选择能产生最佳性能的模型大小和数据量。根据 Hoffmann et al. (2022),密集模型每参数约训练 20 个 token 可达最优。

训练策略 B

过度训练

用超过计算最优规定的数据量训练。模型参数更少,推理更高效,但消耗更多数据。Llama 3 采用约 10 倍过度训练。

训练策略 C

欠训练

数据耗尽后,通过增加参数数量继续提升性能。推理效率低,但不受数据量限制。可提供约 2 个数量级的额外算力当量。

其他关键术语

术语定义
TokenLLM 处理的基本文本单元;1 token ≈ 0.8 个英文单词;1 张图 ≈ 30 tokens,1 秒视频 ≈ 30 tokens
Epoch对整个训练数据集的一次完整遍历;多轮训练 = 多个 epoch
FLOP浮点运算次数,衡量训练算力的单位
Scaling Law描述模型性能与算力、数据、参数三者关系的幂律;Chinchilla (Hoffmann 2022) 是当前最常引用的版本

核心数据汇总

项目数值
有效高质量文本存量(中位估计)300 万亿 tokens(3×10¹⁴)
90% 置信区间100T — 1000T tokens
数据耗尽预测区间(80% 置信)2026 — 2032 年
计算最优下可训练的最大模型5×10²⁸ FLOP(预计 2028 年达到)
5 倍过度训练下数据耗尽时间约 2027 年
100 倍过度训练下数据耗尽时间约 2025 年
Llama 3-70B 过度训练因子约 10 倍
2022 年旧估计(高质量数据存量)约 10 万亿 tokens
网络数据重评估导致的存量增幅约 5 倍
多轮训练导致的有效存量增幅约 2–5 倍
欠训练可提供的额外算力当量约 2 个数量级
三种策略的本质差别

计算最优是"性价比最高的训练方式",过度训练是"牺牲训练成本换推理成本",欠训练是"牺牲推理成本换训练可行性"。这三者不是孰优孰劣,而是在不同商业约束下的不同权衡。

数据成本的逆转

当前顶级 AI 实验室在算力上的花费,远超在数据上的花费。一旦数据成为瓶颈,这种经济结构会逆转——高质量数据的采集、清洗、版权许可将成为主要成本中心。

原文脚注提示:即使达到数据上限,训练也不会"突然停止"——而是边际收益持续递减,最终进入平台期。这不是悬崖,而是斜坡。