Google 用生成式 AI 重新定义教科书:个性化改写 + 多模态转换 + 形成性评估,一场关于「学习本身如何被学习科学重塑」的深度拆解。
生成式人工智能(Gen-AI)的最新进展有可能彻底改变教育,但这一潜力尚未完全实现。这需要一种负责任的跨学科方法,将学习科学与前沿技术结合在一起。在这项工作中,我们聚焦于当前学习旅程的一个核心方面:探索教科书材料。
传统上,每所学校都会选择若干教科书供所有学习者使用。这些教科书从定义上就是僵化的、非自适应的——为每个受众手动创建不同版本是不切实际的,更不用说根据个人需求进行调整了。我们认为,在 Gen-AI 时代,灵活且个性化的教科书这一概念实际上已触手可及。具体而言,我们展示了如何将教科书转化为更丰富、更个性化的形式,同时保持原始内容的完整性,并添加促进有效学习的层次。
我们的教科书增强方法以教科书章节为输入,将其作为生成大量内容、练习和评估的基础。我们的方法建立在两个关键概念之上:多重表征和个性化。我们提出了一种两步 AI 生成方案:首先对原始文本进行个性化处理,然后将其转化为一系列展示形式和评估组件。这一过程的关键要求是:内容必须与源材料和课程充分对齐,展示方式必须具有吸引力且在教学上有效。我们在一个实验性学习体验中实现了这种方法,称之为 Learn Your Way。
我们从一个教学观察出发:当学习体验适应学习者的特征和需求时,学习可以更加有效 [1, 2]。因此,Learn Your Way 被设计为首先根据学习者的特定属性重新生成原始教科书内容。此外,它还会生成评估机会,用于创建关于学习者进度的信号,反映个性化反馈,并影响后续学习步骤。
多重表征的价值已在学习科学中得到深入研究 [3]。例如,双编码理论 [4] 指出,多重表征具有在同一概念的不同编码之间建立联系的优势,从而强化相应的心理概念结构。因此,Learn Your Way 增加了多种视图(音频课程、带旁白的幻灯片和思维导图),学习者可以与之交互并从中选择。提供这些选项符合个性化系统应具有可适应性的理念,赋予学习者决定学习路径的自主权 [5-7]。这也受到自我调节学习(SRL)[8] 和可见学习 [9] 理论的启发。
图 1 展示了 Learn Your Way 的核心视图,演示了个性化和多重表征如何融合。由此产生的 AI 增强教科书为学习者提供了个性化且引人入胜的学习体验,同时允许他们选择不同的模态来增强理解。在接下来的章节中,我们将描述 Learn Your Way 的每个组件及其教学价值评估。最后,我们报告了一项随机对照研究的结果,表明使用我们的个性化和多重表征系统可以提高学习效果。
这不是一篇普通的技术论文——这是 Google 在教育 AI 赛道上的战略宣言。LearnLM 团队横跨 Google DeepMind、Google Research 和 LearnX,副总裁 Yossi Matias 亲自挂名核心贡献者。当 Google 开始用 Gemini 2.5 Pro 重写教科书时,意味着:教育内容的生产方式即将从"人工创作"不可逆转地转向"AI 生成 + 人工审核"。
双编码理论 1991 年就有了,个性化教学也不新鲜。Learn Your Way 的真正突破不在理论,而在于规模化的可行性:证明了 Gen-AI 可以在不损失内容准确性的前提下,低成本、批量完成过去只有资深教学设计师才能做的多模态转换。这是从"手工作坊"到"工业化"的跃迁。
论文反复强调"保持内容完整性"(content integrity),但个性化改写和完整性之间天然存在不可消解的张力。当你把牛顿第三定律用篮球来解释时,物理本质被保留了吗?还是学生只记住了"篮球弹回来"?这篇论文回避了这个根本问题。
当教科书可以自动适配每个学生的兴趣和阅读水平,"教育公平"到底变好了还是变差了?——如果只有买得起 AI 教科书的学校能用上个性化学习,这项技术会不会反而把教育鸿沟从"内容获取"升级为"体验质量"?
我们假设有一个由学习者课程和学习目标定义的"真实来源"(source-of-truth)材料——简单来说,可以理解为教科书中的某一章节。我们的目标是探索如何通过转换源材料来增强内容参与度和教学效果。Gen-AI 在此提供了四个关键机会:
第一,它可以为学习者感兴趣的任何材料生成内容。第二,它可以在生成过程中适应学习者的特定属性和需求——这与人类教育者创建个性化学习材料形成鲜明对比,后者耗时更长且无法规模化。第三,AI 可以生成材料的不同表征形式,包括可视化和音频格式,这些已被证明能进一步提高学习效果 [3, 4]。第四,AI 可以生成针对学习者量身定制的形成性评估,帮助他们监控和调节学习进度。正如 [10] 指出的,形成性评估是学习的关键驱动力。
我们的教科书转换和增强遵循两步法。在"文本个性化"阶段,我们改写材料以匹配学习者的特定个人属性。然后在"内容转换"阶段,我们创建改写材料的多种视图。图 2 展示了这一过程。除非另有说明,以下所有转换和增强均直接依赖 Gemini 2.5 Pro,无需额外微调。
年级水平个性化。使材料适配学习者阅读年级水平是一种核心转换,为所有后续转换提供基础。文本通过生成式方法进行适配,目标是匹配该年级的 Flesch-Kincaid Grade(FKG)[12, 13],同时保持事实性和内容覆盖度。这被称为"重新分级"(re-leveling),是 Gemini 2.5 Pro 核心教育能力的一部分。
兴趣个性化。Learn Your Way 会询问学习者的个人兴趣(如体育、音乐、美食)。该信息用于改写原始文本,使其更具关联性。这也是将新知识映射到学习者已有概念网络的过程,从而使学习更加有效。正如 [14] 指出的:"个体已有的知识是后续学习和表现的基础。"
我们的 Gen-AI 改写以聚焦方式进行:首先选择特别适合个性化的文本部分,然后仅用 AI 改写的个性化版本替换这些部分。这还有一个额外优势——高亮显示个性化文本,让学习者知道内容已根据其兴趣进行了定制。见图 2 中牛顿第三定律的示例,分别为篮球和艺术两种兴趣进行改写。
幻灯片与旁白。学习者通常受益于类似课堂的幻灯片序列,简要涵盖核心材料,同时提出引发兴趣的问题和互动活动。Learn Your Way 还提供可选的生成式旁白——旁白旨在模拟录制课程,其文本不局限于幻灯片内容,而是被设计为自然且互补的。
音频图形课程。这种转换以音频图形形式提供材料的全面详细覆盖,模拟教师和学生之间关于该材料的对话。教师和学生的回合使用独立的 Gemini "角色"(personas)迭代生成,使虚拟学生在材料呈现之前看不到内容,从而产生不在原始材料中的回答,揭示常见学习误解。
思维导图。这种常见的图形表示以层次结构组织信息,允许在不同粒度级别上查看材料。我们用源材料中的说明文字和图像标注地图节点,并允许用户展开和折叠节点。
上述转换虽然各自有效,但并非独立存在。它们旨在补充一篇连贯完整的文本。这种文本可以通过交织个性化元素和多种模态来增强。我们称之为"沉浸式文本"(见图 1)。在文本的每个部分之后,我们可选地包含以下增强组件:
时间线。源材料经常包含序列(如历史事件或实验步骤)。"时间线"通过视觉方式传达这些序列,降低认知负荷。时间线还提供互动练习机会:学习者只需将方框拖放到序列中的适当位置。
记忆辅助。学习新材料经常涉及记忆事实。我们聚焦于助记法——每个需记住的项目与一个以相同首字母开头的单词相关联,这些单词序列形成一个句子。借助即时生成,我们不再局限于覆盖范围有限的常用助记法。
视觉插图。视觉学习被广泛认为是一种强大的媒介。然而,我们的初步探索发现,即使是最先进的 AI 图像生成模型也难以产生"简单"或"教育性"的图像——这些模型被训练来生成高细节的逼真图像。为此,我们专门针对此任务微调了一个模型。
1 注意:此处的"简单"风格与教育场景中所需的简单语义不同。
两步法(先个性化,再多模态转换)的设计极其聪明:个性化后的文本成为所有下游转换的统一输入,这意味着幻灯片、音频课程、测验都自动继承了个性化特征。一次个性化,全链路生效。
但陷阱也在这里:如果第一步(个性化改写)引入了偏差或错误,所有下游产物都会继承并放大这个错误。这是一个级联失败的风险架构。
论文用 FKG 作为年级适配的衡量标准,但 FKG 只测量句子长度和音节数,完全无法捕捉概念复杂度。一句"量子纠缠很酷"的 FKG 可能是 3 年级,但 3 年级学生真的能理解量子纠缠吗?用可读性公式来衡量教育适配度,就像用字数来衡量文章质量一样——方向对,精度差。
论文承认 Gemini 无法直接生成好的教育插图,需要专门微调一个模型。这暴露了当前多模态 AI 的一个根本局限:生成式模型擅长"逼真"但不擅长"简明"。教育插图需要的是精确传达概念的抽象化能力——恰恰是当前模型最薄弱的环节。
音频图形课程中,学生角色"看不到材料就回答问题"的设计被一笔带过,但这其实是全文最精妙的 prompt engineering。通过让虚拟学生暴露真实的误解,系统不仅教了正确知识,还主动呈现了"错误的理解方式"——这正是教学中最难也最有价值的部分。
当所有知识都被"翻译"成你已经熟悉的语言——用篮球解释物理、用美食解释经济——你还能发展出跨领域思维能力吗?个性化学习的终极悖论:让学习变得更舒适的同时,是否也在悄悄缩小你的认知边界?
形成性评估可以说是学习的主要驱动力之一 [15],它增强了前面讨论的多种材料视图。确实,有效的边学边评和即时反馈可以帮助强化概念、提高知识和技能的保持率 [16]。因此,我们为 Learn Your Way 增加了两个评估组件,两者均出现在沉浸式文本视图中。
嵌入式问题是动态生成的、与源材料特定段落相关联的问题。这些问题的作用是将阅读体验从被动转为主动,通过提供即时反馈来保持学习者的参与度,同时强化正在学习的概念。在 Learn Your Way 中,它们以选择题的形式呈现,当学习者点击沉浸式文本视图中的问号标记时出现。
章节级别的测验旨在检验学习者在阅读并消化某一章节后的深层理解。测验由 AI 动态生成,以该章节所有材料为依据,包含 5-10 道不同难度和类型的选择题。测验结束后,系统会提供一份总体评估,包括数字分数以及有针对性的反馈——高亮优势所在(Glows)和改进空间(Grows)。
嵌入式问题的价值远超"做做题"。它实现了学习科学中最重要的范式转换:将阅读从"信息接收"变为"认知参与"。每一个问号标记都是一次强制性的认知中断——你不得不停下来,主动检索刚读到的内容。这正是"测试效应"(testing effect)的最佳应用场景。
"优势"和"改进空间"的反馈框架看似简单,实则暗藏巧思。传统的"对/错"反馈会触发固定型思维(fixed mindset),而 Glows & Grows 暗示能力是可发展的——这与 Carol Dweck 的成长型思维理论完美契合。用词的选择,有时比分数本身更能影响学习者的后续行为。
AI 出的题,能考出 AI 不知道的理解吗?——当测验的出题者和内容生成者是同一个模型时,它是否只会验证自己的"理解方式",而遗漏了人类学习者真正需要被检验的认知盲区?
为了评估 Learn Your Way 中不同增强和转换组件的质量,我们邀请多位教学专家根据教学评价量规对每个组件进行评估。
评估使用了来自 OpenStax 的 10 篇源材料 PDF,涵盖社会学到物理学的多个主题(完整列表见附录 A)。年级个性化考虑了三个年级水平(7 年级、10 年级和大学水平),以及三种个人兴趣(篮球、音乐和美食)。每篇 PDF 被分配三种随机的年级-兴趣组合。每种配置作为 Learn Your Way 的输入,生成各类转换和评估。专家被要求评估以下各组件:
评估标准包括:准确性、覆盖度、重点突出、认知负荷、主动学习、深化元认知、动机与好奇心、适应性和学习目标清晰度。对于每个标准,评估者给出同意(1.0)、中性/部分同意(0.5)或不同意(0.0)的评分。每个组件由三位不同的评估者评估。
结果总结于图 7,所有组件均获得了较高的教学评分,整体体验在所有维度上的评分均超过 0.90。得分最低的组件是视觉插图——考虑到生成高质量教学图像的难度,这在预期之中。
更细致的分析揭示了额外洞察:例如,幻灯片格式在所有能力中获得了最低的"参与度"分数。但加入生成式旁白后,同样的幻灯片获得了显著更高的分数。这与幻灯片通常伴随旁白展示的事实一致,因此这种组合对学习者更具吸引力。
所有维度超过 0.90——这个数字看起来很漂亮,但需要冷静审视。评分量规只有三个档位(0、0.5、1.0),这意味着分辨率极低。在这种粗粒度下,0.90 可能只是"大部分评估者在大部分情况下选了同意"。真正的质量差异被三档量规抹平了。
幻灯片不加旁白 → 参与度最低;加旁白 → 参与度飙升。这个发现揭示了一个深层真理:内容的价值不在于形式本身,而在于形式之间的组合。孤立的幻灯片只是"信息碎片",加上旁白才变成"教学叙事"。这对所有教育产品设计者都是重要提醒——不要问"哪种模态最好",要问"哪种组合最有效"。
视觉插图得分最低,论文轻描淡写地归因于"图像生成的难度"。但更深层的原因是:教育插图需要的是"简化而不失准确"的抽象能力——准确地决定省略什么、保留什么、夸张什么。这恰恰是当前生成模型最弱的环节,因为它们被训练来最大化"逼真度",而非"教学清晰度"。
教学专家给了 0.9 分的高评价——但他们评估的是"这个 AI 输出在教学理论上合不合格",还是"这个 AI 输出在真实课堂中有没有用"?专家满意和学生受益之间,隔着的可能不是一条缝,而是一条鸿沟。
上面我们报告了多个主题和个性化配置下各组件的教学评估。然而,当各种能力在学习体验中融合时,影响会大得多。因此,从整体角度衡量其教学价值至关重要。为此,我们开展了一项实验,让学生学习一个不熟悉的教科书章节。
60 名 15-18 岁的学生从芝加哥地区的城市、郊区和农村学校招募。为确保参与者具有相似的阅读理解能力,我们在招募过程中进行了阅读理解和评估测试。评估平均分为 6.4(标准差 2.3),我们纳入了在均值上下 1 个标准差范围内的学生(即得分 4-9 分,满分 10 分)。
所有学生使用同一份教科书章节(来自 LibreTexts 的《青少年大脑发育》)。教学专家编写了两份评估:
参与者被随机分配到两个学习条件之一:Learn Your Way 和数字阅读器(Adobe Acrobat Reader)。每人有 5 分钟查看介绍工具功能的幻灯片,然后使用分配的工具学习材料。学习时间设定为 20-40 分钟。
图 9(左)展示即时评估结果,图 9(右)展示留存评估结果。使用 Learn Your Way 的学生在两项评估中得分均高于使用数字阅读器的学生:即时评估(p = 0.03)和留存评估(p = 0.03),均具有统计显著性(Mann-Whitney U 检验)。
图 10 报告了学习体验调查结果。Learn Your Way 在所有衡量学习体验的指标上均显著优于数字阅读器。
一篇 AI 教育论文敢做 RCT(随机对照试验),这本身就值得尊重——大多数同类工作止步于"用户调查"。但 60 人样本、单一主题(大脑发育)、单一年龄段(15-18 岁)的实验设计,只能证明"在这个场景下有效",无法外推为"普遍有效"。论文标题用的是"Towards"(迈向),这个谦虚的措辞是诚实的。
9 个百分点的差异看起来不大,但在教育研究中,这已经是相当可观的效应量。更关键的是留存评估:3 天后,Learn Your Way 组保持了 78% 的成绩,而数字阅读器组是 67%——差距反而从 9 分拉大到 11 分。这暗示个性化学习不仅影响即时理解,还可能影响记忆编码的深度。
实验用 Adobe Acrobat Reader 做对照——一个纯 PDF 阅读器,没有任何交互功能。这相当于用一辆自行车和一辆特斯拉比赛。如果对照组换成一个有高亮、笔记、搜索功能的现代阅读器(如 Kindle 或 Notion),甚至换成一个不带个性化的 Learn Your Way 版本,结果会怎样?论文回避了这个更有意义的对比。
调查中最惊人的数据:Learn Your Way 组100% 的学生表示工具让他们"在评估时更自信"——对照组只有 70%。这不仅是学习效果的差异,更是学习自我效能感的差异。让学生相信"我可以",可能比教会他们"正确答案"更有长远价值。
如果学生用了 Learn Your Way 但只看了幻灯片和测验、跳过了正文,算不算"成功学习"?——当我们把教科书变成了一个功能丰富的"学习乐园",我们是在赋能自主学习,还是在鼓励认知捷径?
我们提出了一种两阶段的 Gen-AI 方法来转换和增强源学习材料。我们的方法在 Learn Your Way 中实现。除了教学专家对各组件质量的评估外,一项随机对照试验也证实了其在真实学生学习不熟悉教科书章节时的潜在效能。
我们的效能研究存在局限。由于 Learn Your Way 包含多个组件(包括形成性测验),一个自然的问题是哪些组件对学习效能贡献最大。当前研究未深入探讨这一点,可能有些转换具有影响力而其他则没有。将评估扩展到多个教科书章节和主题也是有益的。
这项工作只是生成式 AI 对学习和学习个性化产生潜在影响的冰山一角。Learn Your Way 体验可以在多个方向上扩展:可以通过显式和隐式信号研究更多学习者属性;系统可以变得更具适应性,根据学习者在评估中的表现动态调整学习材料(例如聚焦学习差距);可以添加更多交互元素以增加学生互动。Learn Your Way 可以嵌入学习平台,为教师提供对学习过程的控制和洞察。
最重要的是,Learn Your Way 展示了如何将生成式 AI 的富有想象力的应用——植根于扎实的学习科学原则,并与教学专家共同打磨和评估——开辟令人兴奋的学习提升机会。
核心贡献者(按字母顺序):Alicia Martín, Amir Globerson, Amy Wang, Anirudh Shekhawat, Anisha Choudhury, Anna Iurchenko, Avinatan Hassidim 等 35 人。
本工作作为 LearnLM 项目的一部分完成——这是一个跨 Google 的项目,成员来自 Google DeepMind、Google Research、Google LearnX 等团队。特别感谢 Ben Gomes、Irina Jurenka、James Manyika、Julia Wilkowski 和 Muktha Ananda 的宝贵反馈。
论文承认"不知道哪个组件贡献最大"——但如果你仔细想,这个问题的答案可能会动摇整个立论。如果效果主要来自"测验"(因为测试效应本身就能提升记忆),那个性化和多模态转换就成了昂贵的装饰品。论文选择不拆解这个问题,可能不只是"成本太高",也许是因为答案可能不那么好看。
通篇 15 页论文,"teacher"一词几乎没有出现在设计讨论中(只在讨论的最后一段被一笔带过)。Learn Your Way 的整个架构假设学习是"学生 ↔ AI 内容"的双边关系,完全绕过了教师。这不是疏忽——这是一种产品哲学的选择。Google 在下一盘更大的棋:如果教科书本身就能个性化、评估、反馈,教师的角色将被重新定义为"学习的设计者和陪伴者",而非"知识的传递者"。
核心贡献者 35 人,致谢中提到了 Google 副总裁级别的名字(Ben Gomes、James Manyika、Yossi Matias)。这种级别的资源投入意味着 Learn Your Way 不只是一个研究项目——它是 Google 教育战略的技术预演。未来的 Google for Education 产品线中,极有可能出现 Learn Your Way 的商业化版本。
当 AI 可以把任何教科书变成完美适配你的"个人导师"时,我们是否正在培养一代只能在舒适区里学习的人?——真正的学习,是不是恰恰发生在那些不个性化、不舒适、强迫你走出认知边界的时刻?如果 Vygotsky 的"最近发展区"是对的,那最有效的学习体验应该是"刚好超出你能力范围"的挑战——而不是"完美适配你现有水平"的温柔。
教学评估所用的 10 篇源材料均来自 OpenStax 开放教材:
| 学科类别 | 标题 |
|---|---|
| 世界历史 | Early Human Evolution and Migration |
| 世界历史 | The Ancient Roman Economy |
| 世界历史 | The Cold War Begins |
| 生物学 | Evolution of Seed Plants |
| 生物学 | Disruptions in the Immune System |
| 物理学 | Newton's Third Law of Motion |
| 经济学 | How To Organize Economies |
| 天文学 | Motions of Satellites and Spacecraft |
| 社会学 | Theories of Self-Development |
| 心理学 | Sleep and Why We Sleep |