"AI辅导将变革教育"这句话,你估计已经听腻了吧。但这次不太一样。研究者在真实的学校里,对真实的学生,做了随机对照试验(RCT)。而且不止一次,是多次。结果呢?有的实验在6周内就达成了2年的学习效果,而另一项实验,只是把ChatGPT直接丢给学生,成绩反而下降了17%。

3秒速览
AI辅导RCT 3项 设计得当 +127% 无护栏 -17% 反效果 关键在提示词设计 + 教师监督

这是什么?

2024至2025年间,围绕GPT-4驱动的AI辅导学习效果的随机对照试验(RCT)相继发表。RCT是医学领域验证新药疗效时使用的"黄金标准"——把学生随机分组,一组使用AI辅导,另一组不用,再比较结果。

核心的三项实验可以这样梳理。

三项关键RCT实验

尼日利亚实验(世界银行,2025): 9所公立高中,6周课后GPT-4辅导。每位学生成本48美元,达成2年学习效果。效应量(0.31标准差)属于教育干预中前20%的水平。
土耳其实验(宾大/沃顿,2025): 约1,000名高中生,在数学课中引入GPT-4。"GPT Tutor"(带护栏)提升+127%,"GPT Base"(无护栏)提升+48%。但之后在没有AI的情况下考试,Base组反而下降17%。
哈佛实验(Kestin等,2025): 大学物理课上,AI辅导的学习成效高于主动学习(active learning)课堂。学生的参与度和动机也更高。

沃顿商学院的Ethan Mollick教授综合这些结果后总结道——"AI究竟帮助学习还是损害学习,取决于怎么用,而不是AI本身"

+127%
GPT Tutor 成绩提升(土耳其)
-17%
无护栏GPT的反效果
$48
每位学生成本(尼日利亚)

有什么不同?

此前"AI辅导到底好不好"的争论,基本是观点之争。现在数据出来了。而这些数据讲的故事,其实相当微妙。

直接用ChatGPT 精心设计的AI辅导
学习方式 直接给答案(抄近路) 用提示和问题引导
练习中成绩 +48%(AI代劳) +127%(学生亲自解)
无AI考试 -17%(依赖性反噬) 几乎无反效果
学生认知 "感觉学了很多"(错觉) 真的学到了
成本效益 无法衡量(根本没学会) 48美元/人换2年效果

最令人警觉的发现来自土耳其实验。使用无护栏ChatGPT的学生自我感觉"学到了很多",但实际考试时却比没用AI的学生低了17%。 这正好对应飞机自动驾驶的那个比喻——过度依赖自动驾驶,手动飞行的能力反而会退化,原理是一样的。

而尼日利亚实验展示的是相反的结果。差别在哪里呢:

尼日利亚实验成功的原因

教师监督: 教师亲自指导,但不直接给答案。AI不是替代教师,而是教师把AI当作工具使用。
课程衔接: 提示词按照尼日利亚国家课程标准设计,不是随便丢个题目进去。
应用学习科学原则: 提取练习(retrieval practice)、精细化提问(elaborative interrogation)、情境化例子——把经过验证的教学法融入到提示词中。
同伴学习: 学生以2人一组的形式与AI互动。不是一个人,是和同伴一起。

斯坦福大学的Tutor CoPilot实验也得出了相同结论。不是让AI直接教学生,而是用AI辅助人类辅导老师,这样才有效果。特别是缺乏经验的辅导老师所带的学生,数学通过率提升了9个百分点——每位学生每年的成本仅为20美元。

上手指南

无论你是学生、家长还是教育者——这里整理了这些研究告诉我们的实战原则。

  1. 使用"不要直接给答案"的提示词
    不要对ChatGPT说"帮我解这道题",而是这样开场:"我正在学习这个概念。请不要直接给我答案,用提示和问题引导我。我答错了就告诉我为什么错了。" 土耳其实验中,正是这点差别造就了+127%与-17%的分野。
  2. 保持教师/家长的监督
    这是尼日利亚实验成功的关键。不要把学生丢给AI,而是在使用AI作为工具的同时,让人类掌控整个过程。
  3. 学完后务必脱离AI复习
    和AI一起学习之后,一定要留出不用AI独立做题的时间。这是土耳其实验给出的最清晰的教训——用AI时表现好是理所当然,不用AI时也能表现好,才是真正的学习。
  4. 善用沃顿的提示词资源库
    Mollick教授团队以Creative Commons协议公开了一批教育用提示词。自己写有难度的话,可以从这里开始。
  5. 坚持才是关键
    尼日利亚实验中,每多出席一天,效果就额外增加0.031标准差。不是用一次就完事,持续使用才重要。

注意

尼日利亚实验的对照组是"完全没有任何干预"的状态。也就是说,并没有直接比较AI辅导和人类辅导。此外,数字素养越高的学生效果越明显,这也带来一个隐忧——AI辅导反而可能扩大数字鸿沟。