같은 GPT-4, 같은 수학 수업, 같은 학생들. 그런데 한 그룹은 성적이 +127% 뛰었고, 다른 그룹은 시험에서 -17% 곤두박질쳤어요. 둘을 가른 건 모델도, 예산도, 학생 수준도 아니었어요. AI에게 건넨 첫 문장 하나였어요.
이건 의견이 아니에요. 터키 고등학교 1,000명을 무작위로 나눠 돌린 통제 실험(RCT) — 의학에서 신약 효과를 검증할 때 쓰는 바로 그 '황금 기준' — 의 결과예요.
가장 무서운 건, 학생들이 그 차이를 못 느꼈다는 거예요
터키 실험에서 가드레일 없는 ChatGPT — 그러니까 우리가 평소 쓰는 그대로, "이 문제 풀어줘"라고 던지는 방식 — 를 쓴 학생들은 연습 중엔 +48%로 성적이 좋아 보였어요. AI가 옆에서 답을 술술 풀어주니까요.
그런데 AI를 치우고 혼자 시험을 보게 했더니, 이 학생들은 AI를 아예 안 쓴 학생들보다 17% 낮은 점수를 받았어요. 더 소름 돋는 부분은 따로 있어요. 정작 본인들은 "많이 배운 것 같다"고 느꼈다는 거예요. 배웠다는 착각만 남고, 실력은 오히려 깎인 거죠.
오토파일럿에 의존하다 보면, 정작 수동 비행 실력이 녹슬어요. AI도 똑같아요. — Ethan Mollick (Wharton)이 정리한 비유
Mollick 교수가 이 실험들을 종합한 결론은 명료해요. "AI가 학습을 돕느냐 해치느냐는 AI 자체가 아니라, 어떻게 쓰느냐에 달렸다." 문제는 대부분의 사람이 무의식적으로 '-17% 모드'로 AI를 쓰고 있다는 거예요.
+127%를 만든 단 한 줄
같은 실험의 다른 그룹, 'GPT Tutor'는 프롬프트에 가드레일 하나가 박혀 있었어요. 답을 바로 주지 말고, 힌트와 질문으로 학생을 유도하라는 지시요. 학생이 직접 끙끙대며 풀게 만든 거죠. 결과가 +48%가 아니라 +127%로 갈렸고, AI 없는 시험에서도 역효과가 거의 없었어요.
그러니까 당장 오늘부터 바꿀 수 있는 건 이 한 줄이에요. AI에게 이렇게 시작하세요.
그대로 복붙하는 "답 주지 마" 프롬프트
"나는 지금 [개념]을 배우는 중이야. 답을 바로 알려주지 말고, 힌트와 질문으로 나를 단계별로 이끌어줘. 내가 틀리면 정답을 던지지 말고, 왜 틀렸는지부터 짚어줘. 내가 스스로 답에 도달하게 해줘."
터키 실험에서 정확히 이 차이가 +127%와 -17%를 갈랐어요. 직접 만들기 번거로우면, Mollick 교수팀이 Creative Commons로 공개한 교육용 프롬프트 라이브러리에서 가져다 쓰면 돼요.
| "문제 풀어줘" (-17%) | "답 주지 마" (+127%) | |
|---|---|---|
| AI의 역할 | 답을 바로 줌 (지름길) | 힌트와 질문으로 유도 |
| 연습 중 성적 | +48% (AI가 대신 풀어서) | +127% (학생이 직접 풀어서) |
| AI 없이 본 시험 | -17% (의존성 역효과) | 역효과 거의 없음 |
| 학생의 자기 인식 | "많이 배웠다" (착각) | 실제로 배움 |
| 비용 효율 | 측정 불가 (학습이 안 됨) | $48/학생에 2년치 효과 |
프롬프트만으론 부족해요: 나이지리아가 증명한 나머지 절반
그런데 프롬프트 한 줄이 전부였다면 얘기가 너무 쉬웠겠죠. 세계은행이 나이지리아 9개 공립 고등학교에서 돌린 실험은, 똑같이 GPT-4를 쓰고도 학생당 $48로 2년치 학습 효과를 냈어요. 모든 교육 개입을 통틀어 상위 20%에 드는 효과 크기(0.31 표준편차)예요. 무엇이 이걸 가능하게 했을까요. 프롬프트 외에 세 가지가 더 있었어요.
나이지리아 성공의 나머지 절반
① 교사가 끝까지 운전석에: 교사가 직접 지도하되 답은 알려주지 않았어요. AI가 교사를 대체한 게 아니라, 교사가 AI를 도구로 부린 거예요.
② 교육과정에 맞춘 설계: 프롬프트가 나이지리아 국가 교육과정에 정렬돼 있었어요. 아무 주제나 던진 게 아니에요.
③ 검증된 학습 과학을 프롬프트에: 인출 연습(retrieval practice), 정교화 질문(elaborative interrogation), 맥락적 예시 — 교육학이 검증한 교수법을 프롬프트에 녹였어요.
④ 혼자가 아니라 짝으로: 학생들이 2인 1조로 AI와 상호작용했어요.
스탠퍼드의 Tutor CoPilot 실험도 같은 곳을 가리켜요. AI가 학생을 직접 가르칠 때가 아니라, 인간 튜터를 보조할 때 효과가 났어요. 특히 경험 적은 튜터가 가르치는 학생들의 수학 통과율이 9%p 올랐고, 단가는 학생당 연 $20에 불과했어요. 하버드 물리 수업 실험에서도 잘 설계된 AI 튜터가 액티브 러닝 수업보다 학습 성과·참여도·동기 모두에서 앞섰고요.
패턴이 보이죠. AI를 답 기계로 쓰면 실력이 깎이고, 사고를 끌어내는 코치로 쓰되 사람이 운전대를 쥐고 있으면 효과가 폭발해요.
그래서, 오늘부터 이렇게 쓰세요
학생이든 학부모든 교육자든, 이 실험들이 검증한 실전 원칙은 다섯 가지로 압축돼요.
- "답 주지 마"로 시작하기
위의 복붙 프롬프트를 첫 문장으로. "풀어줘"가 아니라 "이끌어줘". 이 한 줄이 +127%와 -17%를 가른 분기점이에요. - 사람이 운전대를 놓지 않기
AI에게 학생을 통째로 맡기지 마세요. AI는 도구, 전 과정의 관리자는 교사·부모예요. 나이지리아 실험의 1번 성공 요인이에요. - 공부 끝엔 반드시 AI 없이 혼자 풀기
AI 옆에 끼고 잘 푸는 건 당연해요. AI를 치웠을 때도 풀려야 진짜 학습이에요. 터키 실험이 준 가장 선명한 교훈이고, '배웠다는 착각'을 깨는 유일한 방법이에요. - 학습 과학을 프롬프트에 심기
인출 연습, 정교화 질문, 맥락적 예시를 프롬프트에 요청하세요. 직접 짜기 어려우면 Wharton 프롬프트 라이브러리를 출발점으로. - 한 번 말고 꾸준히
나이지리아 실험에선 출석 하루당 0.031 표준편차씩 효과가 누적됐어요. 효과는 일회성 마법이 아니라 반복의 함수예요.
과신하기 전에 — 데이터의 한계
나이지리아 실험의 대조군은 '아무 개입도 없는' 상태였어요. AI 튜터 vs 인간 튜터를 직접 맞붙인 건 아니라는 뜻이에요. 게다가 디지털 리터러시가 높은 학생일수록 효과가 컸어요 — AI 튜터가 오히려 디지털 격차를 더 벌릴 수 있다는 우려가 여기서 나와요.




