images.unsplash.com

같은 GPT-4인데 한 반은 +127%, 다른 반은 -17%였다 — 차이는 첫 문장 하나

GPT-4 기반 AI 튜터의 무작위 통제 실험(RCT) 결과를 정리합니다. 6주 만에 2년치 학습 효과, 하지만 가드레일 없으면 오히려 역효과 AI 교육

Generative AI without guardrails can harm learning: Evidence from high school mathematics

Against Brain Damage — Ethan Mollick

GPT-4 Tutoring in Nigeria Boosts English Scores

같은 GPT-4, 같은 수학 수업, 같은 학생들. 그런데 한 그룹은 성적이 +127% 뛰었고, 다른 그룹은 시험에서 -17% 곤두박질쳤어요. 둘을 가른 건 모델도, 예산도, 학생 수준도 아니었어요. AI에게 건넨 첫 문장 하나였어요.

이건 의견이 아니에요. 터키 고등학교 1,000명을 무작위로 나눠 돌린 통제 실험(RCT) — 의학에서 신약 효과를 검증할 때 쓰는 바로 그 '황금 기준' — 의 결과예요.

+127%

"답 주지 마" 튜터 (터키)

-17%

"문제 풀어줘" 챗봇 (터키)

$48

2년치 학습 효과 단가 (나이지리아)

가장 무서운 건, 학생들이 그 차이를 못 느꼈다는 거예요

터키 실험에서 가드레일 없는 ChatGPT — 그러니까 우리가 평소 쓰는 그대로, "이 문제 풀어줘"라고 던지는 방식 — 를 쓴 학생들은 연습 중엔 +48%로 성적이 좋아 보였어요. AI가 옆에서 답을 술술 풀어주니까요.

그런데 AI를 치우고 혼자 시험을 보게 했더니, 이 학생들은 AI를 아예 안 쓴 학생들보다 17% 낮은 점수를 받았어요. 더 소름 돋는 부분은 따로 있어요. 정작 본인들은 "많이 배운 것 같다"고 느꼈다는 거예요. 배웠다는 착각만 남고, 실력은 오히려 깎인 거죠.

오토파일럿에 의존하다 보면, 정작 수동 비행 실력이 녹슬어요. AI도 똑같아요. — Ethan Mollick (Wharton)이 정리한 비유

Mollick 교수가 이 실험들을 종합한 결론은 명료해요. "AI가 학습을 돕느냐 해치느냐는 AI 자체가 아니라, 어떻게 쓰느냐에 달렸다." 문제는 대부분의 사람이 무의식적으로 '-17% 모드'로 AI를 쓰고 있다는 거예요.

+127%를 만든 단 한 줄

같은 실험의 다른 그룹, 'GPT Tutor'는 프롬프트에 가드레일 하나가 박혀 있었어요. 답을 바로 주지 말고, 힌트와 질문으로 학생을 유도하라는 지시요. 학생이 직접 끙끙대며 풀게 만든 거죠. 결과가 +48%가 아니라 +127%로 갈렸고, AI 없는 시험에서도 역효과가 거의 없었어요.

그러니까 당장 오늘부터 바꿀 수 있는 건 이 한 줄이에요. AI에게 이렇게 시작하세요.

그대로 복붙하는 "답 주지 마" 프롬프트

"나는 지금 [개념]을 배우는 중이야. 답을 바로 알려주지 말고, 힌트와 질문으로 나를 단계별로 이끌어줘. 내가 틀리면 정답을 던지지 말고, 왜 틀렸는지부터 짚어줘. 내가 스스로 답에 도달하게 해줘."

터키 실험에서 정확히 이 차이가 +127%와 -17%를 갈랐어요. 직접 만들기 번거로우면, Mollick 교수팀이 Creative Commons로 공개한 교육용 프롬프트 라이브러리에서 가져다 쓰면 돼요.

	"문제 풀어줘" (-17%)	"답 주지 마" (+127%)
AI의 역할	답을 바로 줌 (지름길)	힌트와 질문으로 유도
연습 중 성적	+48% (AI가 대신 풀어서)	+127% (학생이 직접 풀어서)
AI 없이 본 시험	-17% (의존성 역효과)	역효과 거의 없음
학생의 자기 인식	"많이 배웠다" (착각)	실제로 배움
비용 효율	측정 불가 (학습이 안 됨)	$48/학생에 2년치 효과

프롬프트만으론 부족해요: 나이지리아가 증명한 나머지 절반

그런데 프롬프트 한 줄이 전부였다면 얘기가 너무 쉬웠겠죠. 세계은행이 나이지리아 9개 공립 고등학교에서 돌린 실험은, 똑같이 GPT-4를 쓰고도 학생당 $48로 2년치 학습 효과를 냈어요. 모든 교육 개입을 통틀어 상위 20%에 드는 효과 크기(0.31 표준편차)예요. 무엇이 이걸 가능하게 했을까요. 프롬프트 외에 세 가지가 더 있었어요.

나이지리아 성공의 나머지 절반

① 교사가 끝까지 운전석에: 교사가 직접 지도하되 답은 알려주지 않았어요. AI가 교사를 대체한 게 아니라, 교사가 AI를 도구로 부린 거예요.
② 교육과정에 맞춘 설계: 프롬프트가 나이지리아 국가 교육과정에 정렬돼 있었어요. 아무 주제나 던진 게 아니에요.
③ 검증된 학습 과학을 프롬프트에: 인출 연습(retrieval practice), 정교화 질문(elaborative interrogation), 맥락적 예시 — 교육학이 검증한 교수법을 프롬프트에 녹였어요.
④ 혼자가 아니라 짝으로: 학생들이 2인 1조로 AI와 상호작용했어요.

스탠퍼드의 Tutor CoPilot 실험도 같은 곳을 가리켜요. AI가 학생을 직접 가르칠 때가 아니라, 인간 튜터를 보조할 때 효과가 났어요. 특히 경험 적은 튜터가 가르치는 학생들의 수학 통과율이 9%p 올랐고, 단가는 학생당 연 $20에 불과했어요. 하버드 물리 수업 실험에서도 잘 설계된 AI 튜터가 액티브 러닝 수업보다 학습 성과·참여도·동기 모두에서 앞섰고요.

패턴이 보이죠. AI를 답 기계로 쓰면 실력이 깎이고, 사고를 끌어내는 코치로 쓰되 사람이 운전대를 쥐고 있으면 효과가 폭발해요.

그래서, 오늘부터 이렇게 쓰세요

학생이든 학부모든 교육자든, 이 실험들이 검증한 실전 원칙은 다섯 가지로 압축돼요.

"답 주지 마"로 시작하기
위의 복붙 프롬프트를 첫 문장으로. "풀어줘"가 아니라 "이끌어줘". 이 한 줄이 +127%와 -17%를 가른 분기점이에요.
사람이 운전대를 놓지 않기
AI에게 학생을 통째로 맡기지 마세요. AI는 도구, 전 과정의 관리자는 교사·부모예요. 나이지리아 실험의 1번 성공 요인이에요.
공부 끝엔 반드시 AI 없이 혼자 풀기
AI 옆에 끼고 잘 푸는 건 당연해요. AI를 치웠을 때도 풀려야 진짜 학습이에요. 터키 실험이 준 가장 선명한 교훈이고, '배웠다는 착각'을 깨는 유일한 방법이에요.
학습 과학을 프롬프트에 심기
인출 연습, 정교화 질문, 맥락적 예시를 프롬프트에 요청하세요. 직접 짜기 어려우면 Wharton 프롬프트 라이브러리를 출발점으로.
한 번 말고 꾸준히
나이지리아 실험에선 출석 하루당 0.031 표준편차씩 효과가 누적됐어요. 효과는 일회성 마법이 아니라 반복의 함수예요.

과신하기 전에 — 데이터의 한계

나이지리아 실험의 대조군은 '아무 개입도 없는' 상태였어요. AI 튜터 vs 인간 튜터를 직접 맞붙인 건 아니라는 뜻이에요. 게다가 디지털 리터러시가 높은 학생일수록 효과가 컸어요 — AI 튜터가 오히려 디지털 격차를 더 벌릴 수 있다는 우려가 여기서 나와요.

🔗

원문으로 직접 확인하기

터키 고등학교 RCT 원문 (PNAS)

가드레일 없는 GPT가 학습을 해치는 메커니즘. 전문.

From Chalkboards to Chatbots (세계은행)

나이지리아 6주 실험 전문. $48로 2년치 효과.

하버드 AI 튜터 RCT (Nature)

AI 튜터 vs 액티브 러닝 수업 비교. 학습·참여도 모두 AI 우세.

Ethan Mollick — Against "Brain Damage"

AI가 사고력을 돕거나 해치는 조건. 교육 실험 종합.

Stanford Tutor CoPilot 연구

AI가 인간 튜터를 보조하는 모델. $20/년으로 9%p 향상.

The 74 — AI 튜터링 리포트

Stanford Tutor CoPilot 실험 해설 기사.

자주 묻는 질문

AI 튜터를 그냥 ChatGPT로 쓰면 안 되나요?

터키 고등학교 RCT 결과, 가드레일 없이 ChatGPT를 그대로 쓴 학생들은 AI 없이 시험 봤을 때 성적이 17% 떨어졌습니다. 답을 바로 알려주는 방식이 학생의 자체 학습을 방해하기 때문입니다. 반드시 답을 주지 말고 힌트로 유도해줘라는 프롬프트를 설정해야 합니다.

나이지리아 실험의 2년치 학습 효과는 정말인가요?

세계은행이 주도한 RCT에서 6주간 방과후 AI 튜터링을 받은 학생들이 0.31 표준편차 향상을 보였고, 출석률 기반 추정시 1년간 지속하면 2.23 표준편차까지 가능하다는 결과입니다. 다만 대조군이 아무 개입 없는 상태라 AI 효과만 분리하기는 어렵습니다.

AI 튜터가 인간 튜터를 대체할 수 있나요?

현재 연구 결과는 대체보다 보조가 효과적이라고 말합니다. Stanford의 Tutor CoPilot 실험에서 AI가 인간 튜터를 보조하는 방식이 학생당 연간 $20 비용으로 수학 통과율을 9%p 올렸습니다. 연구진은 동기 부여와 정서적 지지는 여전히 인간의 영역이라고 강조합니다.