AI와 함께 작업한 그룹 vs AI 없이 작업한 그룹의 성과 비교 차트 — Ethan Mollick Cybernetic Teammate 연구

substackcdn.com

당신 채용 공고의 '학위 필수' 한 줄이 방금 비싸졌다 — AI가 학력 격차를 75% 지운 RCT

AI 스킬 격차 해소, AI 교육 격차 연구, AI 팀 생산성 RCTAI 역량 평준화

Does Generative AI Narrow Education-Based Productivity Gaps? Evidence from a Randomized Experiment — NBER

The Cybernetic Teammate: A Field Experiment on Generative AI Reshaping Teamwork and Expertise — NBER

AI Helps Elite Consultants: Higher Productivity & Work Quality, Narrower Skills Gap — UX Tigers (Jakob Nielsen)

당신 회사 채용 공고에 "4년제 학위 이상"이 적혀 있다면, 그 한 줄이 방금 비싸졌어요.

대졸과 고졸이 같은 비즈니스 과제를 풀면 보통 대졸이 이기죠. 우리가 학력으로 사람을 거르는 이유도 그거고요. 그런데 1,174명을 무작위로 나눠 실험했더니, 한쪽에 생성형 AI를 쥐여준 것만으로 그 학력 격차의 75%가 사라졌어요. 채용·교육·팀 설계의 전제를 깔고 있던 "학력 = 성과" 공식이 흔들린 거예요. NBER에 실린 무작위 대조 실험(RCT) 결과입니다.

3초 요약

AI 없이: 학력 격차 0.55 표준편차 → AI 사용: 0.14로 축소 → 격차 75% 증발 → 못 가진 사람일수록 더 많이 올라감

0.55에서 0.14로, 무슨 일이 일어났나

아르헨티나·영국 연구팀(Cruces, Galiani 등)이 25~45세 성인 1,174명을 모았어요. 고졸부터 대학원졸까지 교육 수준이 제각각인 사람들에게 실제 직장에서 마주칠 법한 비즈니스 문제 해결 과제를 줬고요. 절반에겐 생성형 AI 어시스턴트를, 나머지 절반엔 아무것도 주지 않았어요.

AI 없이 풀었을 때 고학력자는 저학력자보다 0.548 표준편차 높은 점수를 냈어요. 그런데 AI를 쥐여주자 그 격차가 0.139 표준편차로 쪼그라들었습니다. 모두가 조금씩 오른 게 아니에요. 핵심은 방향이에요.

AI는 모든 사람의 성과를 올리지만, 덜 가진 사람에게 훨씬 더 많이 준다.

여기서 많은 사람이 오해하는 지점이 하나 있어요. "그럼 AI가 사람을 똑똑하게 만들어준 거네?" 아니에요. 연구팀이 AI를 쓰게 한 뒤 다시 AI를 빼앗고 같은 종류의 과제를 시켰더니, 학력 격차가 원래대로 돌아왔어요. 즉 AI는 역량 자체를 바꾸지 않아요. 역량 차이가 결과에 미치는 영향을 중간에서 흡수해주는 거죠. 교사가 아니라 이퀄라이저(equalizer)예요. 이 구분이 뒤에 나올 채용·평가 판단을 전부 가릅니다.

이게 한 번 운 좋게 나온 결과일까봐 걱정된다면

연구 하나면 우연일 수 있죠. 그런데 전혀 다른 집단, 전혀 다른 환경에서 한 실험들이 계속 같은 방향을 가리키고 있어요.

연구	대상	덜 가진 쪽이 받은 효과
Cruces et al. (2026)¹	성인 1,174명 (학력 다양)	학력 격차 75% 감소
Dell'Acqua et al. (2025)²	P&G 전문가 776명	전문 분야 경계 소멸, 비전문가→전문가급
Dell'Acqua et al. (2023)³	BCG 컨설턴트 758명	하위 50% 성과 43%↑ vs 상위 50% 17%↑
Brynjolfsson et al. (2023)⁴	고객지원 상담사 5,179명	하위 성과자 35%↑, 상위는 거의 변화 없음

특히 충격적인 건 두 갈래예요. 하나, P&G의 Cybernetic Teammate 실험. R&D·마케팅 전문가 776명이 실제 제품 혁신 과제를 풀었는데, AI를 쓴 개인 1명이 AI 없는 2인 팀과 동일한 성과를 냈어요. 게다가 전문성의 벽이 무너졌어요 — R&D 사람이 마케팅 관점 솔루션을, 마케팅 사람이 기술 솔루션을 내놓기 시작했거든요.

둘, BCG 실험. 이미 "엘리트 중의 엘리트"인 전략 컨설턴트 집단에서조차 하위 50%는 43% 오른 반면 상위 50%는 17%만 올랐어요. 바닥이 천장을 향해 빠르게 따라붙는, 상향 평준화가 일어난 거예요. 같은 결론이 5,179명 콜센터 상담사에서도 반복됐고요(하위 성과자 35%↑, 상위는 미미).

네 개의 독립된 실험, 한 방향. 이쯤 되면 "우리 회사만 예외"라고 가정하는 쪽이 더 위험한 베팅이에요.

그래서 월요일에 뭘 바꿔야 하나

이 결과가 사실이라면, 지금 굴러가는 네 가지 관행이 조용히 비효율로 바뀝니다. 순서대로 점검해보세요.

채용 필터에서 "학위 요건"부터 의심하세요

AI가 학력 격차를 75% 메운다면, AI를 적극 쓰는 포지션에서 4년제 학위를 필수 자격으로 거는 건 인재 풀을 스스로 좁히는 행위예요. 학위 칸 대신 실제 과제를 AI와 함께 풀게 하는 워크 샘플을 넣으세요. 평가 축은 "무엇을 아는가"가 아니라 "AI를 써서 모르는 영역을 얼마나 빨리 정복하는가"로 옮기고요.

교육 예산을 "지식 채우기"에서 "AI 활용법"으로 옮기세요

특정 분야 지식을 머리에 넣는 교육은 ROI가 빠르게 떨어지고 있어요. 대신 "AI로 어떤 분야든 빠르게 파악하는 법"을 가르치는 게 더 남아요. 막연한 얘기가 아니에요 — BCG 실험에서 프롬프트 훈련을 받은 그룹이 안 받은 그룹보다 결과물 품질이 높았거든요. 직무 교육 1회 분량을 프롬프트·검증 워크숍으로 대체하는 것부터 시작하세요.

"전문가 2명"으로 묶던 일을 "1명 + AI"로 시험하세요

P&G에서 AI를 쓴 1명이 AI 없는 2인 팀과 같은 성과를 냈어요. 다음 프로젝트 하나를 골라, 인원을 늘리는 대신 소수 인원 + AI 조합으로 파일럿을 돌려보세요. 단, 안전장치 하나. 상위 10% 수준의 탁월한 결과물은 여전히 사람+AI 팀에서 나왔어요. 평타가 필요한 일은 1명+AI, 홈런이 필요한 일은 팀+AI로 갈라 쓰세요.

성과 평가에 "AI 빼면 남는 판단력"을 따로 넣으세요

앞에서 본 함정 기억하시죠 — AI를 빼면 격차가 되살아나요. 그러니 "AI와 함께한 결과물"만 보면 사람의 진짜 역량을 못 봐요. AI와 함께한 성과와 AI 없이 내리는 판단력을 분리해 이중으로 평가하세요. 특히 관리자급은 AI 결과물의 오류를 잡아내는 능력이 핵심 평가 항목이어야 합니다.

더 깊이 파고 싶다면

Does Generative AI Narrow Education-Based Productivity Gaps? — NBER

Cruces et al.의 원문. 1,174명 RCT 설계, 학력별 성과 비교, 75% 감소의 통계적 근거를 상세히 볼 수 있어요.

The Cybernetic Teammate — Ethan Mollick

P&G 776명 현장 실험을 Mollick 교수가 직접 정리한 글. AI가 팀워크·전문성·감정까지 바꾸는 과정이 잘 담겨 있어요.

What is the impact of AI on productivity? — Alex Imas

시카고대 경제학 교수가 AI 생산성 연구들의 마이크로-매크로 증거를 종합한 리빙 문서. 개별 연구를 큰 그림에서 보고 싶을 때 좋아요.

자주 묻는 질문

AI가 교육 격차를 줄이면 학위가 필요 없어지나요?

아직은 아닙니다. 이 연구에서 AI를 빼면 교육 격차가 그대로 돌아왔어요. AI는 역량을 근본적으로 바꾸는 게 아니라, 역량 차이의 영향을 완충해주는 역할을 합니다. 다만 AI 활용이 보편화되면 학위보다 AI 활용 능력이 더 중요한 채용 기준이 될 가능성이 높습니다.

이 연구 결과를 우리 회사에 바로 적용해도 될까요?

주의가 필요합니다. 이 연구는 일반적 비즈니스 문제 해결 과제를 온라인으로 수행한 결과예요. 고도로 전문적인 업무(의료, 법률 등)에서는 다른 패턴이 나타날 수 있어요. 다만 BCG와 P&G 현장 실험도 같은 방향을 보여주므로, 지식 업무에서는 참고할 가치가 충분합니다.

AI가 하위 성과자만 도와주면 상위 성과자는 불만이 생기지 않나요?

상위 성과자도 AI로 성과가 올라갑니다. 다만 폭이 상대적으로 작을 뿐이에요. P&G 실험에서는 AI 사용 시 긍정 감정이 높아지고 부정 감정이 낮아지는 효과가 전체 참가자에서 나타났어요. 또한 상위 10% 수준의 탁월한 결과물은 여전히 사람+AI 팀 조합에서 가장 많이 나왔습니다.

어떤 종류의 업무에서 AI의 격차 해소 효과가 가장 큰가요?

기존 연구를 종합하면 글쓰기, 문제 분석, 전략 수립 같은 인지적 업무에서 효과가 가장 큽니다. 반면 복잡한 정성 데이터와 정량 데이터를 동시에 분석해야 하는 과제에서는 AI가 오히려 오답을 유도할 수 있어요. BCG 실험에서 의도적으로 설계한 함정 과제에서 AI 사용자의 정답률이 더 낮았습니다.