AI와 아이디어 다양성 연구 일러스트레이션 — Knowledge at Wharton

knowledge.wharton.upenn.edu

AI가 팀을 똑같이 생각하게 만든다 — Wharton 연구가 밝힌 브레인스토밍의 역설

AI 브레인스토밍 역설AI 팀 생산성

ChatGPT decreases idea diversity in brainstorming — Nature Human Behaviour

Does AI Limit Our Creativity? — Knowledge at Wharton

New in Nature: ChatGPT Decreases Idea Diversity in Brainstorming — Mack Institute

당신 팀도 AI를 쓰고 있을 거예요. 기획안 초안은 ChatGPT에게, 카피는 Claude에게, 리서치는 Perplexity에게. 개인 생산성은 확실히 올라갔죠. 그런데 마지막 팀 미팅에서 "아이디어가 다 비슷한데?"라는 말이 나왔다면 — 그건 우연이 아니에요.

3초 요약

AI = 개인 아이디어 퀄리티 UP → 하지만 팀 전체 아이디어 다양성 DOWN → 같은 모델, 비슷한 프롬프트 = 같은 답 → 사람 먼저 + 프롬프트 변주 + 멀티 모델 → 의도적으로 "다르게 생각하는 구조" 필요

이게 뭔데?

Wharton의 Christian Terwiesch 교수와 Gideon Nave 교수, 그리고 Mack Institute 연구원 Lennart Meincke가 Nature Human Behaviour에 발표한 연구예요. 제목부터 직설적이에요: "ChatGPT decreases idea diversity in brainstorming(ChatGPT는 브레인스토밍의 아이디어 다양성을 감소시킨다)."

이 연구는 기존에 "AI가 창의성을 높인다"고 결론 낸 실험 데이터를 다시 분석했어요. 원래 실험(Byung Cheol Lee, Jaeyeon Chung 연구)에서는 참가자들에게 ChatGPT의 도움을 받아 창의적 과제를 수행하게 했는데, AI를 쓴 그룹이 개인 수준에서 더 독창적이고 유용한 아이디어를 냈다는 결과가 나왔어요.

Terwiesch 팀은 여기서 간과된 차원을 봤어요 — 개인이 아니라 그룹 전체의 아이디어 다양성. 아이디어 하나하나는 좋은데, 팀원들이 전부 같은 아이디어를 내고 있다면? 그게 정말 좋은 브레인스토밍일까요?

기존 "AI Brain Fry" 연구와 뭐가 다른 건데?

하버드 연구의 AI Brain Fry는 개인의 인지 피로(cognitive fatigue) 이야기예요 — AI를 쓰면 머리가 더 아프다는 거죠. 이번 Wharton 연구는 차원이 달라요. 개인은 괜찮은데, 팀 전체의 사고 다양성이 무너진다는 거예요. 개인 vs. 팀, 피로 vs. 동질화 — 완전히 다른 문제예요.

뭐가 달라지는 건데?

실험 결과가 꽤 충격적이에요. 참가자들에게 "벽돌과 선풍기를 사용해 장난감을 만들어라"는 과제를 줬어요.

94%

AI 그룹의 아이디어 겹침 비율

AI 그룹에서 고유한 아이디어 비율

100%

사람만 쓴 그룹의 아이디어 고유 비율

AI를 쓴 그룹에서는 9명의 참가자가 독립적으로 작업했는데, 같은 이름의 장난감을 만들었어요 — "Build-a-Breeze Castle." 서로 대화한 적도 없는데요. 반면 AI 없이 한 그룹은? 완전히 고유한 아이디어를 냈어요.

5개 실험, 45개 통계 비교에서 37개(82%)에서 AI 사용 그룹의 아이디어 다양성이 유의미하게 낮았어요. 연구팀은 Google이 개발한 의미 유사도 측정 도구를 사용해서, 표면적으로는 달라 보이지만 실제로는 비슷한 아이디어까지 잡아냈어요.

	AI 사용 그룹	AI 미사용 그룹
개별 아이디어 퀄리티	높음 (AI가 정제)	보통
아이디어 고유성	6%만 고유	100% 고유
컨셉 겹침	94% 겹침	겹침 없음
표현 방식	유사한 언어 패턴	다양한 표현
브레인스토밍 가치	반복되는 좋은 아이디어	다양한 관점의 모자이크

왜 이런 일이 벌어지는 걸까요? 연구원 Meincke의 설명이 명쾌해요:

"같은 모델에 같은 프롬프트를 넣으면, 같은 확률 분포에서 결과가 나와요. 반복할수록 고유한 아이디어가 줄어드는 건 당연해요."
— Lennart Meincke, Wharton Mack Institute

그리고 또 하나의 원인 — 참가자들이 AI에게 비슷한 프롬프트를 넣었다는 거예요. 수렴이 모델 탓만은 아니라, 사람이 AI와 대화하는 방식 자체가 획일적이라는 뜻이에요.

핵심만 정리: 팀에서 AI를 제대로 쓰는 법

연구진은 AI를 버리라는 게 아니에요. "다양성은 의도적으로 보호하지 않으면 얻을 수 없다"는 게 핵심 메시지예요. 구체적인 방법 세 가지:

사람 먼저, AI는 나중에
팀원들이 각자 아이디어를 먼저 낸 다음에 AI를 투입하세요. 인간의 관점이 이미 갈라진 상태에서 AI를 쓰면, 출발점이 다르니까 수렴이 줄어들어요. AI를 처음부터 쓰면 모두가 같은 시작점에서 출발하게 돼요.
프롬프트를 의도적으로 다르게 쓰세요
같은 과제더라도 팀원마다 다른 각도에서 질문하게 하세요. "비용 절감 관점에서 접근해줘", "사용자 경험 관점에서 접근해줘", "경쟁사가 절대 안 할 법한 것을 제안해줘" — 프롬프트가 달라지면 결과도 달라져요. Terwiesch 교수는 "프롬프트를 변주하는 비용은 제로에 가까운데, 다양성의 가치는 엄청나다"고 말해요.
모델을 섞어 쓰세요
ChatGPT 하나에만 의존하지 마세요. Claude, Gemini, Llama, Grok — 각 모델은 다른 학습 데이터와 다른 확률 분포를 가지고 있어요. Meincke의 조언: "5개 모델을 다 써보지 않는 건 바보 같은 짓이에요. 전부 섞어서 미쳐보세요."

Chain-of-Thought 프롬프팅도 효과 있어요

연구팀이 추천하는 또 하나의 기법이에요. AI에게 "아이디어를 하나 내줘" 대신, 단계별로 사고를 쪼개서 물어보세요. "이 문제의 핵심 제약은 뭐야?" → "그 제약을 우회하는 방법 3가지는?" → "각 방법을 극단적으로 밀어붙이면?" 이렇게 단계를 쪼개면 반복이 줄고 변주가 늘어요.

이 연구가 말하는 가장 큰 교훈은 결국 이거예요:

"성공적인 브레인스토밍의 진짜 가치는 아이디어의 다양성에서 나옵니다. 여러 사람이 비슷한 생각을 반복하는 것에서 나오지 않아요."
— Meincke, Nave, Terwiesch (Nature Human Behaviour, 2025)

AI가 개인을 슈퍼맨으로 만들어주는 건 사실이에요. 하지만 슈퍼맨 10명이 모여서 전부 같은 방향으로 날아가면, 그건 팀이 아니라 복제예요. 다르게 생각하는 구조를 의도적으로 설계하는 것 — 그게 AI 시대 팀 리더의 새로운 역할이에요.

🔗

더 깊이 파고 싶다면

Nature — 논문 원문

ChatGPT가 브레인스토밍 아이디어 다양성을 감소시킨다는 실험 결과 전문

Knowledge at Wharton — 연구 해설

Terwiesch 교수 인터뷰 포함, AI 창의성 트레이드오프 분석

Mack Institute — 연구 소개

94% 아이디어 겹침, Build-a-Breeze Castle 사례 포함

HR Dive — 조직 관점 분석

AI가 팀 사고 다양성을 해치는 메커니즘과 HR 시사점

Penn Today — 대학 공식 보도

연구 배경과 실무 적용 방법 요약

arXiv — AI 아이디어 영향 연구

AI 노출이 인간 아이디어의 창의성, 다양성, 진화에 미치는 영향

자주 묻는 질문

AI를 쓰면 브레인스토밍이 안 좋아지나요?

개인 수준에서는 더 좋아져요. AI가 제안하는 아이디어 하나하나는 퀄리티가 높아요. 문제는 팀 전체로 보면 모두가 비슷한 아이디어를 내게 된다는 거예요. Wharton 연구에서 AI를 쓴 그룹은 아이디어의 94%가 겹쳤고, 9명이 같은 이름의 장난감을 만들었어요. AI 없는 그룹은 100% 고유한 아이디어를 냈고요.

그럼 AI를 아예 안 쓰는 게 나은가요?

아니에요. AI를 '어떻게' 쓰느냐가 핵심이에요. 연구자들은 세 가지를 권해요. 첫째, 사람이 먼저 아이디어를 낸 다음 AI를 투입하세요. 둘째, 같은 프롬프트를 반복하지 말고 의도적으로 다른 각도에서 질문하세요. 셋째, ChatGPT 하나에 의존하지 말고 여러 AI 모델을 섞어 쓰세요.

이 연구가 개발 팀이나 마케팅 팀에도 적용되나요?

네, 직접 적용돼요. 제품 네이밍, 캠페인 아이디어, 기능 기획 같은 업무에서 팀원들이 각자 AI에게 물어보면, 결국 비슷한 결론에 수렴하게 돼요. 연구진이 말하듯 '성공적인 브레인스토밍의 가치는 아이디어의 다양성에서 나오지, 비슷한 생각을 여러 명이 반복하는 데서 나오지 않아요.'