당신이 예전 직장에서 슬랙에 남긴 "점심 뭐 먹지?" 메시지가 AI 학습 데이터로 팔리고 있습니다. 건당 최대 10만 달러에요.

한눈에 보기

폐업한 스타트업의 내부 커뮤니케이션 데이터(슬랙, 이메일, Jira 등)가 AI 에이전트 훈련용 프리미엄 데이터로 거래되고 있습니다. SimpleClosure 같은 폐업 전문 회사가 중개하며, 지난 1년간 100건 가까운 거래가 성사됐습니다. 직원 동의 없이 팔리는 구조라 개인정보 보호 논란이 뜨겁습니다.

이게 뭔데?

AI 모델을 만드는 회사들이 학습 데이터의 새로운 광맥을 찾았습니다. 문 닫은 스타트업의 슬랙 아카이브, 이메일 스레드, Jira 티켓, 내부 문서 — 이른바 '운영 잔여물(operational exhaust)'입니다.

왜 하필 폐업한 회사의 데이터일까요? 이유는 간단합니다. 초기 LLM은 위키피디아, 레딧, 디지털 책 같은 공개 인터넷 데이터로 학습했지만, OpenAI의 전 수석 과학자 일리야 수츠케버에 따르면 2024년 말 이미 공개 데이터는 바닥났습니다. 지금 AI 업계가 만들려는 건 실제 업무를 수행하는 '에이전틱 AI'인데, 이 모델을 훈련하려면 사람들이 실제로 일하는 과정 — 의사결정, 협업, 문제 해결 — 이 담긴 데이터가 필요합니다.

여기서 등장하는 게 '강화학습 짐(RL gym)'입니다. 폐업 회사의 실제 업무 데이터로 가상 사무실 환경을 만들고, AI 에이전트가 그 안에서 업무를 연습하는 시뮬레이션이죠. Anthropic은 올해 RL 짐에 최대 10억 달러를 쓸 계획이라는 보도가 나왔고, 이 분야의 스타트업이 이미 50개가 넘습니다.

예를 들어 AfterQuery라는 회사는 'Big Tech World', 'Finance World' 같은 기성 시뮬레이션 환경을 AI 랩에 판매합니다. 훈련 과제도 현실적이에요 — 동료 밥의 생일파티를 기획하는데, 다른 동료도 따로 준비 중이고, 에이전트는 밥 생일이 언제인지도 모르는 상황. 슬랙 메시지를 보내고, 탐정처럼 정보를 모으고, 협업할지 포기할지 판단해야 합니다.

뭐가 달라지는 건데?

이 시장을 주도하는 건 스타트업 폐업 전문 회사들입니다. SimpleClosure는 이번 주 Asset Hub라는 플랫폼을 출시했고, 경쟁사 Sunset도 비슷한 서비스를 제공합니다.

공개 웹 데이터폐업 스타트업 내부 데이터
데이터 유형위키, 레딧, 뉴스 기사슬랙 대화, 이메일, Jira 티켓, 코드 커밋
가용성2024년 말 고갈스타트업 폐업률 지속 → 꾸준한 공급
업무 맥락단편적의사결정·협업·워크플로가 연결된 고맥락 데이터
에이전틱 AI 훈련 적합도낮음높음 — 실제 업무 과정을 반영
거래 단가거의 무료(크롤링)건당 $10K~$100K
개인정보 리스크공개 데이터 기반직원 식별 가능, 동의 미취득

Sunset의 CEO 브렌든 마호니에 따르면 데이터 가격은 회사 규모, 업력, 그리고 '데이터 풍부도(data richness)'에 따라 달라집니다. Jira 티켓이 특정 코드 커밋과 연결된 경우가 단독 문서보다 비싸고, 헬스케어나 금융 같은 특수 산업 데이터에는 프리미엄이 붙습니다.

개인정보 문제가 핵심입니다. AI 및 디지털 정책 센터 설립자 마크 로텐버그는 "직원들이 슬랙 같은 내부 메시징 도구에 너무 의존하게 됐고, 이건 익명 데이터가 아니라 식별 가능한 사람들의 데이터"라고 경고했습니다. 해당 센터는 미 상원 상업위원회에 FTC의 감독 강화를 촉구하는 서한을 보냈습니다.

익명화 처리를 한다고는 하지만, 2020년 OpenAI·Google 공동 연구에 따르면 LLM은 학습 데이터의 특정 문장을 통째로 기억(memorize)할 수 있고, 적절한 프롬프트로 추출할 수 있습니다. 커리어 전체가 담긴 업무 데이터에서 개인 식별 정보를 완벽하게 걷어내는 건 "온오프 스위치처럼 간단하지 않다"는 게 업계 전문가들의 지적입니다.

핵심만 정리: 시작하는 법

이 이슈에 대응하려면 기업과 직원 모두 지금 당장 점검해야 할 것들이 있습니다.

  1. 퇴사 시 데이터 권리 확인하기
    고용 계약서와 NDA를 다시 읽어보세요. 지적재산권 양도와 '내부 커뮤니케이션의 제3자 판매 허용'은 별개의 이슈입니다. 명시적 동의 조항이 없다면 이의 제기가 가능할 수 있습니다.
  2. 슬랙·이메일에 민감 정보 남기지 않기
    업무 메신저에 주민번호, 건강 정보, 급여 세부 같은 개인 민감 정보를 남기는 습관을 점검하세요. 회사가 존속하든 폐업하든, 디지털 흔적은 사라지지 않습니다.
  3. 기업: 데이터 처분 정책 수립하기
    폐업 시 내부 데이터를 어떻게 처리할지 미리 정해두세요. EU GDPR이나 캘리포니아 CCPA 등 규제를 고려한 데이터 삭제·판매 정책이 필요합니다.
  4. 스타트업 창업자: 매각 가능한 데이터 자산 파악하기
    폐업을 준비 중이라면 SimpleClosure의 Asset Hub나 Sunset 같은 플랫폼을 검토해보세요. 단, PII 제거가 'rock solid'한 수준인지 직접 확인해야 합니다.
  5. RL 짐 시장 동향 주시하기
    에이전틱 AI 시대의 핵심 인프라인 RL 짐은 빠르게 성장 중입니다. Prime Intellect(기업가치 10억 달러 이상), Fleet(7.5억 달러 밸류에이션 협상 중) 등 주요 플레이어를 주목하세요.

Forbes 원문 — AI's New Training Data: Your Old Work Slacks and Emails

SimpleClosure CEO와 cielo24 전 CEO의 직접 인터뷰, 거래 규모와 익명화 프로세스 상세 설명. 이 주제의 결정판 기사입니다.

Gizmodo — Failed Companies Are Selling Old Slack Chats

Forbes 기사의 핵심을 요약하면서 Gallup 설문 결과(직원들의 AI 윤리적 거부감)와 연결한 분석. 빠르게 맥락을 잡기 좋습니다.

TechSpot — Data from Failed Startups Finds Second Life

RL 짐의 기술적 구조와 에이전틱 AI가 왜 이런 데이터를 필요로 하는지 구조적으로 설명한 기사.

Fast Company — Shuttered Startups Are Selling Old Slack Chats

Gallup 설문과 Checkr 조사를 인용해 직원 관점의 프라이버시 우려를 깊이 다룬 기사.

OpenAI·Google 공동 연구 — Extracting Training Data from LLMs (2020)

LLM이 학습 데이터를 통째로 기억·출력할 수 있다는 걸 실증한 논문. 익명화가 왜 완벽할 수 없는지의 기술적 근거입니다.