前の職場でSlackに残した「お昼何食べる?」というメッセージが、AIの学習データとして売られています。1件あたり最大10万ドルで。
ポイントまとめ
廃業したスタートアップの社内コミュニケーションデータ(Slack、メール、Jiraなど)が、AIエージェント訓練用のプレミアムデータとして取引されています。SimpleClosure のような廃業専門会社が仲介し、過去1年間で約100件の取引が成立。従業員の同意なしに売られる構造が問題視されています。
何が起きているのか?
AI企業が学習データの新たな鉱脈を見つけました。廃業したスタートアップのSlackアーカイブ、メールスレッド、Jiraチケット、社内文書——いわゆる「オペレーショナル・エグゾースト(運用残留物)」です。
なぜ廃業した会社のデータなのか?理由はシンプルです。初期のLLMはWikipedia、Reddit、デジタル書籍などの公開データで学習しましたが、OpenAIの元チーフサイエンティスト、イリヤ・スツケバーによると、2024年末にはすべて枯渇しました。 今AI業界が目指しているのは、実際に仕事をこなす「エージェンティックAI」。このモデルの訓練には、意思決定、協業、問題解決といった実際の業務プロセスが含まれたデータが必要です。
そこで登場するのが「強化学習ジム(RL gym)」。廃業企業の実データで仮想オフィス環境を構築し、AIエージェントが業務を練習するシミュレーションです。Anthropicは今年、RLジムに最大10億ドルを投じる計画と報じられ、この分野のスタートアップはすでに50社以上あります。
例えばAfterQueryは「Big Tech World」「Finance World」といった既成シミュレーション環境をAIラボに販売しています。訓練課題もリアルで——同僚ボブの誕生日パーティーを企画するのですが、別の同僚も密かに準備中で、エージェントはボブの誕生日がいつかも忘れている状況。Slackでメッセージを送り、情報を集め、協力するか諦めるかを判断しなければなりません。
何が変わるのか?
この市場をリードしているのはスタートアップ廃業専門会社です。SimpleClosure は今週Asset Hubをローンチし、競合の Sunset も同様のサービスを提供しています。
| 公開ウェブデータ | 廃業スタートアップの社内データ | |
|---|---|---|
| データ種類 | Wikipedia、Reddit、ニュース記事 | Slack会話、メール、Jiraチケット、コードコミット |
| 利用可能性 | 2024年末に枯渇 | スタートアップの廃業率は高く安定供給 |
| 業務コンテキスト | 断片的 | 意思決定・ワークフロー・協業が連結した高コンテキストデータ |
| エージェンティックAI適合度 | 低い | 高い——実際の業務プロセスを反映 |
| 取引単価 | ほぼ無料(クロール) | 1件$10K〜$100K |
| プライバシーリスク | 公開データベース | 従業員が特定可能、同意未取得 |
SunsetのCEOブレンダン・マホニーによると、データ価格は企業規模、社歴、そして「データリッチネス」——社内データの相互連結度——によって決まります。Jiraチケットがコードコミットと紐づいている場合は単独文書より高値がつき、ヘルスケアや金融といった特殊業界のデータにはプレミアムが付きます。
プライバシーが核心的な問題です。 AIおよびデジタル政策センター創設者のマーク・ローテンバーグは「従業員はSlackのような社内メッセージングツールに依存するようになり、これは匿名データではなく、特定可能な個人のデータだ」と警告しています。 同センターは米上院商業委員会にFTCの監視強化を求める書簡を送りました。
匿名化処理をするとはいえ、2020年のOpenAI・Google共同研究によると、LLMは学習データの特定の文章を丸ごと記憶(memorize)し、適切なプロンプトで抽出できることが実証されています。 キャリア全体が含まれた業務データからPIIを完全に除去するのは「オンオフスイッチのように簡単ではない」と専門家は指摘しています。
実践ガイド
- 退職時にデータ権利を確認する
雇用契約書とNDAを再確認しましょう。知的財産権の譲渡と「社内コミュニケーションの第三者への販売許可」は別の問題です。明示的な同意条項がなければ、異議申し立ての余地があるかもしれません。 - Slack・メールに機密情報を残さない
マイナンバー、健康情報、給与詳細などの個人機密情報を業務メッセンジャーに残す習慣を見直しましょう。デジタル痕跡は会社が消えても残ります。 - 企業:データ処分ポリシーを策定する
廃業時に社内データをどう処理するか事前に決めておきましょう。GDPRやCCPAなどの規制を考慮した削除・販売ポリシーが必要です。 - 創業者:売却可能なデータ資産を把握する
廃業を準備中なら、SimpleClosure の Asset Hub や Sunset などのプラットフォームを検討してみましょう。ただし、匿名化が本当に堅牢かどうか自分で確認する必要があります。 - RLジム市場の動向を注視する
エージェンティックAI時代の重要インフラであるRLジムは急成長中です。Prime Intellect(評価額10億ドル超)、Fleet(7.5億ドルの評価額で交渉中)などの主要プレイヤーに注目しましょう。
さらに深く知りたいなら
Forbes — AI's New Training Data: Your Old Work Slacks and Emails
SimpleClosure CEOとcielo24元CEOへの直接インタビュー、取引規模と匿名化プロセスの詳細説明。このテーマの決定版記事です。
Gizmodo — Failed Companies Are Selling Old Slack Chats
Forbes記事の要点をまとめつつ、Gallup調査結果(従業員のAIへの倫理的抵抗感)と結びつけた分析。
TechSpot — Data from Failed Startups Finds Second Life
RLジムの技術的構造と、エージェンティックAIがなぜこの種のデータを必要とするかを構造的に解説。
Fast Company — Shuttered Startups Are Selling Old Slack Chats
GallupとCheckrの調査を引用し、従業員視点のプライバシー懸念を深く掘り下げた記事。
OpenAI・Google共同研究 — Extracting Training Data from LLMs (2020)
LLMが学習データをそのまま記憶・出力できることを実証した論文。匿名化だけでは不十分な技術的根拠です。




