前の職場でSlackに残した「お昼何食べる?」というメッセージが、AIの学習データとして売られています。1件あたり最大10万ドルで。

ポイントまとめ

廃業したスタートアップの社内コミュニケーションデータ(Slack、メール、Jiraなど)が、AIエージェント訓練用のプレミアムデータとして取引されています。SimpleClosure のような廃業専門会社が仲介し、過去1年間で約100件の取引が成立。従業員の同意なしに売られる構造が問題視されています。

何が起きているのか?

AI企業が学習データの新たな鉱脈を見つけました。廃業したスタートアップのSlackアーカイブ、メールスレッド、Jiraチケット、社内文書——いわゆる「オペレーショナル・エグゾースト(運用残留物)」です。

なぜ廃業した会社のデータなのか?理由はシンプルです。初期のLLMはWikipedia、Reddit、デジタル書籍などの公開データで学習しましたが、OpenAIの元チーフサイエンティスト、イリヤ・スツケバーによると、2024年末にはすべて枯渇しました。 今AI業界が目指しているのは、実際に仕事をこなす「エージェンティックAI」。このモデルの訓練には、意思決定、協業、問題解決といった実際の業務プロセスが含まれたデータが必要です。

そこで登場するのが「強化学習ジム(RL gym)」。廃業企業の実データで仮想オフィス環境を構築し、AIエージェントが業務を練習するシミュレーションです。Anthropicは今年、RLジムに最大10億ドルを投じる計画と報じられ、この分野のスタートアップはすでに50社以上あります。

例えばAfterQueryは「Big Tech World」「Finance World」といった既成シミュレーション環境をAIラボに販売しています。訓練課題もリアルで——同僚ボブの誕生日パーティーを企画するのですが、別の同僚も密かに準備中で、エージェントはボブの誕生日がいつかも忘れている状況。Slackでメッセージを送り、情報を集め、協力するか諦めるかを判断しなければなりません。

何が変わるのか?

この市場をリードしているのはスタートアップ廃業専門会社です。SimpleClosure は今週Asset Hubをローンチし、競合の Sunset も同様のサービスを提供しています。

公開ウェブデータ廃業スタートアップの社内データ
データ種類Wikipedia、Reddit、ニュース記事Slack会話、メール、Jiraチケット、コードコミット
利用可能性2024年末に枯渇スタートアップの廃業率は高く安定供給
業務コンテキスト断片的意思決定・ワークフロー・協業が連結した高コンテキストデータ
エージェンティックAI適合度低い高い——実際の業務プロセスを反映
取引単価ほぼ無料(クロール)1件$10K〜$100K
プライバシーリスク公開データベース従業員が特定可能、同意未取得

SunsetのCEOブレンダン・マホニーによると、データ価格は企業規模、社歴、そして「データリッチネス」——社内データの相互連結度——によって決まります。Jiraチケットがコードコミットと紐づいている場合は単独文書より高値がつき、ヘルスケアや金融といった特殊業界のデータにはプレミアムが付きます。

プライバシーが核心的な問題です。 AIおよびデジタル政策センター創設者のマーク・ローテンバーグは「従業員はSlackのような社内メッセージングツールに依存するようになり、これは匿名データではなく、特定可能な個人のデータだ」と警告しています。 同センターは米上院商業委員会にFTCの監視強化を求める書簡を送りました。

匿名化処理をするとはいえ、2020年のOpenAI・Google共同研究によると、LLMは学習データの特定の文章を丸ごと記憶(memorize)し、適切なプロンプトで抽出できることが実証されています。 キャリア全体が含まれた業務データからPIIを完全に除去するのは「オンオフスイッチのように簡単ではない」と専門家は指摘しています。

実践ガイド

  1. 退職時にデータ権利を確認する
    雇用契約書とNDAを再確認しましょう。知的財産権の譲渡と「社内コミュニケーションの第三者への販売許可」は別の問題です。明示的な同意条項がなければ、異議申し立ての余地があるかもしれません。
  2. Slack・メールに機密情報を残さない
    マイナンバー、健康情報、給与詳細などの個人機密情報を業務メッセンジャーに残す習慣を見直しましょう。デジタル痕跡は会社が消えても残ります。
  3. 企業:データ処分ポリシーを策定する
    廃業時に社内データをどう処理するか事前に決めておきましょう。GDPRやCCPAなどの規制を考慮した削除・販売ポリシーが必要です。
  4. 創業者:売却可能なデータ資産を把握する
    廃業を準備中なら、SimpleClosure の Asset Hub や Sunset などのプラットフォームを検討してみましょう。ただし、匿名化が本当に堅牢かどうか自分で確認する必要があります。
  5. RLジム市場の動向を注視する
    エージェンティックAI時代の重要インフラであるRLジムは急成長中です。Prime Intellect(評価額10億ドル超)、Fleet(7.5億ドルの評価額で交渉中)などの主要プレイヤーに注目しましょう。

さらに深く知りたいなら

Forbes — AI's New Training Data: Your Old Work Slacks and Emails

SimpleClosure CEOとcielo24元CEOへの直接インタビュー、取引規模と匿名化プロセスの詳細説明。このテーマの決定版記事です。

Gizmodo — Failed Companies Are Selling Old Slack Chats

Forbes記事の要点をまとめつつ、Gallup調査結果(従業員のAIへの倫理的抵抗感)と結びつけた分析。

TechSpot — Data from Failed Startups Finds Second Life

RLジムの技術的構造と、エージェンティックAIがなぜこの種のデータを必要とするかを構造的に解説。

Fast Company — Shuttered Startups Are Selling Old Slack Chats

GallupとCheckrの調査を引用し、従業員視点のプライバシー懸念を深く掘り下げた記事。

OpenAI・Google共同研究 — Extracting Training Data from LLMs (2020)

LLMが学習データをそのまま記憶・出力できることを実証した論文。匿名化だけでは不十分な技術的根拠です。