你在上一家公司 Slack 上留下的那句"中午吃什么?",正在被当作 AI 训练数据卖掉。每单最高 10 万美元。

速览

倒闭初创公司的内部通讯数据(Slack、邮件、Jira 等)正被当作 AI 智能体训练的高端数据交易。SimpleClosure 等关闭专业公司充当中间商,过去一年完成了近 100 笔交易。问题在于:员工从未同意过这些交易。

这是怎么回事?

AI 公司找到了一个新的训练数据富矿:倒闭初创公司的 Slack 存档、邮件线程、Jira 工单和内部文档——行业称之为"运营残留物(operational exhaust)"。

为什么偏偏是倒闭公司的数据?原因很简单。早期的大语言模型靠 Wikipedia、Reddit、数字化书籍等公开数据训练,但据 OpenAI 前首席科学家 Ilya Sutskever 透露,到 2024 年底这些数据已经用完了。 现在 AI 行业要构建的是能真正工作的"智能体 AI(agentic AI)",训练这种模型需要包含决策、协作和问题解决过程的真实工作数据。

于是"强化学习训练场(RL gym)"应运而生。用倒闭公司的真实数据搭建虚拟办公环境,让 AI 智能体在其中练习工作。据报道,Anthropic 今年计划在 RL 训练场上投入高达 10 亿美元,该领域已有 50 多家初创公司。

例如,AfterQuery 向 AI 实验室出售"Big Tech World""Finance World"等现成模拟环境。训练任务也很真实——帮同事 Bob 策划生日派对,但另一个同事也在偷偷准备,而且 AI 智能体已经忘了 Bob 的生日是哪天。它需要通过 Slack 发消息、收集情报、判断是合作还是放弃。

这意味着什么?

主导这个市场的是初创公司关闭专业机构。SimpleClosure 本周推出了 Asset Hub 平台,竞争对手 Sunset 也提供类似服务。

公开网络数据倒闭初创公司内部数据
数据类型Wikipedia、Reddit、新闻文章Slack 对话、邮件、Jira 工单、代码提交
可用性2024 年底已耗尽初创公司持续倒闭,供给稳定
工作语境碎片化决策、工作流、协作互相关联的高语境数据
智能体 AI 训练适配度高——反映真实工作流程
每笔价格几乎免费(爬取)每家公司 $10K–$100K
隐私风险基于公开数据可识别员工身份,未获同意

Sunset CEO Brendan Mahony 表示,数据定价取决于公司规模、成立年限和"数据丰富度(data richness)"——内部数据的交叉关联程度。Jira 工单关联到特定代码提交的比独立文档更值钱,医疗和金融等特殊行业数据有溢价。

隐私是核心问题。 AI 与数字政策中心创始人 Marc Rotenberg 警告说:"员工已经高度依赖 Slack 等内部通讯工具……这不是匿名数据,而是可以识别的真人。" 该中心已致函美国参议院商业委员会,呼吁 FTC 加强监管。

虽然各公司声称会进行匿名化处理,但 2020 年 OpenAI 和 Google 的联合研究表明,大语言模型可以逐字记忆训练数据,并在特定提示下将其输出。 从涵盖整个职业生涯的工作数据中彻底清除个人身份信息,"并不像开关一样简单",行业专家如此警告。

实践指南

  1. 离职时确认你的数据权利
    重新阅读劳动合同和保密协议。知识产权转让和"将内部通讯出售给第三方"是两回事。如果没有明确的同意条款,你可能有提出异议的空间。
  2. 别在 Slack 和邮件里留敏感信息
    检视自己在工作通讯工具中分享身份证号、健康信息、薪资明细等个人敏感数据的习惯。数字痕迹比公司存活得更久。
  3. 企业:制定数据处置政策
    提前规划关闭时内部数据的处理方式。需要考虑 GDPR、CCPA 等法规来制定删除和销售政策。
  4. 创始人:评估可出售的数据资产
    如果正在准备关闭公司,可以考察 SimpleClosure 的 Asset Hub 或 Sunset 等平台。但务必亲自确认其匿名化处理是否真正可靠。
  5. 关注 RL 训练场市场动态
    RL 训练场是智能体 AI 时代的核心基础设施,正在快速增长。重点关注 Prime Intellect(估值超 10 亿美元)、Fleet(正以 7.5 亿美元估值融资)等主要玩家。

想深入了解

Forbes — AI's New Training Data: Your Old Work Slacks and Emails

包含 SimpleClosure CEO 和 cielo24 前 CEO 的一手采访,交易规模和匿名化流程的详细说明。这个话题的权威报道。

Gizmodo — Failed Companies Are Selling Old Slack Chats

精炼概括 Forbes 报道要点,同时结合 Gallup 调查结果(员工对 AI 的伦理抵触)进行分析。

TechSpot — Data from Failed Startups Finds Second Life

对 RL 训练场技术结构以及智能体 AI 为何需要这类数据的最佳结构性解读。

Fast Company — Shuttered Startups Are Selling Old Slack Chats

引用 Gallup 和 Checkr 调查,从员工视角深入探讨隐私问题。

OpenAI/Google 联合研究 — Extracting Training Data from LLMs (2020)

实证 LLM 可以逐字记忆并输出训练数据的开创性论文。匿名化为何不够的技术依据。