感觉AI很慢?你可能会想买更多GPU。但实际上,GPU翻倍并不能让token生成速度翻倍。过去十年,AI芯片算力增长了80倍,内存带宽却只增长了17倍。 现在AI的瓶颈不是大脑,而是血管。

3秒摘要
多买GPU也没用 真正瓶颈=内存带宽 内存内计算出现 Fractile $220M + XCENA $135M 2027年:AI成本结构重塑

大家都这么认为 — GPU越多AI越快

NVIDIA H100一张约3万美元,B200则是两倍价格。AI公司砸重金买GPU,是因为相信这个公式:GPU越多 = 算力越强 = AI越快。

但看看内存带宽,故事就不一样了。NVIDIA H100每秒可处理3.35 TB数据,H200提升到4.8 TB/s,提高了43%。 问题是GPU计算性能在同期提升幅度远不止如此。算力闲置着,但从内存取数据的速度跟不上。

这就是工程师所说的"内存墙(Memory Wall)"。LLM每生成一个token,都需要从内存读取数百GB的模型权重。这个"读取"操作就是瓶颈——无论有多少计算核心,内存慢了就得等。 十年间算力增长80倍而内存带宽只增长17倍,这个差距就是当前瓶颈的本质。

80×
AI芯片算力增长(10年)
17×
内存带宽增长(同期)
约1个月
当前芯片处理1亿token的时间

真正的问题是数据移动的距离

简单描述一下当前AI芯片的工作方式:数据从内存出来 → 经CPU预处理 → 发送到GPU计算 → 再回到内存。每生成一个token,这个旅程就重复一次。 这个移动本身就在消耗时间和能量。

Fractile自2022年以来开发的,就是消除这个旅程的方法。他们构建了"内存内计算(In-Memory Compute)"架构——在SRAM单元内部直接执行计算,而不是把数据搬出内存。 矩阵乘法不需要离开内存,在内存内完成处理,只输出结果。

"更快不仅仅是从10秒变成100毫秒。而是从几周、几个月——变成短得多的时间。"

— Walter Goodwin,Fractile CEO

用数字来说:目前顶尖AI系统解决复杂问题时最多生成1亿个token,而在当前芯片上以每秒约40个token的速度,需要1个月。 Fractile的目标是将速度提升到每秒1,200个token,将同样的任务缩短到几天。 该公司声称,这种设计与当前GPU相比,可以实现快25倍、成本降至十分之一

现有GPU方式内存内计算
数据流内存→CPU→GPU→内存(循环)在内存内完成计算
瓶颈内存带宽上限(3~8 TB/s)数据移动最小化
1亿token任务约1个月(40 token/秒)数天目标(1,200 token/秒)
成本目标基准值降至十分之一(Fractile声称)

两个月内$3.55亿涌入同一个赌注

Fractile在2026年5月融资$220M引发关注。但同月底,韩国芯片初创公司XCENA也在$5.7亿估值下融资$135M。 路径不同:Fractile在SRAM内部计算,XCENA的MX1芯片采用CXL方式,将处理器紧贴DRAM放置。但诊断相同。

XCENA的表述是:"推理不再只是计算问题,它越来越成为内存扩展问题。" 首尔和伦敦的团队独立得出了相同结论。

投资方阵容也很耐人寻味。Fractile背后是Founders Fund(Peter Thiel)和前Intel CEO Pat Gelsinger。 Anthropic据报道已在商讨芯片上市后的采购事宜。 目前Anthropic的算力来源只有三家——NVIDIA、Google TPU和Amazon Trainium。Fractile有望成为第四家。AI推理市场预计从2025年约$1,030亿增长到2030年约$2,550亿。

英伟达也知道这个问题

Blackwell大幅提升了内存带宽,H200比H100提升43%。 但Fractile/XCENA针对的不是"GPU内部内存带宽改进",而是"内存与计算的融合"。短期内英伟达仍将主导市场,但长期架构转型的赌注正在此刻落下。

2027年前现在就该做的事

Fractile的芯片要等到2027年。XCENA的目标是2026年底量产。这一趋势对实际工作的影响,现在就可以开始准备。

  1. 将AI服务成本下降曲线纳入规划
    GPT、Claude、Gemini等API的per-token价格会随基础设施成本下降而下降。如果现在AI的ROI算不过来,不妨按2027~2028年的价格重新计算。现在因成本无法实现的事,届时可能成为可能。
  2. 提前规划长上下文工作流
    Fractile针对的是"100万token以上的深度推理"场景。Claude 200K和Gemini 1M上下文现在就可用,但价格昂贵。预计2027年后会大幅降价提速——现在就梳理需要长上下文的业务流程,届时能快速上手。
  3. 重新审视速度与成本的权衡
    现在使用"成本优化"模式会让AI响应变慢。这种权衡在2027年后会缩小。把因速度问题放弃的用例列个清单,等基础设施成本下来时随时可以拿出来用。
  4. 警惕AI供应商锁定
    Anthropic考虑将Fractile作为第四家芯片供应商,这是AI基础设施多元化开始的信号。供应商多元化意味着价格竞争加剧。现在要注意避免与单一供应商签订深度锁定合同。
  5. 将2027年下半年设为AI工作流复盘节点
    Fractile和XCENA都以2026~2027年量产为目标。把这个时间点设为团队的AI基础设施和成本复盘时机。现在ROI不够好的AI用例,届时可以重新评估。