cdn.tech.eu

拖慢AI速度的不是GPU — 3.55亿美元押注内存瓶颈的逻辑

AI推理瓶颈, 内存带宽, Fractile, XCENA, 内存内计算, AI推理成本商业

UK AI chip startup Fractile raises $220M to tackle the growing inference bottleneck

Fractile Raises $220M as AI Inference Problem Gets Expensive

Fractile $220m round arrives as Anthropic eyes its UK silicon

感觉AI很慢？你可能会想买更多GPU。但实际上，GPU翻倍并不能让token生成速度翻倍。过去十年，AI芯片算力增长了80倍，内存带宽却只增长了17倍。现在AI的瓶颈不是大脑，而是血管。

3秒摘要

多买GPU也没用 → 真正瓶颈＝内存带宽 → 内存内计算出现 → Fractile $220M + XCENA $135M → 2027年：AI成本结构重塑

大家都这么认为 — GPU越多AI越快

NVIDIA H100一张约3万美元，B200则是两倍价格。AI公司砸重金买GPU，是因为相信这个公式：GPU越多 = 算力越强 = AI越快。

但看看内存带宽，故事就不一样了。NVIDIA H100每秒可处理3.35 TB数据，H200提升到4.8 TB/s，提高了43%。问题是GPU计算性能在同期提升幅度远不止如此。算力闲置着，但从内存取数据的速度跟不上。

这就是工程师所说的"内存墙（Memory Wall）"。LLM每生成一个token，都需要从内存读取数百GB的模型权重。这个"读取"操作就是瓶颈——无论有多少计算核心，内存慢了就得等。十年间算力增长80倍而内存带宽只增长17倍，这个差距就是当前瓶颈的本质。

80×

AI芯片算力增长（10年）

17×

内存带宽增长（同期）

约1个月

当前芯片处理1亿token的时间

真正的问题是数据移动的距离

简单描述一下当前AI芯片的工作方式：数据从内存出来 → 经CPU预处理 → 发送到GPU计算 → 再回到内存。每生成一个token，这个旅程就重复一次。这个移动本身就在消耗时间和能量。

Fractile自2022年以来开发的，就是消除这个旅程的方法。他们构建了"内存内计算（In-Memory Compute）"架构——在SRAM单元内部直接执行计算，而不是把数据搬出内存。矩阵乘法不需要离开内存，在内存内完成处理，只输出结果。

"更快不仅仅是从10秒变成100毫秒。而是从几周、几个月——变成短得多的时间。"
— Walter Goodwin，Fractile CEO

用数字来说：目前顶尖AI系统解决复杂问题时最多生成1亿个token，而在当前芯片上以每秒约40个token的速度，需要1个月。 Fractile的目标是将速度提升到每秒1,200个token，将同样的任务缩短到几天。该公司声称，这种设计与当前GPU相比，可以实现快25倍、成本降至十分之一。

	现有GPU方式	内存内计算
数据流	内存→CPU→GPU→内存（循环）	在内存内完成计算
瓶颈	内存带宽上限（3~8 TB/s）	数据移动最小化
1亿token任务	约1个月（40 token/秒）	数天目标（1,200 token/秒）
成本目标	基准值	降至十分之一（Fractile声称）

两个月内$3.55亿涌入同一个赌注

Fractile在2026年5月融资$220M引发关注。但同月底，韩国芯片初创公司XCENA也在$5.7亿估值下融资$135M。路径不同：Fractile在SRAM内部计算，XCENA的MX1芯片采用CXL方式，将处理器紧贴DRAM放置。但诊断相同。

XCENA的表述是："推理不再只是计算问题，它越来越成为内存扩展问题。" 首尔和伦敦的团队独立得出了相同结论。

投资方阵容也很耐人寻味。Fractile背后是Founders Fund（Peter Thiel）和前Intel CEO Pat Gelsinger。 Anthropic据报道已在商讨芯片上市后的采购事宜。目前Anthropic的算力来源只有三家——NVIDIA、Google TPU和Amazon Trainium。Fractile有望成为第四家。AI推理市场预计从2025年约$1,030亿增长到2030年约$2,550亿。

英伟达也知道这个问题

Blackwell大幅提升了内存带宽，H200比H100提升43%。但Fractile/XCENA针对的不是"GPU内部内存带宽改进"，而是"内存与计算的融合"。短期内英伟达仍将主导市场，但长期架构转型的赌注正在此刻落下。

2027年前现在就该做的事

Fractile的芯片要等到2027年。XCENA的目标是2026年底量产。这一趋势对实际工作的影响，现在就可以开始准备。

将AI服务成本下降曲线纳入规划
GPT、Claude、Gemini等API的per-token价格会随基础设施成本下降而下降。如果现在AI的ROI算不过来，不妨按2027~2028年的价格重新计算。现在因成本无法实现的事，届时可能成为可能。
提前规划长上下文工作流
Fractile针对的是"100万token以上的深度推理"场景。Claude 200K和Gemini 1M上下文现在就可用，但价格昂贵。预计2027年后会大幅降价提速——现在就梳理需要长上下文的业务流程，届时能快速上手。
重新审视速度与成本的权衡
现在使用"成本优化"模式会让AI响应变慢。这种权衡在2027年后会缩小。把因速度问题放弃的用例列个清单，等基础设施成本下来时随时可以拿出来用。
警惕AI供应商锁定
Anthropic考虑将Fractile作为第四家芯片供应商，这是AI基础设施多元化开始的信号。供应商多元化意味着价格竞争加剧。现在要注意避免与单一供应商签订深度锁定合同。
将2027年下半年设为AI工作流复盘节点
Fractile和XCENA都以2026~2027年量产为目标。把这个时间点设为团队的AI基础设施和成本复盘时机。现在ROI不够好的AI用例，届时可以重新评估。

🔗