cdn.tech.eu

AI 속도를 막는 건 GPU가 아니었다 — 메모리 장벽에 $355M이 몰린 이유

AI 인퍼런스 병목, 메모리 대역폭, Fractile, XCENA, 인-메모리 컴퓨팅, AI 추론 비용AI 인퍼런스

UK AI chip startup Fractile raises $220M to tackle the growing inference bottleneck

Fractile Raises $220M as AI Inference Problem Gets Expensive

Fractile $220m round arrives as Anthropic eyes its UK silicon

AI가 느리다면, GPU를 더 사면 될 것 같잖아요. 근데 실제로는 GPU를 두 배로 늘려도 토큰 생성 속도가 두 배가 되지 않아요. 10년 동안 AI 칩 연산 능력은 80배 올랐는데, 메모리 대역폭은 고작 17배 늘었거든요. 지금 AI의 병목은 두뇌가 아니라 혈관이에요.

3초 요약

GPU 더 사도 안 빨라짐 → 진짜 병목 = 메모리 대역폭 → 인-메모리 컴퓨팅 등장 → Fractile $220M + XCENA $135M → 2027년 AI 비용 구조 재편

다들 이렇게 믿죠 — GPU 더 늘리면 AI가 빨라진다

NVIDIA H100 하나에 약 3만 달러. B200은 그보다 두 배 비싸요. AI 기업들이 GPU에 수억, 수조를 쏟아붓는 건 이 공식을 믿기 때문이에요. 더 많은 GPU = 더 많은 연산 = 더 빠른 AI.

근데 메모리 대역폭을 보면 얘기가 달라져요. 현재 NVIDIA H100은 초당 3.35 TB의 데이터를 처리할 수 있어요. H200은 4.8 TB/s로 43% 올랐고요. 문제는 GPU 연산 성능은 같은 기간 훨씬 빠르게 올랐다는 거예요. 연산은 남아도는데, 데이터를 메모리에서 꺼내오는 속도가 따라가지 못해요.

전문 용어로 "메모리 장벽(Memory Wall)"이라고 부르는 현상이에요. LLM이 토큰 하나를 생성할 때마다, 수백 GB짜리 모델 가중치를 메모리에서 읽어와야 해요. 이 "읽기"가 병목이기 때문에 연산 코어가 아무리 많아도 메모리가 느리면 기다릴 수밖에 없어요. 10년 동안 연산 능력은 80배 올랐는데 메모리 대역폭은 17배밖에 못 따라온 격차가 지금 병목의 본질이에요.

80×

AI 칩 연산 증가 (10년)

17×

메모리 대역폭 증가 (같은 기간)

~1개월

현재 칩으로 1억 토큰 처리 시간

진짜 문제는 데이터가 이동하는 거리다

현재 AI 칩의 구조를 단순하게 그려보면 이래요. 정보가 메모리에서 나와 → CPU 전처리를 거쳐 → GPU로 가서 연산하고 → 다시 메모리로 돌아가요. 토큰 하나 생성할 때마다 이 여정이 반복돼요. 이 이동 자체가 시간과 에너지를 잡아먹고 있어요.

Fractile이 2022년부터 개발해온 건 이 여정을 없애는 방법이에요. 계산을 메모리 바깥이 아니라 SRAM 셀 안에서 직접 실행하는 "인-메모리 컴퓨팅(In-Memory Compute)" 아키텍처예요. 행렬 곱셈이 메모리를 떠나지 않고, 메모리 안에서 처리된 다음 결과만 나오는 구조예요.

"더 빠르다는 건 단순히 10초가 100밀리초 되는 게 아니에요. 몇 주, 몇 달이 훨씬 짧아지는 거예요."
— Walter Goodwin, Fractile CEO

수치로 보면: 지금 첨단 AI 시스템이 복잡한 문제를 풀 때 최대 1억 개의 토큰을 생성하는데, 현재 칩으로는 초당 약 40토큰이라 1개월이 걸려요. Fractile의 목표는 초당 1,200토큰으로 끌어올려서 같은 작업을 수일로 줄이는 거예요. Fractile은 이 설계로 기존 GPU 대비 25배 빠르고 비용은 10분의 1이 가능하다고 주장해요.

	기존 GPU 방식	인-메모리 컴퓨팅
데이터 흐름	메모리 → CPU → GPU → 메모리 반복	메모리 내 연산 완결
병목 지점	메모리 대역폭 한계 (3~8 TB/s)	데이터 이동 최소화
1억 토큰 작업	~1개월 (40토큰/초)	수일 목표 (1,200토큰/초)
비용 목표	기준값	10분의 1 (Fractile 주장)

두 달 사이에 $355M이 같은 곳에 몰렸다

Fractile이 2026년 5월에 $220M을 유치한 건 알려졌어요. 근데 같은 달 말, 한국의 칩 스타트업 XCENA도 $135M을 $5.7억 밸류에이션으로 유치했어요. 접근 방식은 달라요. Fractile은 SRAM 안에서 계산하고, XCENA는 CXL 방식으로 DRAM 바로 옆에 프로세서를 붙이는 MX1 칩을 개발해요. 근데 진단은 같아요.

XCENA의 표현대로: "인퍼런스 문제는 단순한 연산 문제가 아니라 점점 더 메모리 확장 문제가 되고 있다." 서울과 런던의 팀이 독립적으로 같은 결론에 도달했다는 거예요.

투자자 면면도 의미심장해요. Fractile에는 Founders Fund(Peter Thiel), 전 Intel CEO Pat Gelsinger가 베팅했고, Anthropic은 이미 Fractile 칩이 나오면 구매하겠다는 논의를 진행 중이에요. 현재 Anthropic의 컴퓨팅 공급자는 NVIDIA, Google TPU, Amazon Trainium 세 군데인데 Fractile이 네 번째가 될 수 있어요. AI 인퍼런스 시장은 2025년 약 $1,030억에서 2030년 약 $2,550억으로 성장할 전망이에요.

NVIDIA도 알고 있다

NVIDIA Blackwell은 전작 대비 메모리 대역폭을 크게 올렸고, H200은 H100 대비 43% 향상됐어요. 다만 Fractile/XCENA가 공략하는 건 "GPU 안의 메모리 대역폭 개선"이 아니라 "메모리와 연산의 통합"이에요. 단기는 NVIDIA가 지배하겠지만, 장기 아키텍처 전환의 베팅이 지금 시작되고 있어요.

2027년 전에 지금 해두면 좋은 것들

Fractile 칩은 2027년에야 나와요. XCENA는 2026년 말 양산 목표예요. 이 트렌드가 지금 실무에 미치는 영향은 지금부터 준비할 수 있어요.

AI 서비스 비용 하락 커브를 계획에 넣기
GPT, Claude, Gemini 등 토큰당 요금은 인프라 비용이 내려가면 따라 내려가요. 지금 AI 활용 ROI가 안 나온다면 2027~2028년 가격 기준으로 재계산해봐요. 지금은 비용 때문에 못 하는 게 그때는 가능해질 수 있어요.
긴 컨텍스트 워크플로우 미리 설계하기
Fractile이 타겟하는 건 "100만 토큰 이상의 긴 추론" 유즈케이스예요. Claude 200K, Gemini 1M 컨텍스트가 지금도 가능하지만 비싸요. 2027년 이후엔 훨씬 저렴하고 빨라질 전망이니, 긴 컨텍스트가 필요한 업무 프로세스를 지금 정리해두면 유리해요.
속도 vs 비용 트레이드오프 다시 점검하기
지금 "비용 최적화" 모드를 쓰면 AI 응답이 느려져요. 2027년 이후엔 이 트레이드오프 자체가 줄어들 전망이에요. 속도 때문에 포기했던 유즈케이스를 목록에 넣어두고, 인프라 비용이 내려올 때 꺼낼 준비를 하세요.
AI 공급자 락인 주의하기
Anthropic이 Fractile을 4번째 칩 공급자로 검토 중이라는 건, AI 인프라 다각화가 시작됐다는 신호예요. AI API 서비스도 공급자 다양화가 진행될수록 가격 경쟁이 붙어요. 지금 특정 벤더에 깊게 락인되는 계약을 주의하세요.
2027년 하반기를 AI 워크플로우 재점검 타이밍으로 설정하기
Fractile과 XCENA 모두 2026~2027년 양산 목표예요. 이 시점을 팀의 AI 인프라·비용 재점검 타이밍으로 달력에 표시해두세요. 지금 ROI가 안 나오는 AI 유즈케이스를 그때 다시 꺼내보는 게 맞아요.

🔗