Running a single deep coding model at max context on Cerebras requires 24 systems ($24M Capex) just to support 256 concu…

SemiAnalysis Twitter · SemiAnalysis (@SemiAnalysis_) · 2026-05-29

SemiAnalysis finds that running one deep coding model at maximum context on Cerebras hardware requires 24 systems costing $24M capex to serve only 256 concurrent users, making NVIDIA GB300 racks more cost-efficient at the $100M scale.

Open original ↗

Appears in

Cerebras Systems IPO: Wafer-Scale Architecture Goes Public

Extraction

Topics: cerebrasai-hardware-economicsmemory-bandwidthinference-scaling

Claims

A single deep coding model at maximum context on Cerebras requires 24 systems ($24M capex) to support just 256 concurrent users.
At $100M of capital expenditure, standard NVIDIA GB300 racks deliver significantly more memory bandwidth than Cerebras systems.
Cerebras hardware economics become unfavorable for large-scale concurrent inference relative to mainstream GPU alternatives.

Key quotes

Running a single deep coding model at max context on Cerebras requires 24 systems ($24M Capex) just to support 256 concurrent users. At that scale, $100M gets you way more memory bandwidth in standard GB300 racks.