# 估值8亿美元算力核弹问世:vLLM团队再启航,Inferact角逐全球AI推理之巅
## 事件背景
近日,由前vLLM核心成员创立的新公司Inferact宣布完成新一轮融资,估值飙升至8亿美元。这一消息迅速在AI领域引发震动,标志着大模型推理优化赛道进入白热化竞争阶段。Inferact的核心产品是一款名为“Inferact Engine”的高性能推理引擎,被业界称为“算力核弹”,其单集群可支持十万卡级别的分布式推理任务,较传统方案提升吞吐量达5-8倍。
## 技术突破分析
Inferact的技术架构延续并超越了vLLM的设计哲学。其创新点主要体现在三方面:
**动态内存管理2.0**
在vLLM的PagedAttention基础上,Inferact引入了预测性内存调度算法,可提前预判不同模型层的计算需求,实现GPU内存利用率突破92%的行业纪录。这一改进特别适用于混合模态大模型的复杂推理场景。
**异构计算融合**
引擎支持CPU、GPU、NPU的混合编排,通过自主设计的“计算流图分析器”动态分配计算任务。在Llama 3-405B的测试中,异构方案相比纯GPU部署降低能耗41%,同时保持99%的延迟SLA达标率。
**全局负载感知**
系统具备跨数据中心的全局调度能力,可根据不同区域的电力成本、网络延迟和算力价格,实时优化推理任务分发路径。这一特性使其特别适合全球化AI服务提供商。
## 行业影响评估
当前AI推理市场正经历结构性变革。随着模型参数规模指数级增长,传统推理方案面临三大瓶颈:内存墙、能耗墙和成本墙。Inferact的突破性技术直接针对这些痛点:
1. **成本重构**:将大模型API调用成本拉低至每百万tokens 0.18美元,可能引发行业价格战
2. **生态迁移**:已有三家头部云服务商宣布集成Inferact引擎作为标准推理选项
3. **标准竞争**:该团队正推动推理接口标准化,可能成为未来行业事实标准
## 挑战与展望
尽管技术领先,Inferact仍面临严峻挑战。竞争对手如TensorRT-LLM、TGI等正在加速迭代;自研芯片厂商(如英伟达)可能将类似功能集成至硬件层;此外,超大规模集群的稳定性仍需时间验证。
从行业趋势看,2025年全球AI推理市场规模预计达420亿美元,其中优化服务占比将超过30%。Inferact若能在未来12个月内实现其宣称的“千万卡级调度能力”,可能重塑整个AI服务栈的价值分配格局。这场“推理之战”的胜负,不仅取决于技术先进性,更取决于生态构建速度和商业落地能力。
**技术演进永无止境,但商业世界的竞赛往往在关键技术窗口期决出胜负。Inferact能否延续vLLM的辉煌,将在接下来18个月见分晓。**