OpenAI 宣布 ChatGPT 及 API 高延迟问题已修复

1,589 0

事件背景

北京时间2025年5月12日下午起，大量用户及开发者反馈ChatGPT网页端、移动端及API接口出现显著响应延迟，部分请求超时或返回异常。OpenAI官方在近两小时内未发布明确说明，仅通过状态页面标记为“性能下降”，引发社区对服务稳定性的广泛讨论。

修复确认与时间线

**23:00 UTC**，OpenAI官方通过X（原Twitter）账号及状态页面正式宣布：导致ChatGPT及API高延迟的根本原因已被定位并修复。据官方说明，本次问题源于底层推理编排系统的一次配置变更异常，导致请求调度队列拥塞，而非模型本身或算力资源不足。

**23:30 UTC** 起，各区域用户报告延迟已恢复至正常水平，API p99响应时间由峰值超过8秒回落至1秒以内。官方承诺后续将强化变更审核流程与灰度发布机制。

技术分析与影响评估

从架构角度推断，此次异常极大概率与推理路由层的负载均衡策略有关。当编排服务对可用GPU资源的状态感知出现偏差，会迫使大量请求被路由至少数健康节点，形成热点，而其他节点处于空闲等待状态。这正是本次“局部拥塞、全局可用”现象的典型成因。

对开发者生态而言，此次事件再次敲响警钟：**依赖单一API提供商的业务**，必须在调用侧设置合理的超时重试、降级与熔断策略。高延时不等于服务完全不可用，但足以影响用户体验和业务SLA。对于ChatGPT用户端，OpenAI的快速修复（约3小时）展现了其运维响应能力，但也暴露了配置变更缺乏自动回滚机制的短板。

后续展望

OpenAI近期频繁发布新模型与功能（如GPT-4o多模态升级），服务复杂度的提升对基础设施的弹性提出更高要求。本次事件或推动其在推理集群中引入**多区域流量调度**与**动态资源池扩缩**能力。对企业客户而言，建议考虑使用多模型或混合部署方案（如接入Azure OpenAI服务），分担单一节点的故障风险。