OpenAI 宣布 ChatGPT 及 API 高延迟问题已修复

OpenAI 宣布 ChatGPT 及 API 高延迟问题已修复

事件背景

北京时间2025年5月12日下午起,大量用户及开发者反馈ChatGPT网页端、移动端及API接口出现显著响应延迟,部分请求超时或返回异常。OpenAI官方在近两小时内未发布明确说明,仅通过状态页面标记为“性能下降”,引发社区对服务稳定性的广泛讨论。

修复确认与时间线

**23:00 UTC**,OpenAI官方通过X(原Twitter)账号及状态页面正式宣布:导致ChatGPT及API高延迟的根本原因已被定位并修复。据官方说明,本次问题源于底层推理编排系统的一次配置变更异常,导致请求调度队列拥塞,而非模型本身或算力资源不足。

**23:30 UTC** 起,各区域用户报告延迟已恢复至正常水平,API p99响应时间由峰值超过8秒回落至1秒以内。官方承诺后续将强化变更审核流程与灰度发布机制。

技术分析与影响评估

从架构角度推断,此次异常极大概率与推理路由层的负载均衡策略有关。当编排服务对可用GPU资源的状态感知出现偏差,会迫使大量请求被路由至少数健康节点,形成热点,而其他节点处于空闲等待状态。这正是本次“局部拥塞、全局可用”现象的典型成因。

对开发者生态而言,此次事件再次敲响警钟:**依赖单一API提供商的业务**,必须在调用侧设置合理的超时重试、降级与熔断策略。高延时不等于服务完全不可用,但足以影响用户体验和业务SLA。对于ChatGPT用户端,OpenAI的快速修复(约3小时)展现了其运维响应能力,但也暴露了配置变更缺乏自动回滚机制的短板。

后续展望

OpenAI近期频繁发布新模型与功能(如GPT-4o多模态升级),服务复杂度的提升对基础设施的弹性提出更高要求。本次事件或推动其在推理集群中引入**多区域流量调度**与**动态资源池扩缩**能力。对企业客户而言,建议考虑使用多模型或混合部署方案(如接入Azure OpenAI服务),分担单一节点的故障风险。

相关文章