OpenAI 史上最长宕机：自研 K8s 成“拦路虎”，导致数小时无法修复

1,854 0 0

文章摘要

【关键词】 服务中断、AI平台、Kubernetes、监控服务、资源过载

OpenAI遭遇了一次全球性的服务中断，影响了其AI聊天机器人平台ChatGPT、视频生成工具Sora以及面向开发人员的API。这次中断从太平洋时间下午3点左右开始，持续了约三个小时。OpenAI迅速承认问题并着手修复，最终成功恢复服务。事后报告指出，此次宕机并非由安全事件或产品发布引起，而是由于部署了一个新的监控服务，该服务用于收集Kubernetes指标，却意外导致了资源密集型的Kubernetes API操作，使得Kubernetes API服务器过载，控制平面瘫痪。

OpenAI的基础设施团队负责构建和维护一个复杂的计算环境，支持研究和开发。他们使用内部开发的框架如Rapid和Rcall，以及开源框架如Ray和Kubeflow，管理容器和集群调度，并使用Chef和Terraform进行主机和OS编排。由于Kubernetes的扩展性能无法完全满足需求，团队开发了Rapid框架，抽象了平台API，将虚拟机视为类似pod的工作单元，实现了高度隔离的实验环境，避免了资源竞争和服务中断。

在训练GPT-3时，OpenAI能够管理7500个节点，并放弃了Flannel组件，转而使用Azure VMSS的本地Pod网络技术和相关CNI插件。同时，使用Prometheus收集指标数据，Grafana进行图形、仪表板和警报。为了提高问题排查效率，基础设施团队开发了监控软件，以满足不同的查询要求。

此次故障的根本原因是新部署的遥测服务配置意外在大规模集群中产生了大量Kubernetes API负载，导致控制平面不堪重负并破坏了基于DNS的服务发现能力。OpenAI表示将采取措施防止未来发生类似事件，包括改进登台发布、更好地监控基础设施变化，以及采用新机制确保工程师在任何情况下都能访问Kubernetes API服务器。