502报错，当网关罢工，我们该如何应对？502报错

你正全神贯注地追一部剧,突然屏幕一白，上面冷冷地写着“502 Bad Gateway”，你刷新，再刷新——依然如故，愤怒、无奈，甚至怀疑是不是自己网费没交够——别急，这个“502”其实不是你的错，也不是世界末日。

502是什么？一句话说清

502是HTTP状态码里一个“中间人翻车”的典型，打个比方：你（客户端）向奶茶店（服务器）点单，但店门口有个外卖员（网关或代理），外卖员接单后跑去后厨拿奶茶，结果后厨今天没开门、厨师生病、原料短缺——外卖员空手而归，只好对你摊手：“502，我也没办法。”

真正“罢工”的不是你，也不是外卖员，而是后厨，这个“后厨”就是上游服务器——可能是应用服务器、数据库服务器，或者某个微服务。

可能是临时网络抖动,按F5（或Cmd+R）一次，如果还不行，等30秒再刷一次。不要疯狂连点，那样只会让服务器雪上加霜。

打开“down for everyone or just me”这类网站（或者直接问同事朋友），如果只有你上不了，问题可能在本地网络、路由器、DNS或浏览器缓存；如果大家都上不了，那就是服务器挂了。

浏览器缓存过期的代理信息可能导致502,清除缓存、重启路由器、用手机热点试一下——有时只是ISP的临时故障。

很多大站（微博、抖音、淘宝）在故障时会通过官方推特、微博或状态页面（status.example.com）发布说明，如果看到“正在修复”，那就安心等待。

查看最近的变更：回忆几分钟到几小时前是否部署了代码、修改了配置、重启了服务，回滚往往是最快解法。
检查后端服务存活：curl localhost:端口 看能不能正常响应，不能的话，重启服务，查看错误日志（journalctl -u 服务名 或 tail -f /var/log/app.log）。
检查数据库和缓存：SHOW PROCESSLIST查看是否有大量阻塞，Redis是否OOM，重启数据库或清缓存有时有效。
调整超时参数：如果502是因为请求处理时间过长，可在网关层（Nginx的proxy_read_timeout）适当放宽，但治标不治本，还是要优化代码。
升级资源：如果峰值流量远超预期，临时扩容服务器或增加连接池大小，经典做法：多加几台实例，或者上弹性伸缩（Auto Scaling）。
备份方案：配置健康检查，自动剔除不健康的节点；设置备用后端（fallback）返回静态页面，而不是赤裸裸的502。

502报错虽然烦人,但它其实是互联网世界的“保险丝”——当系统无法正常工作时，它选择诚实地说“我搞不定”，而不是悄悄给你错误数据，下次再看到502，你可以深呼吸，然后默念：“不是我的问题，是后厨出了状况。”

而对于那些深夜爬起来处理502的工程师,请多一份理解：他们正对着监控大屏，手忙脚乱地重启服务、回滚代码——就像奶茶店老板在后厨拼命捣机器一样，只不过，他们手里拿的不再是奶茶，而是命令行。