What happened?
这次的全服务崩溃可谓是一个堆积已久的技术债集中爆发。升级某面板导致Tengine被吞、重新安装Web Server失败、526 Invalid SSL certificate……
此次故障从北京时间10月15日下午开始至北京时间10月17日凌晨结束,故障持续时间三天。期间,Web Server完全瘫痪,除了Jenkins和Uptime Kuma外,依赖Tengine的服务全部中断。
在此期间修复某面板、重置Nginx环境、修改配置文件等均已尝试,后续通过编辑配置文件强行进入面板、删除错误文件、修复错误配置已将部分服务恢复。但还有部分服务正在继续抢修中,预计本周六进行完整修复。
目前本站的大部分服务全部基于这台服务器上,One Boom All Boom也是发挥的淋漓尽致……我有空将部分服务分布部署、容器化等能够避免此类事情发生的挽救办法。
各位,晚安
24.10.18 3:15更新
已找到面板问题并通过文件替换成功修复。后续测试中发现了其他关联性问题,已经通过更新面板解决。已开始着手修复其他服务,对现有已恢复服务对其进行持续检查。在发稿时,仍无法保证近期服务的SLA。
24.10.20 0:45更新
面板在昨日出现不可控事故,网站数据在面板不可见,通过覆盖备份的数据文件已修复该问题;面板软件API被某防火墙屏蔽导致部分功能异常,未发现此问题会影响到服务。截至目前,大部分服务已修复。我们还在继续对部分服务进行检查。