什么是「线上问题」
从产品开发周期上来讲,「线上问题」发生在产品发布后。
「线上问题」指提供给用户的服务全部或部分不可用、服务性能低、用户体验不好等。在产品前期阶段,为了抢占市场先机,产品新功能的发布速度追求往往优先于其质量,埋下了很多技术债务,部分技术债务的爆发会引起「线上问题」,造成客户满意度下降,甚至是直接经济损失。
发现 -> 处理 -> 总结 -> 反馈
流程概览
严重程度描述处理方式
致命最高级别,系统或服务完全停止或无法使用立即采取紧急措施进行解决
严重次高级别,系统或服务部分停止或使用受限尽快地采取措施进行解决
一般一般级别,系统或服务的使用没有明显的影响但需要在合理的时间内进行处理,以防发展成更高级别的故障
轻微最低级别,不影响系统或服务使用的小问题或异常日常维护过程中逐步处理
处理流程
每周轮换:每周一上午10点,会在钉群推送本周值班的人员,如下图
告警通知示意图
每天会进行日志分析,向钉钉服务告警群推送日志错误分类报告
值班RD每天下班前,针对报告进行分析,如果判断为线上问题,报告给QA进行登记
故障复盘报告模板
双周复盘报告模板
转自:https://www.skywalkerai.com/posts/how-to-handle-online-defects/