职位描述
1 、系统稳定性保障:负责 App 生产环境的日常运维、监控、故障排查与应急响应,确保服务 SLA 达到 99.9%以上。
2 、云平台与基础设施管理:管理和优化在公有云上的服务架构,包括但不限于计算、网络、存储及数据库等核心服务。
3 、CI/CD 与容器化:设计、维护和优化基于 Kubernetes 的容器化部署平台,完善前后端 CI/CD 流水线,实现快速、安全、自动化的应用交付。
4 、可观测性体系建设:建设和维护集中式的日志、监控、告警体系,具备从海量数据中快速定位并解决问题的能力。
5 、安全与权限管控:实施和运维基础设施的安全策略、网络准入控制及权限管理体系,保障系统和用户数据的安全。
6 、运维流程与文档:编写和维护运维规范、技术文档及事故报告,推动运维工作的标准化和自动化。