职位描述
负责服务可靠性:定义/跟踪 SLI/SLO,并推动关键服务的持续改进。
开发自动化与内部工具(如使用 Go/Python),涵盖部署、回滚、配置与集群运维。
优化 CI/CD 流水线(灰度、蓝绿、渐进式发布),确保安全高效的版本发布。
实施与维护可观测性体系(Prometheus/Grafana/OpenTelemetry 的指标、日志、链路追踪),并建立有效告警机制。
主导/参与故障响应、根因分析与事故复盘;提升系统抗故障能力。
执行容量规划与性能优化,确保高吞吐、低延迟工作负载的稳定运行。
与安全团队协作,管理密钥/机密信息(Vault、KMS、HSM)并强化基础设施安全。
运维和监控区块链全节点及 RPC 服务,规划升级方案并集成至生产系统。