职位描述
- 负责 Kubernetes 集群的日常运维、监控及优化,保障集群的高可用性与稳定性;
- 及时响应并处理线上故障,快速定位问题并恢复业务,确保服务的连续性;
- 参与业务系统的部署、上线、变更及容量评估,制定并演练应急预案;
- 持续优化运维流程与工具链,提升运维自动化水平。
任职要求
- 熟悉 Python/Shell/Golang 等至少一种编程语言,具备实际项目开发经验;
- 具备扎实的 Linux 系统运维经验,熟悉系统原理及常见问题排查;
- 熟悉 CI/CD 流程,掌握至少一种持续集成/部署工具(如 Jenkins、Drone、CircleCI、Argo Workflow);
- 熟悉 Prometheus、Loki、ELK 等监控和日志平台的部署与使用;
- 熟悉 AWS 或华为云等公有云平台者优先;
- 有 Kubernetes 生产环境维护经验,熟悉其架构、网络、存储及安全相关组件;
- 加分项:能够快速部署各类 Agent 开源项目(如 OpenClaw 等),具备相关实践或二次开发经验。