我们正在寻找一名经验丰富的Site Reliability Engineer (SRE) 加入我们的团队。在这一角色中,您将扩展我们的运营,设计和维护健壮的基础设施,并在我们的云原生环境中应用最佳实践以确保可靠性和效率。职责包括管理跨云平台的Kubernetes集群(包括OpenShift、Amazon EKS、Azure AKS和Google GKE)、实施和管理CI/CD流水线(使用Jenkins、GitHub Actions、Argo CD或GitLab CI/CD)、设计和维护可观测性堆栈(包括Prometheus、Grafana、Loki、OpenTelemetry及相关技术)、优化系统性能并解决生产问题、实施SRE原则(包括服务级别指标(SLIs)和服务级别目标(SLOs))以维护系统可靠性、使用Go或Python等编程语言以及基础设施即代码(IaC)工具如Terraform自动化基础设施和运维任务、应用AI技能如Vibe Coding进行工程任务、AIOps和自动化、理解大型语言模型(LLMs)和AI代理,以及提示工程能力、保持对新兴技术(包括AI、MLOps和边缘计算)的了解、通过技术写作和演讲贡献知识共享。