职位描述

Site Reliability Engineer 负责确保生产系统和基础设施的可靠性、可扩展性和性能。角色专注于构建健壮的平台，自动化运营流程，并在高可用性环境中改进系统稳定性。该角色处于软件工程和基础设施操作的交汇点，需要强大的系统思维、自动化能力以及主动的可靠性工程方法。角色关注领域包括：基础设施可靠性与系统可扩展性、自动化运营工作流和事件管理、监控、可观测性和生产稳定性。关键职责包括：设计、维护和改进高可用性生产系统和基础设施；构建自动化工具和工作流以减少运营负担；监控系统健康状况、性能和可靠性；排查基础设施和应用程序相关的问题；通过日志、指标和监控工具提高系统可观测性；与工程团队合作优化部署和发布流程；支持事件响应、根本原因分析和系统恢复工作；管理基础设施可扩展性、性能优化和可用性倡议；维护基础设施、运营流程和恢复流程的文档。预期成果包括：可靠的、可扩展的基础设施和高系统可用性；更快的事件检测和解决；通过自动化减少运营瓶颈；改进的可观测性和生产系统性能。核心能力包括：对Linux系统、网络和分布式系统有深入理解；有AWS、Azure或Google Cloud等云平台经验；精通Python、Go或Bash等脚本或编程语言；熟悉Kubernetes、Docker和容器编排；有CI/CD流水线和基础设施自动化工具经验；了解Prometheus、Grafana或Datadog等监控和可观测性工具。经验与资格包括：计算机科学、工程或相关领域的学士学位；4-8年SRE、DevOps、平台工程或基础设施角色经验。优先背景包括：支持大规模或高流量生产系统经验；熟悉事件管理和可靠性工程实践；有基础设施即代码和自动化框架经验；了解安全、可扩展性和性能优化原则。

任职要求

学士学位，计算机科学、工程或相关领域；4-8年SRE、DevOps、平台工程或基础设施角色经验。

CareerXperts Consulting 招聘 Site Reliability Engineer 在印度 | LinkedIn

职位描述

任职要求

福利待遇

公司介绍

应聘流程

相似职位

Jobgether 招聘手把手CTO——AI优先工程德国 | LinkedIn

Security Engineer

人工智能技术/解决方案架构师

Globaldev Group 招聘 AI/ML 工程师（波兰） | LinkedIn

CareerXperts Consulting 招聘 Site Reliability Engineer 在印度 | LinkedIn

职位描述

任职要求

福利待遇

公司介绍

应聘流程

相似职位

Jobgether 招聘手把手CTO——AI优先工程 德国 | LinkedIn

Security Engineer

人工智能技术/解决方案架构师

Globaldev Group 招聘 AI/ML 工程师（波兰） | LinkedIn

Jobgether 招聘手把手CTO——AI优先工程德国 | LinkedIn