平台/DevOps工程师(事件驱动平台)
关于Xebia:在超过25年的时间里,我们的全球技术网络为处于AI驱动数字化转型边缘的公司提供了尖端技术和变革性的咨询服务。自2001年以来,我们已成长为一家全服务数字咨询公司,拥有6000多名专业人士,致力于全球扩张。
加载中...
Site Reliability Engineer 负责确保生产系统和基础设施的可靠性、可扩展性和性能。角色专注于构建健壮的平台,自动化运营流程,并在高可用性环境中改进系统稳定性。该角色处于软件工程和基础设施操作的交汇点,需要强大的系统思维、自动化能力以及主动的可靠性工程方法。角色关注领域包括:基础设施可靠性与系统可扩展性、自动化运营工作流和事件管理、监控、可观测性和生产稳定性。关键职责包括:设计、维护和改进高可用性生产系统和基础设施;构建自动化工具和工作流以减少运营负担;监控系统健康状况、性能和可靠性;排查基础设施和应用程序相关的问题;通过日志、指标和监控工具提高系统可观测性;与工程团队合作优化部署和发布流程;支持事件响应、根本原因分析和系统恢复工作;管理基础设施可扩展性、性能优化和可用性倡议;维护基础设施、运营流程和恢复流程的文档。预期成果包括:可靠的、可扩展的基础设施和高系统可用性;更快的事件检测和解决;通过自动化减少运营瓶颈;改进的可观测性和生产系统性能。核心能力包括:对Linux系统、网络和分布式系统有深入理解;有AWS、Azure或Google Cloud等云平台经验;精通Python、Go或Bash等脚本或编程语言;熟悉Kubernetes、Docker和容器编排;有CI/CD流水线和基础设施自动化工具经验;了解Prometheus、Grafana或Datadog等监控和可观测性工具。经验与资格包括:计算机科学、工程或相关领域的学士学位;4-8年SRE、DevOps、平台工程或基础设施角色经验。优先背景包括:支持大规模或高流量生产系统经验;熟悉事件管理和可靠性工程实践;有基础设施即代码和自动化框架经验;了解安全、可扩展性和性能优化原则。
学士学位,计算机科学、工程或相关领域;4-8年SRE、DevOps、平台工程或基础设施角色经验。
注册并登录后即可查看
关于Xebia:在超过25年的时间里,我们的全球技术网络为处于AI驱动数字化转型边缘的公司提供了尖端技术和变革性的咨询服务。自2001年以来,我们已成长为一家全服务数字咨询公司,拥有6000多名专业人士,致力于全球扩张。
公司简介 Guatemaltek是一家立足于危地马拉的前瞻性IT服务公司,致力于为全球企业交付创新性的技术解决方案。我们的使命聚焦于弥合危地马拉未被服务地区与更广泛全球社区之间的差距...
AROBS 正在寻找一名资深 AWS 平台自动化与安全工程师!在这一角色中,您将设计、构建、加固并记录生产上线及外部认证租户隔离 SaaS 环境所需的安保、备份、灾难恢复和合规性基础架构,基于 AWS。
🌟 We’re Hiring: DevOps Engineer 📍 Location: France (Remote) 🕒 Employment Type: Full-Time 💼 Level: Junior – Mid-Level / Mid-Level 📊 About Us We are a technology-driven organization focused on building s...