系统可靠性工程师 - 可观察性
CluePoints重新定义临床试验运行方式,作为风险基于质量管理(RBQM)和数据质量监控软件的领先提供商,利用先进统计学、人工智能和机器学习确保临床试验数据质量。寻找具备可观测性工程经验的系统可靠性工程师,负责提升平台和客户应用的端到端可观测性,专注于前端和真实用户监控(RUM)。
加载中...
作为Topstep的Staff Platform Engineer,您将设定技术方向,指导整个工程组织在基础设施、可靠性和运营卓越性方面的实践。该角色结合了深厚的基础设施专业知识与SRE领导力,您将能够熟练处理Terraform模块和Kubernetes清单,同时定义SLOs、塑造事件响应文化,并指导工程师在生产环境中拥有责任。您将负责AWS基础设施、可观测性堆栈和平台工具的策略,同时推动使产品团队能够快速且有信心地发布。您将影响跨团队的架构决策,解决阻碍快速诊断生产问题的缺口,并构建一个成熟、统一的平台工程职能的基础。该角色适合那些既能带来动手技术深度又具有建设者心态的人,他们兴奋于从零定义最佳实践,将可靠性融入工程文化,并塑造在快速成长的金融科技公司中运营卓越的面貌。
7年以上在平台工程、SRE或基础设施工程方面的专业经验,具有在多个团队中规模化实践的显著影响。具有AWS基础设施(EKS、EC2、RDS/Aurora、VPC、ALB/NLB、CloudFront、SQS)运行生产服务的深度经验。精通Datadog用于端到端可观测性(指标、APM、日志、分布式追踪)并构建警报,以捕捉真实问题而不引起疲劳。有构建和维护CI/CD流水线(GitHub Actions、CodePipeline或类似)的经验,编写自动化(Bash、Python)并参与平台工具的建设。精通Kubernetes在生产集群的操作、网络、安全、扩展策略和GitOps工作流。具有分布式系统、网络、数据库性能和调试复杂系统故障的坚实基础。熟悉Terraform用于多账户、多环境基础设施管理。有通过文档、工具、指导和技术领导影响工程文化的经验。具备优秀的沟通技能,能够向各种受众解释复杂系统行为、权衡和务实决策,平衡长期平台愿景与即时业务需求。
Topstep提供远程或混合的工作环境,鼓励协作,通过会议保持摄像头开启并维护强大的Slack沟通环境。提供七天公司支付假期和慷慨的家庭假期,带薪假期优先。为全职员工提供有竞争力的401(k)匹配、健康、牙科和视力保险。鼓励休假,带5天连续休假的奖金。Topstep提供食品和杂货预算,并资助健康和福祉。
注册并登录后即可查看
CluePoints重新定义临床试验运行方式,作为风险基于质量管理(RBQM)和数据质量监控软件的领先提供商,利用先进统计学、人工智能和机器学习确保临床试验数据质量。寻找具备可观测性工程经验的系统可靠性工程师,负责提升平台和客户应用的端到端可观测性,专注于前端和真实用户监控(RUM)。
关于Telnyx Telnyx是行业领导者,我们不仅在想象全球连接的未来,我们正在建造它。从设计和放大私有、全球、多云IP网络的范围...
About The Job We are looking for a senior site reliability engineer to join the Cloud FinOps team at Hopper. We manage a large infrastructure in Google Cloud that is used by hundreds of engineers to provide a first class...
Telnyx是行业领导者,我们正在构建全球连接的未来。从构建私有、全球、多云IP网络到通过直观API带来超本地边缘技术,我们正在塑造无缝连接人、设备和应用的新时代。