系统可靠性工程师 - 可观察性
CluePoints重新定义临床试验运行方式,作为风险基于质量管理(RBQM)和数据质量监控软件的领先提供商,利用先进统计学、人工智能和机器学习确保临床试验数据质量。寻找具备可观测性工程经验的系统可靠性工程师,负责提升平台和客户应用的端到端可观测性,专注于前端和真实用户监控(RUM)。
加载中...
作为DevOps工程师,您将设计和实现可扩展、安全的AWS基础设施,使用基础设施即代码(IaC)方法,同时支持多个客户项目。您可能在构建自动化CI/CD流水线和容器化部署,或实施监控、可观测性和可靠性框架,确保生产系统在大规模下高效运行。您将与解决方案架构师和项目管理人员紧密合作,将客户需求转化为技术解决方案,同时维护高标准的安全性、可靠性和性能。您将与客户技术团队合作,实施DevOps最佳实践,解决复杂基础设施问题,并提供知识转移以确保长期成功。您将平衡多个项目优先级,适应不同客户环境,并贡献于内部工具和方法论的改进。您的工作将直接支持我们的AWS DevOps竞争力,帮助客户实现数字化转型目标。
所需技能:3年以上AWS基础设施和核心服务(EC2、ECS/EKS、Lambda、RDS、S3、VPC、IAM、CloudWatch、Systems Manager)的经验。深入理解AWS网络概念(VPC设计、安全组、NACLs、连接模式)。经验设计高可用性和容错架构,使用AWS Well-Architected Framework原则。了解AWS安全最佳实践和合规标准(SOC 2、HIPAA、PCI-DSS)。精通Terraform或CloudFormation进行基础设施配置和自动化。强大的Git/版本控制实践,包括分支策略。经验构建可重复和模块化的基础设施代码。经验AWS基于的应用程序或工作负载迁移和现代化努力。Hands-on experience building CI/CD pipelines (Jenkins, GitLab CI, GitHub Actions, AWS CodePipeline, or CircleCI)。熟练的Python、Bash或PowerShell脚本技能。经验构建部署策略(blue/green, canary, rolling deployments)。了解Docker和容器化最佳实践。经验Kubernetes/EKS或ECS容器编排。理解微服务和面向服务的架构。经验实施监控和可观测性解决方案(CloudWatch、Prometheus、Grafana、Datadog)。了解日志聚合工具(ELK stack、CloudWatch Logs Insights)。能够定义和工作与SLIs、SLOs和警报策略。经验应用性能监控和分布式追踪。经验管理多个客户项目或工作流同时进行。强大的与技术及非技术利益相关者沟通技能。能力将业务需求转化为技术解决方案。经验文档技术解决方案、运行手册和操作程序。在快速变化的环境中舒适工作。客户面对经验,能够建立信任和可信度。
优先:经验服务器less和事件驱动架构(Lambda、Step Functions、EventBridge)。经验AWS数据库系统(RDS、Aurora、DynamoDB)包括性能调优。了解灾难恢复和业务连续性计划。经验成本优化和FinOps实践。熟悉安全扫描和漏洞管理工具。经验实施服务网格和高级微服务模式。理解容器安全和镜像管理最佳实践。背景在Agile/Scrum环境。经验在咨询/专业服务环境中的基础设施或应用程序现代化。贡献开源项目或技术社区。经验CI/CD成熟度改进和平台工程倡议。AWS认证解决方案架构师-助理(或等价;如果未持有则在90天内必须持有)。AWS认证DevOps工程师-专业(在12个月内必须持有)。Certified Kubernetes Administrator (CKA)。HashiCorp Terraform Associate
3年以上AWS基础设施和核心服务(EC2、ECS/EKS、Lambda、RDS、S3、VPC、IAM、CloudWatch、Systems Manager)的经验。深入理解AWS网络概念(VPC设计、安全组、NACLs、连接模式)。经验设计高可用性和容错架构,使用AWS Well-Architected Framework原则。了解AWS安全最佳实践和合规标准(SOC 2、HIPAA、PCI-DSS)。精通Terraform或CloudFormation进行基础设施配置和自动化。强大的Git/版本控制实践,包括分支策略。经验构建可重复和模块化的基础设施代码。经验AWS基于的应用程序或工作负载迁移和现代化努力。Hands-on experience building CI/CD pipelines (Jenkins, GitLab CI, GitHub Actions, AWS CodePipeline, or CircleCI)。熟练的Python、Bash或PowerShell脚本技能。经验构建部署策略(blue/green, canary, rolling deployments)。了解Docker和容器化最佳实践。经验Kubernetes/EKS或ECS容器编排。理解微服务和面向服务的架构。经验实施监控和可观测性解决方案(CloudWatch、Prometheus、Grafana、Datadog)。了解日志聚合工具(ELK stack、CloudWatch Logs Insights)。能够定义和工作与SLIs、SLOs和警报策略。经验应用性能监控和分布式追踪。经验管理多个客户项目或工作流同时进行。强大的与技术及非技术利益相关者沟通技能。能力将业务需求转化为技术解决方案。经验文档技术解决方案、运行手册和操作程序。在快速变化的环境中舒适工作。客户面对经验,能够建立信任和可信度。
注册并登录后即可查看
CluePoints重新定义临床试验运行方式,作为风险基于质量管理(RBQM)和数据质量监控软件的领先提供商,利用先进统计学、人工智能和机器学习确保临床试验数据质量。寻找具备可观测性工程经验的系统可靠性工程师,负责提升平台和客户应用的端到端可观测性,专注于前端和真实用户监控(RUM)。
关于Telnyx Telnyx是行业领导者,我们不仅在想象全球连接的未来,我们正在建造它。从设计和放大私有、全球、多云IP网络的范围...
About The Job We are looking for a senior site reliability engineer to join the Cloud FinOps team at Hopper. We manage a large infrastructure in Google Cloud that is used by hundreds of engineers to provide a first class...
Telnyx是行业领导者,我们不是在想象全球连通性的未来——我们正在建造它。从构建和放大一个私有、全球、多云IP网络,到通过直观的API将超本地边缘技术带到您的指尖,我们正在塑造无缝连接人、设备和应用的新时代。