SEO
$2000 - $4500 / month
加载中...
职位描述:即时金融发行即服务(IFIaaS)云平台跨越多个本地环境。高级系统可靠性工程师将在确保平台的可靠性、可扩展性、安全性和运营卓越性方面发挥关键作用,这些环境分布在不同地理区域。鉴于数据中心的不对称性,SRE将设计和操作系统,优先考虑本地高可用性,同时确保有效、测试和合规的故障转移方案。该角色包括负责平台 uptime、环境管理、网络和应用程序可靠性、可观测性、自动化成熟度、合规性和运营卓越性。职责包括:负责可用性(99.9%)、延迟、错误率和服务质量的SLO/SLI;设计/操作端到端可观测性:指标、日志、跟踪、合成检查、真实用户监控(RUM);对服务(Windows服务、API、后台任务)进行结构化日志和跟踪上下文仪器;构建健康探测器和SLA监控器用于关键交易和跨服务依赖;使用各种指标(如uptime、延迟、错误率、吞吐量、可用性)监控系统问题;部署和维护监控和轮班工具(如Splunk on-call、Prometheus、Datadog等);领导事件响应(分诊、沟通、协调、实时缓解)并进行无责后验分析;维护和持续改进运行手册、升级路径、轮班制度和 paging 策略;实施 MTTA/MTTR 减少计划;建立战 room 协议并确保事件期间的利益相关者更新;预测计算、存储、网络需求,跟踪头寸与增长和峰值模式;进行性能分析和瓶颈分析(CPU、内存、I/O、线程池、连接池);优化 VMware(DRS、亲和规则、预留)和 Windows VM 调整(内核、TCP 栈、网卡);验证扩展策略(横向 vs 垂直)并实施自动扩展;标准化 gold images、配置基线和 desired state for Windows Server(PowerShell DSC 或等价物);管理补丁(操作系统、中间件、运行时)与维护窗口对齐到错误预算;确保备份、快照、恢复策略满足 RPO/RTO;定期测试恢复;维护安全基线(CIS 基准 for Windows/VMware)、漏洞管理、补丁节奏;支持合规审计(PCI-CP、PCI-DSS、SOC 2/ISO 270_context),产生证据(配置、日志、访问审查),并修复缺口;自动化部署(VM 模板、DSC/Ansible for Windows、Terraform for VMware)和配置漂移检测/修正;构建运行手册以减少工作量(部署、扩展、回滚等);创建可靠性护栏(预飞行检查、变更冻结规则、政策控制)作为代码;持续重构脚本/运行手册为 idempotent 自动化;与开发团队和其他利益相关者合作识别潜在风险,如安全漏洞、性能瓶颈、部署问题或配置错误;实施各种风险缓解策略,如补丁、备份、冗余、加密或测试;与产品团队和其他团队合作了解用户需求、期望和满意度;指导工程师在 SRE 原则、事件处理和可靠性导向设计方面;领导知识共享、运行手册质量、后验文化(无责、行动导向);为生产问题提供轮班支持以确保系统 24/7/365 可用性。
基本要求:5年以上SRE、DevOps或软件工程角色经验,支持分布式、生产级环境,具备故障排除微服务、Windows/VMware系统和本地混合基础设施的强技能;具备自动化和可观测性经验,包括Terraform/Ansible/DSC、CI/CD流水线、日志/指标/跟踪系统以及企业监控工具(如Datadog、Prometheus或Splunk);具备基础设施自动化工具(Terraform、Ansible、Jenkins、Octopus、PowerShell DSC等)的演示能力;精通VMware、Windows Server管理、网络基础和系统级性能分析;具备操作和故障排除企业微服务、API和分布式应用堆栈在本地/混合基础设施中的经验;必须具备:能够提供轮班生产支持以确保24/7/365系统可用性。
福利待遇:无明确提及
Entrust 通过全球范围内的可信身份、支付和数据保护解决方案,使世界安全运行。如今,人们要求无缝安全体验,无论是跨越国界、进行购买还是访问企业网络。凭借 unmatched 的数字安全和凭证发行解决方案,难怪世界上最受信赖的组织信任我们。
应聘流程:无明确提及
注册并登录后即可查看
$2000 - $4500 / month
$3000 - $6500 / month
年薪20k-50k,负责区块链生态渠道拓展与合作伙伴运营
VIP 成员成功专员 关于 Wellnite Wellnite 是一个快速发展的心理健康平台,帮助人们获得治疗、精神科和 24/7 AI 驱动的心理健康支持。我们与主要保险计划合作,专注于让心理健康护理更简单、更快捷且更有人性。