稳定性工程师
1.负责公司底层基础架构(云原生、中间件、OS 、网络、存储、服务治理)的稳定性架构设计、高可用方案落地与风险治理。 2.构建全链路压测、混沌工程、容量规划、故障自愈体系,主动发现并解决架构单点、性能瓶颈、级联故障风险。 3.牵头核心系统重大故障应急处置、疑难问题根因定位与复盘整改,建立全生命周期稳定性保障机制。 4.设计 SLA/SLO/SLI 指标体系,搭建监控告警
加载中...
1 、系统稳定性保障:负责 App 生产环境的日常运维、监控、故障排查与应急响应,确保服务 SLA 达到 99.9%以上。
2 、云平台与基础设施管理:管理和优化在公有云上的服务架构,包括但不限于计算、网络、存储及数据库等核心服务。
3 、CI/CD 与容器化:设计、维护和优化基于 Kubernetes 的容器化部署平台,完善前后端 CI/CD 流水线,实现快速、安全、自动化的应用交付。
4 、可观测性体系建设:建设和维护集中式的日志、监控、告警体系,具备从海量数据中快速定位并解决问题的能力。
5 、安全与权限管控:实施和运维基础设施的安全策略、网络准入控制及权限管理体系,保障系统和用户数据的安全。
6 、运维流程与文档:编写和维护运维规范、技术文档及事故报告,推动运维工作的标准化和自动化。
1 、本科及以上学历,计算机相关专业,5 年及以上互联网行业运维开发经验。
2 、具备大型互联网公司背景,并作为运维负责人或核心成员,深度参与过已上线、高并发、海量用户的 C 端产品的运维工作。
3 、精通至少一种主流公有云( AWS/阿里云/GCP )的服务体系,并有丰富的云上资源管理和优化经验。
4 、熟悉 k8s ,具备在生产环境大规模部署、管理和排障的实战经验。
5 、具备优秀的责任心、沟通协作能力、抗压能力和文档撰写习惯。
加分项:
1 、熟悉 Cloudflare 等 CDN 、DDoS 防护、WAF 等接入层服务和优化。
2 、熟悉 Github CI/CD 等自动化部署工具链,能设计高效的 DevOps 流程。
3 、精通 Prometheus 、Grafana 、ELK/EFK 等可观测性技术栈。
4 、对网络安全、权限模型(如 RBAC )有深入理解,有安全运维经验者优先。
为什么选择加入 OneKey ?
行业风口:身处 Web3 与加密货币爆发期,参与定义未来金融基础设施。
技术挑战:接触零知识证明、多链互操作等前沿技术,个人能力快速提升。
影响力机会:产品服务全球用户,工作成果直接推动行业变革。
安全无虞:合规运营,为员工打造安心工作环境。
OneKey 以技术为本、以用户为中心,兼具初创公司的敏捷性与成熟企业的资源实力。如果你渴望在区块链领域深度参与创新,同时享受开放、包容的极客文化,这里将是理想的选择。
更多信息:
1. 公司官网:onekey.so
2. 对外 Wiki: https://onekeyhq.atlassian.net/wiki/spaces/OC/overview
注册并登录后即可查看
1.负责公司底层基础架构(云原生、中间件、OS 、网络、存储、服务治理)的稳定性架构设计、高可用方案落地与风险治理。 2.构建全链路压测、混沌工程、容量规划、故障自愈体系,主动发现并解决架构单点、性能瓶颈、级联故障风险。 3.牵头核心系统重大故障应急处置、疑难问题根因定位与复盘整改,建立全生命周期稳定性保障机制。 4.设计 SLA/SLO/SLI 指标体系,搭建监控告警
负责 Kubernetes 集群的日常运维、监控及优化,保障集群的高可用性与稳定性; 及时响应并处理线上故障,快速定位问题并恢复业务,确保服务的连续性; 参与业务系统的部署、上线、变更及容量评估,制定并演练应急预案; 持续优化运维流程与工具链,提升运维自动化水平。 熟悉 Python/Shell/Golang 等至少一种编程语言,具备实际项目开发经验; 具
负责拼多多容器平台的工程和产品化建设,构建业内一流的超大规模资源管理和调度系统,解决业务和集群规模增长带来的可用性、稳定性以及性能问题; 服务于公司内部多种业务,提供针对不同计算场景的通用框架和解决方案; 以数据驱动的方式,通过技术手段提升资源调度效率、提高集群和节点的资源利用率; 负责容器平台相关新技术的架构演进,包括但不限于在离线混布、容量托管、安全容器、Serverl
The Role Join a forward-thinking team building intelligent, AI-powered applications that connect users with advanced language models and autonomous agents. We're seeking a skilled Frontend Eng