负责服务可靠性：定义/跟踪 SLI/SLO，并推动关键服务的持续改进。

开发自动化与内部工具（如使用 Go/Python），涵盖部署、回滚、配置与集群运维。

优化 CI/CD 流水线（灰度、蓝绿、渐进式发布），确保安全高效的版本发布。

实施与维护可观测性体系（Prometheus/Grafana/OpenTelemetry 的指标、日志、链路追踪），并建立有效告警机制。

主导/参与故障响应、根因分析与事故复盘；提升系统抗故障能力。

执行容量规划与性能优化，确保高吞吐、低延迟工作负载的稳定运行。

与安全团队协作，管理密钥/机密信息（Vault、KMS、HSM）并强化基础设施安全。

运维和监控区块链全节点及 RPC 服务，规划升级方案并集成至生产系统。

扎实的 Linux 与 Kubernetes 使用经验，具备 DevOps/SRE 背景及软件工程思维。

熟练掌握容器、CI/CD 工具及基础设施即代码（Terraform、Helm）。

具备自动化/工具开发能力（优先 Go，也接受 Python）。

理解网络、分布式系统与微服务架构模式。

熟悉区块链节点（Ethereum、Solana、Bitcoin 等）的运维要求。

具备强大的调试能力、责任心和跨团队沟通能力。

资深候选人至少 3 年支持生产系统的 DevOps/SRE 经验。

薪资待遇：$3,000 - 5,000

薪酬福利：$3000 - $5000 / month

A scalable and the first Bitcoin-native data availability layer, secured by Bitcoin, for the Bitcoin community.

运维工程师

Nubit