职位描述

1.负责公司底层基础架构（云原生、中间件、OS 、网络、存储、服务治理）的稳定性架构设计、高可用方案落地与风险治理。

2.构建全链路压测、混沌工程、容量规划、故障自愈体系，主动发现并解决架构单点、性能瓶颈、级联故障风险。

3.牵头核心系统重大故障应急处置、疑难问题根因定位与复盘整改，建立全生命周期稳定性保障机制。

4.设计 SLA/SLO/SLI 指标体系，搭建监控告警、可观测平台，推动稳定性自动化、标准化建设。

5.开展底层架构性能调优、容灾多活、依赖治理，赋能研发团队，提升整体系统稳定性水平。

任职要求

1.本科及以上，计算机相关专业，3 年 + 分布式系统、SRE 、底层架构、稳定性保障工作经验。

2.精通 Linux 系统、云原生（ K8s/Docker ）、主流中间件、网络原理，具备底层问题排查与调优能力。

3.有压测、混沌工程、限流熔断、灾备切换、故障自愈落地实战经验，熟悉可观测与监控体系。

4.掌握 Go/C++/Java/Python 任一语言，具备工具开发与自动化能力。

5.抗压能力强，有大型核心系统故障处置经验，责任心与 owner 意识突出。

单休，10 点下班，需要来抗事，抗压，30-60k 区间。

上海徐汇滨江办公。