职位描述
1.负责公司底层基础架构(云原生、中间件、OS 、网络、存储、服务治理)的稳定性架构设计、高可用方案落地与风险治理。
2.构建全链路压测、混沌工程、容量规划、故障自愈体系,主动发现并解决架构单点、性能瓶颈、级联故障风险。
3.牵头核心系统重大故障应急处置、疑难问题根因定位与复盘整改,建立全生命周期稳定性保障机制。
4.设计 SLA/SLO/SLI 指标体系,搭建监控告警、可观测平台,推动稳定性自动化、标准化建设。
5.开展底层架构性能调优、容灾多活、依赖治理,赋能研发团队,提升整体系统稳定性水平。
任职要求
1.本科及以上,计算机相关专业,3 年 + 分布式系统、SRE 、底层架构、稳定性保障工作经验。
2.精通 Linux 系统、云原生( K8s/Docker )、主流中间件、网络原理,具备底层问题排查与调优能力。
3.有压测、混沌工程、限流熔断、灾备切换、故障自愈落地实战经验,熟悉可观测与监控体系。
4.掌握 Go/C++/Java/Python 任一语言,具备工具开发与自动化能力。
5.抗压能力强,有大型核心系统故障处置经验,责任心与 owner 意识突出。