高级运维工程师( C 端方向)
1 、系统稳定性保障:负责 App 生产环境的日常运维、监控、故障排查与应急响应,确保服务 SLA 达到 99.9%以上。 2 、云平台与基础设施管理:管理和优化在公有云上的服务架构,包括但不限于计算、网络、存储及数据库等核心服务。 3 、CI/CD 与容器化:设计、维护和优化基于 Kubernetes 的容器化部署平台,完善前后端 CI/CD 流水线,实现快速、安全、自动化的应用交付
加载中...
1.负责公司底层基础架构(云原生、中间件、OS 、网络、存储、服务治理)的稳定性架构设计、高可用方案落地与风险治理。
2.构建全链路压测、混沌工程、容量规划、故障自愈体系,主动发现并解决架构单点、性能瓶颈、级联故障风险。
3.牵头核心系统重大故障应急处置、疑难问题根因定位与复盘整改,建立全生命周期稳定性保障机制。
4.设计 SLA/SLO/SLI 指标体系,搭建监控告警、可观测平台,推动稳定性自动化、标准化建设。
5.开展底层架构性能调优、容灾多活、依赖治理,赋能研发团队,提升整体系统稳定性水平。
1.本科及以上,计算机相关专业,3 年 + 分布式系统、SRE 、底层架构、稳定性保障工作经验。
2.精通 Linux 系统、云原生( K8s/Docker )、主流中间件、网络原理,具备底层问题排查与调优能力。
3.有压测、混沌工程、限流熔断、灾备切换、故障自愈落地实战经验,熟悉可观测与监控体系。
4.掌握 Go/C++/Java/Python 任一语言,具备工具开发与自动化能力。
5.抗压能力强,有大型核心系统故障处置经验,责任心与 owner 意识突出。
单休,10 点下班,需要来抗事,抗压,30-60k 区间。
上海徐汇滨江办公。
注册并登录后即可查看
1 、系统稳定性保障:负责 App 生产环境的日常运维、监控、故障排查与应急响应,确保服务 SLA 达到 99.9%以上。 2 、云平台与基础设施管理:管理和优化在公有云上的服务架构,包括但不限于计算、网络、存储及数据库等核心服务。 3 、CI/CD 与容器化:设计、维护和优化基于 Kubernetes 的容器化部署平台,完善前后端 CI/CD 流水线,实现快速、安全、自动化的应用交付
负责 Kubernetes 集群的日常运维、监控及优化,保障集群的高可用性与稳定性; 及时响应并处理线上故障,快速定位问题并恢复业务,确保服务的连续性; 参与业务系统的部署、上线、变更及容量评估,制定并演练应急预案; 持续优化运维流程与工具链,提升运维自动化水平。 熟悉 Python/Shell/Golang 等至少一种编程语言,具备实际项目开发经验; 具
负责拼多多容器平台的工程和产品化建设,构建业内一流的超大规模资源管理和调度系统,解决业务和集群规模增长带来的可用性、稳定性以及性能问题; 服务于公司内部多种业务,提供针对不同计算场景的通用框架和解决方案; 以数据驱动的方式,通过技术手段提升资源调度效率、提高集群和节点的资源利用率; 负责容器平台相关新技术的架构演进,包括但不限于在离线混布、容量托管、安全容器、Serverl
The Role Join a forward-thinking team building intelligent, AI-powered applications that connect users with advanced language models and autonomous agents. We're seeking a skilled Frontend Eng