高级运维工程师( C 端方向)
1 、系统稳定性保障:负责 App 生产环境的日常运维、监控、故障排查与应急响应,确保服务 SLA 达到 99.9%以上。 2 、云平台与基础设施管理:管理和优化在公有云上的服务架构,包括但不限于计算、网络、存储及数据库等核心服务。 3 、CI/CD 与容器化:设计、维护和优化基于 Kubernetes 的容器化部署平台,完善前后端 CI/CD 流水线,实现快速、安全、自动化的应用交付
加载中...
能进行技术层面的中英文沟通(对接海外客户和团队)
Atlas Cloud (官网: https://www.atlascloud.ai )是一家快速发展的 AI 基础设施初创公司,专注于模型即服务( MaaS )和基础设施即服务( IaaS )。 公司总部位于纽约,在硅谷、北京和加拿大卡尔加里设有团队,为全球客户提供 大语言模型( LLM )训练、微调与推理服务所需的 GPU 与云基础设施。 我们正在构建面向下一代 AI 应用的高性能计算平台。
注册并登录后即可查看
1 、系统稳定性保障:负责 App 生产环境的日常运维、监控、故障排查与应急响应,确保服务 SLA 达到 99.9%以上。 2 、云平台与基础设施管理:管理和优化在公有云上的服务架构,包括但不限于计算、网络、存储及数据库等核心服务。 3 、CI/CD 与容器化:设计、维护和优化基于 Kubernetes 的容器化部署平台,完善前后端 CI/CD 流水线,实现快速、安全、自动化的应用交付
1.负责公司底层基础架构(云原生、中间件、OS 、网络、存储、服务治理)的稳定性架构设计、高可用方案落地与风险治理。 2.构建全链路压测、混沌工程、容量规划、故障自愈体系,主动发现并解决架构单点、性能瓶颈、级联故障风险。 3.牵头核心系统重大故障应急处置、疑难问题根因定位与复盘整改,建立全生命周期稳定性保障机制。 4.设计 SLA/SLO/SLI 指标体系,搭建监控告警
负责 Kubernetes 集群的日常运维、监控及优化,保障集群的高可用性与稳定性; 及时响应并处理线上故障,快速定位问题并恢复业务,确保服务的连续性; 参与业务系统的部署、上线、变更及容量评估,制定并演练应急预案; 持续优化运维流程与工具链,提升运维自动化水平。 熟悉 Python/Shell/Golang 等至少一种编程语言,具备实际项目开发经验; 具
负责拼多多容器平台的工程和产品化建设,构建业内一流的超大规模资源管理和调度系统,解决业务和集群规模增长带来的可用性、稳定性以及性能问题; 服务于公司内部多种业务,提供针对不同计算场景的通用框架和解决方案; 以数据驱动的方式,通过技术手段提升资源调度效率、提高集群和节点的资源利用率; 负责容器平台相关新技术的架构演进,包括但不限于在离线混布、容量托管、安全容器、Serverl