AWS Agent Core Engineer / DevOps(Observability Focus)
我们正在寻找一位经验丰富的工程师,负责在AWS上构建和增强基于代理的解决方案的可观测性能力。该角色专注于为分布式系统提供深入的可见性,提高可靠性,并实现问题检测和解决的主动性。
加载中...
负责构建和自动化基于Linux的GPU集群环境,改进平台可靠性、监控和事件响应流程,使用Kubernetes、Docker和Slurm支持AI基础设施,开发自动化工具链,与基础设施和硬件团队协作优化运营。
具备站点可靠性工程师或类似基础设施职位经验,精通Linux系统管理员和运维支持,具备Bash和Python的强脚本或编程能力,熟悉Kubernetes、Docker和集群级工具,理解HPC或AI工作负载,具备高可用性和高压生产环境操作经验,具备强大的故障排除、分析和问题解决能力,具有自动化优先 mindset 并热衷于利用AI驱动的运维工具。
注册并登录后即可查看
我们正在寻找一位经验丰富的工程师,负责在AWS上构建和增强基于代理的解决方案的可观测性能力。该角色专注于为分布式系统提供深入的可见性,提高可靠性,并实现问题检测和解决的主动性。
Solvd Inc. 是一家快速增长的 AI 原生咨询和技术服务公司,致力于为企业在云、数据、软件工程和人工智能领域提供转型解决方案。我们与行业领先组织合作,设计、构建并实施技术解决方案,以推动可衡量的业务成果。
我们正在寻找一名 Senior DevOps / Site Reliability Engineer (SRE) 加入一个负责构建和操作高度可扩展、安全且可靠的云原生平台的团队。这个角色适合对基础设施自动化、平台可靠性、可观测性和运营 excellence 感兴趣的人。
关于Morpho Morpho是一家领先的去中心化金融(DeFi)借贷协议,已从Ribbit Capital、a16z crypto、Coinbase Ventures、Variant、Brevan Howard、Pantera、Blocktower和其他50家机构筹集了7000万美元...