招聘 Cloud / DevOps 工程师 (SRE) – MWS
招聘 Cloud / DevOps 工程师 (SRE) – MWS
加载中...
我们正在寻找一位有经验的系统可靠性工程师,负责构建和操作下一代AI推断平台的基础设施。在该角色中,您将负责全球分布式GPU基础设施的可靠性、可扩展性和性能,该基础设施服务于具有高可用性和低延迟的生产工作负载。
基础设施即代码(IaC):使用Terraform和集群配置管理自动化基础设施部署。管理本地和超大规模集群的Kubernetes经验是必需的。
网络与连接性:精通L4/L7负载均衡、API网关和BGP/Anycast路由配置,以管理分布式边缘位置的流量和故障转移。
Kubernetes Mastery:深度掌握大规模生产级Kubernetes。这包括集群生命周期管理、高级调度(使用污点、容忍、节点亲和和自定义调度器为GPU工作负载)、以及控制平面/数据平面故障排查。
Nvidia GPU栈:有经验(首选)或对Nvidia硬件(H100/B200/RTX6000)和所需软件栈的理解。这包括驱动程序、CUDA、NVLink配置,以及与TensorRT-LLM、vLLM或SGLang等库的工作。
系统在大规模下的可靠性:实施99.99%可用性策略的经验,包括区域故障转移、自动化修复剧本和自愈系统。
无
AI Fabrik 构建高性能令牌的边缘推断交付网络,从网格到令牌的更快上市时间。我们的使命是构建企业已经拥有的推断基础设施——接近用户、接近云,并且对实时工作负载具有极高的容错性。我们是建设者、架构师、工程师和研究人员,我们以快节奏工作,严谨对待现实世界中的问题。
无
注册并登录后即可查看
招聘 Cloud / DevOps 工程师 (SRE) – MWS
工作时间:美国东部时间(晚上8点 - 早上6点 EST)菲律宾薪资范围:每月2300-2900美元 + 带薪假 菲律宾薪资范围:每月1500-2300美元 + 带薪假 + 奖励 关于BitByBit (BBB)...
我们正在寻找一名可以拥有我们整个云堆栈的基础设施工程师...
我们正在寻找一名能够管理整个云堆栈的基础设施工程师。