职位描述

我们正在寻找一位有经验的系统可靠性工程师，负责构建和操作下一代AI推断平台的基础设施。在该角色中，您将负责全球分布式GPU基础设施的可靠性、可扩展性和性能，该基础设施服务于具有高可用性和低延迟的生产工作负载。

任职要求

基础设施即代码（IaC）：使用Terraform和集群配置管理自动化基础设施部署。管理本地和超大规模集群的Kubernetes经验是必需的。
网络与连接性：精通L4/L7负载均衡、API网关和BGP/Anycast路由配置，以管理分布式边缘位置的流量和故障转移。
Kubernetes Mastery：深度掌握大规模生产级Kubernetes。这包括集群生命周期管理、高级调度（使用污点、容忍、节点亲和和自定义调度器为GPU工作负载）、以及控制平面/数据平面故障排查。
Nvidia GPU栈：有经验（首选）或对Nvidia硬件（H100/B200/RTX6000）和所需软件栈的理解。这包括驱动程序、CUDA、NVLink配置，以及与TensorRT-LLM、vLLM或SGLang等库的工作。
系统在大规模下的可靠性：实施99.99%可用性策略的经验，包括区域故障转移、自动化修复剧本和自愈系统。

福利待遇

无

公司介绍

AI Fabrik 构建高性能令牌的边缘推断交付网络，从网格到令牌的更快上市时间。我们的使命是构建企业已经拥有的推断基础设施——接近用户、接近云，并且对实时工作负载具有极高的容错性。我们是建设者、架构师、工程师和研究人员，我们以快节奏工作，严谨对待现实世界中的问题。

应聘流程

无

系统可靠性工程师

职位描述

任职要求

福利待遇

公司介绍

应聘流程

相似职位

招聘 Cloud / DevOps 工程师 (SRE) – MWS

Curtis King 聘请高级 Linux 管理员/Level 3 工程师 - (远程) 为美国客户在菲律宾提供支持 | LinkedIn

SearchApi 需要 Senior基础设施工程师在哥伦比亚 | LinkedIn

SearchApi 需要一名高级基础设施工程师（丹麦）| LinkedIn

系统可靠性工程师

职位描述

任职要求

福利待遇

公司介绍

应聘流程

相似职位

招聘 Cloud / DevOps 工程师 (SRE) – MWS

Curtis King 聘请高级 Linux 管理员/Level 3 工程师 - (远程) 为美国客户在菲律宾提供支持 | LinkedIn

SearchApi 需要 Senior基础设施工程师 在哥伦比亚 | LinkedIn

SearchApi 需要一名高级基础设施工程师（丹麦）| LinkedIn

SearchApi 需要 Senior基础设施工程师在哥伦比亚 | LinkedIn