系统可靠性工程师 - 可观察性
CluePoints重新定义临床试验运行方式,作为风险基于质量管理(RBQM)和数据质量监控软件的领先提供商,利用先进统计学、人工智能和机器学习确保临床试验数据质量。寻找具备可观测性工程经验的系统可靠性工程师,负责提升平台和客户应用的端到端可观测性,专注于前端和真实用户监控(RUM)。
加载中...
我们构建支持大规模人工智能的高性能GPU基础设施。我们的团队设计和操作大型NVIDIA DGX/HGX集群、高速网络以及自动化工具,将复杂硬件转化为可靠的生产级平台。我们直接与硬件打交道:部署节点、调优Linux、集成InfiniBand/RoCE,并构建使大规模AI基础设施可靠、可观测和安全的工具。
7年以上系统、平台或分布式系统工程经验(Staff要求10年以上)。精通Linux:内核模块、sysctl调优、hugepages、容器运行时。有在物理硬件上部署Kubernetes或SLURM的经验。精通Go(首选)或Python进行系统级自动化。深入熟悉NVIDIA GPU生态系统(驱动、CUDA、MIG)。了解InfiniBand或RoCEv2网络和NCCL性能调优。有构建硬件加速环境可观测性流水线的经验。能够解决硬件、网络和编排之间的复杂多层问题。强大的跨团队沟通能力——你是网络、DCOps和软件团队之间的“粘合剂”。
年薪175,000至275,000美元 + 股票期权 + 完整福利
CyberCoders是一家专注于高性能计算和人工智能的科技公司,致力于构建支持大规模人工智能的高性能GPU基础设施。
注册并登录后即可查看
CluePoints重新定义临床试验运行方式,作为风险基于质量管理(RBQM)和数据质量监控软件的领先提供商,利用先进统计学、人工智能和机器学习确保临床试验数据质量。寻找具备可观测性工程经验的系统可靠性工程师,负责提升平台和客户应用的端到端可观测性,专注于前端和真实用户监控(RUM)。
关于Telnyx Telnyx是行业领导者,我们不仅在想象全球连接的未来,我们正在建造它。从设计和放大私有、全球、多云IP网络的范围...
About The Job We are looking for a senior site reliability engineer to join the Cloud FinOps team at Hopper. We manage a large infrastructure in Google Cloud that is used by hundreds of engineers to provide a first class...
Telnyx是行业领导者,我们正在构建全球连接的未来。从构建私有、全球、多云IP网络到通过直观API带来超本地边缘技术,我们正在塑造无缝连接人、设备和应用的新时代。