高级质量保证工程师(后端)
关于Airalo Alo!Airalo是全球首个eSIM商店,帮助人们在200多个国家和地区连接。我们正在打造下一个颠覆电信行业的数字服务。
加载中...
我们的AI平台在数据生成地运行——在政府设施内部和网络边缘,而非超大规模云服务。这意味着基础设施必须无懈可击:GPU集群必须正确配置,Kubernetes工作负载必须高效调度跨异构计算,存储必须满足AI训练和推理的吞吐量需求,网络必须能处理大规模高带宽、低延迟传感器数据。作为MLOps/AI基础设施工程师,你将负责所有这些。你将架设、配置和操作本地计算和GPU基础设施,构建和维护Kubernetes集群,设计连接边缘节点到核心计算的网络架构,实施MLOps流水线将模型从开发到生产。你将与AI/ML工程师、架构师和现场客户技术团队紧密合作,确保平台在常被隔离、物理安全且受严格政府合规要求的环境中可靠运行。
6年以上基础设施工程经验,至少3年管理GPU计算集群或HPC环境的生产经验。深入掌握NVIDIA GPU基础设施:驱动生命周期管理、CUDA、DCGM、MIG、NVLink拓扑和Kubernetes上的NVIDIA GPU Operator。生产级Kubernetes管理经验:集群部署、升级、CNI/CSI配置、RBAC和日常运维。强网络基础:BGP、VLAN分段、RDMA/RoCE或InfiniBand配置、负载均衡和防火墙策略管理。软件定义存储(Ceph、Rook-Ceph或MinIO)在AI/HPC工作负载中的经验——性能调优、容量规划和故障恢复。MLOps经验:模型服务基础设施(Triton或等效)、实验跟踪(MLflow或Kubeflow)和GitOps模型部署流水线。了解NIST SP 800-171控制并能将其转化为具体基础设施配置和审计证据。Terraform或Ansible等基础设施即代码工具的熟练使用。强Linux系统管理员技能(RHEL/Rocky Linux或Ubuntu)包括内核调优、存储I/O优化和systemd服务管理。
全面的医疗、牙科和视力保险;401k计划;带薪假期;更多福利!
Centific是一家致力于政府和企业AI基础设施解决方案的科技公司,专注于高安全性和高性能计算需求。
注册并登录后即可查看
关于Airalo Alo!Airalo是全球首个eSIM商店,帮助人们在200多个国家和地区连接。我们正在打造下一个颠覆电信行业的数字服务。
neoBIM是一家尖端初创公司,利用AI驱动的建筑信息建模(BIM)技术变革建筑行业。由行业先驱共同创立,公司致力于使BIM更智能、更快和更协作。随着团队的扩大,neoBIM提供创新的工作环境、灵活的文化以及参与全球项目的机会。
关于LatAm Hire,LatAm Hire专注于连接企业与顶尖人才,以满足其独特的运营需求。凭借对卓越的承诺,LatAm Hire简化了构建专门团队的过程,以促进企业成功。
关于Revolut 人们渴望拥有更多金钱的掌控力。自2015年起,Revolut致力于通过创新产品帮助7000万客户实现财务自由。技术团队构建支撑Revolut发展的系统和体验,寻找能编写高质量代码、构建金融系统解决方案的Python工程师。