Solvd, Inc. 雇用 Infrastructure / Site Reliability Engineer (SRE) 在 Ukraine | LinkedIn
Solvd Inc. 是一家快速增长的 AI 原生咨询和技术服务公司,致力于为企业在云、数据、软件工程和人工智能领域提供转型解决方案。我们与行业领先组织合作,设计、构建并实施技术解决方案,以推动可衡量的业务成果。
加载中...
设计、部署和维护GPU加速的基础设施;自动化AI工作负载的部署、扩展和故障转移;通过Prometheus、Grafana和分布式追踪监控GPU利用率、内存和作业延迟;解决多集群、多区域环境中的GPU驱动、CUDA运行时和容器编排问题;与ML工程师协作优化作业调度、资源隔离和节点亲和性;定义并执行AI基础设施的SLO/SLI,自动化值班流程并推动故障后复盘。
必须:Kubernetes、Prometheus、Terraform、Ansible、NVIDIA GPU Operator;优先:ArgoCD、Slack/Opsgenie告警、GPU性能分析工具
直接参与全球LLM和HPC工作负载的基础设施建设,与深度技术AI/ML工程师紧密合作,拥有自主权架构和扩展基础设施
注册并登录后即可查看
Solvd Inc. 是一家快速增长的 AI 原生咨询和技术服务公司,致力于为企业在云、数据、软件工程和人工智能领域提供转型解决方案。我们与行业领先组织合作,设计、构建并实施技术解决方案,以推动可衡量的业务成果。
我们正在寻找一名 Senior DevOps / Site Reliability Engineer (SRE) 加入一个负责构建和操作高度可扩展、安全且可靠的云原生平台的团队。这个角色适合对基础设施自动化、平台可靠性、可观测性和运营 excellence 感兴趣的人。
关于Morpho Morpho是一家领先的去中心化金融(DeFi)借贷协议,已从Ribbit Capital、a16z crypto、Coinbase Ventures、Variant、Brevan Howard、Pantera、Blocktower和其他50家机构筹集了7000万美元...
💻 Ework Group – 成立于2000年,纳斯达克斯德哥尔摩上市,拥有约13000名自由职业者 – 我们是总人才解决方案提供商,与私营和公共部门客户及专业人士合作,建立可持续的人才供应链。