职位描述
作为 Infra 团队的核心成员,你的目标不是简单的维护 K8s 集群,而是 构建支撑大规模模型进化的机器学习平台:
- AI 算力底座:研发 AI 异构计算软件栈,结合高性能网络( RDMA/RoCE )、缓存技术与 GPU 架构,实现训练/推理全链路优化。
- 云原生 AI 套件:深度定制 K8s 调度器( Volcano/Kubeflow ),解决大模型训练中的资源碎片化、断点续训、弹性扩缩容难题。
- 运行时优化:针对容器运行时(RunC/Kata/MicroVM)进行内核级优化,为高并发推理场景提供极致的资源隔离与稳定性。
- 软硬协同:深入理解自研机器人本体硬件,让基础设施不仅能跑通代码,更能高效驱动物理世界的机械臂与传感器。