职位描述
1、负责开发、优化、和运维大规模分布式 LLM 训练系统,为 AI 驱动科学发现提供动力;
2、与研究人员紧密合作,搭建、调试并维护后训练及强化学习工作流;
3、构建工具并直接支持前沿探索的模型训练。通过持续的自动化建设替代人工流程。完善内部基础设施,致力于提升研发效率与体验。为公司的其余科学家、AI研究员及工程师的日常工作提供弹药
4、与产品和其他工程团队合作,打通拥有科学智能的 LLM 到"AI科学家”的开发链路;
任职要求
1、硕士及以上学历,有优秀的工程能力,开创或维护过有影响力的开源项目
2、工作方向与 LLM 的后训练和 RL高度相关,能搭建并扩展 LLM 所需要 RL环境的 infra
3、有超百卡训练模型的经验和 5D 并行大模型训练经验(数据并行[DP]、张量并行[TP]、流水线并行[PP]、序列并行 [SP]、和针对 MOE 的专家并行 [EP])
4、有丰富的分布式训练框架(如 Megatron-LM,DeepSpeed,TorchTitan)的实操经验,并优化过大规模混合专家模型(MOE)的训练吞吐量
5、开放简单,沟通顺畅,合作能力强,对先进技术充满热情
三、加分项:
1、在著名大厂基座模型组、大模型公司、和顶尖研究院有工作经验;
2、对后训练和 RL 算法框架有自己独到的见解;