职位描述
1 、研究并实现能够在不同规模模型上通用的优化方法(包括但不限于训练范式、正则化、架构改进、优化器、loss 设计、超参优化),验证其在大中小模型上的迁移性与效果;
2 、针对超大规模模型,进行系统级性能优化,包括分布式训练策略、访存优化、通信优化和推理加速,提升训练与推理效率与可扩展性;
3 、负责数据工程与微调流程的建设与迭代,包括高质量训练数据构建、指令微调、偏好/安全对齐及评估体系设计,提升模型在实际任务中的可靠性与一致性;
4 、跟踪前沿研究,评估新技术潜力,推动模型能力边界的拓展并形成可复用的技术沉淀。
任职要求
1 、扎实的计算机科学基础,熟练掌握数据结构与算法,具有良好的工程实现能力;精通 Python ,熟悉 C/C++ 或其他高性能语言者(如 Triton )优先;
2 、熟练使用主流深度学习框架,熟悉分布式训练/调试,及常用训练工具链;
3 、有大模型训练、推理优化或强化学习实践经验,能独立设计并实施实验以验证假设;
4 、良好的沟通协作能力,能和团队一起探索新技术;同时具备较强的问题分析与工程落地能力。
加分项
1 、在主流会议/期刊( NeurIPS/ICML/ICLR/ACL/CVPR 等)发表过相关工作者优先;
2 、有主导或参与高影响力项目、系统化工程落地或高质量论文/开源贡献者优先;
3 、ACM/ICPC 、NOI/IOI 、Top Coder 等比赛获奖者优先。