AI Applied Engineer
关于我们,Plentific 正在重新定义实时房地产管理。我们的使命,是通过“现在世界”的 transformative 旅程引领房地产,使我们能够 empower 房地产专业人士...
加载中...
Moonlite 为运行高强度计算研究、大规模模型训练和 demanding 数据处理工作负载的组织提供高性能AI基础设施。我们提供在我们设施中部署或与您的设施共用的基础设施,提供灵活的按需或预留计算,感觉像您现有数据中心的延伸。我们的AI基础设施专家团队结合裸金属性能与云原生操作简便性,使研究团队和企业能够部署 demanding 的AI工作负载,具有企业级的可靠性和合规性。
您的角色:您将在构建和操作生产级AI基础设施中起关键作用,其核心是深入的Kubernetes专业知识。与我们的系统工程师、网络工程师和平台工程团队紧密合作,您将架构和操作Kubernetes基础设施,该基础设施驱动我们的控制平面并协调计算、存储和网络的规模扩展。此职位要求对Kubernetes内部架构、自定义资源定义(CRDs)、存储和网络集成以及从地面起构建生产级集群(而不是仅在托管环境中部署)有深入理解。您将确保企业级可靠性的同时,建立自动化、可观测性和操作实践。
经验:5年以上在SRE、DevOps或基础设施工程职位中的经验,有在大规模生产基础设施上操作的 proven 经验。
Kubernetes基础设施专业知识:深入的动手经验构建和操作生产Kubernetes集群在裸金属基础设施上——不是在托管集群中部署工作负载。必须理解集群启动、控制平面架构、etcd操作和扩展策略。
Kubernetes内部架构与集成:对Kubernetes内部架构有深入理解,包括自定义资源定义(CRDs)、操作符、控制器、准入网关和调度。经验整合存储(CSI驱动器)、网络(CNI、SR-IOV)和专用硬件(GPU设备插件)与Kubernetes。
Linux系统经验:在Linux系统管理、性能调优、故障排除和生产环境中的自动化方面有坚实基础。
基础设施自动化:熟练使用基础设施即代码工具(Terraform、Ansible、Helm)并构建自动化以减少运营开销。
网络基础:对网络概念有扎实理解,包括IPAM、DNS、DHCP、VLAN/VXLAN、路由、负载均衡和生产环境中的网络问题排查经验。
可观测性与监控:有使用Prometheus、Grafana和集中式日志系统构建和维护全面监控解决方案的经验。
可靠性实践:理解SRE原则,包括SLIs/SLOs/SLAs、错误预算、事件管理和无责后验分析。
脚本与自动化:在Go、Python或Bash中具备强大的脚本技能,用于自动化、工具开发和运营效率。
压力下的问题解决:有在压力下解决复杂问题、有效管理事件和在事件期间清晰沟通的能力。
协作与沟通:出色的沟通技能和跨团队(系统工程师、网络工程师和软件开发者)工作的能力。
我们提供具有竞争力的总薪酬包,包括具有竞争力的基本工资、初创公司股权和行业领先的福利。总薪酬范围为165,000美元至225,000美元,包括基本工资和股权。实际薪酬将根据经验、技能和市场匹配度确定。我们提供丰厚的福利,包括6%的401(k)匹配,全额覆盖的健康保险费用,以及其他全面的福利,以支持您的福祉和成功,随着我们的共同成长。
Moonlite AI 专注于为运行高强度计算研究、大规模模型训练和 demanding 数据处理工作负载的组织提供高性能AI基础设施。
注册并登录后即可查看
关于我们,Plentific 正在重新定义实时房地产管理。我们的使命,是通过“现在世界”的 transformative 旅程引领房地产,使我们能够 empower 房地产专业人士...
关于我们:Drunken Cookies致力于提供高品质饼干,同时维护无缝的数据驱动后端操作。我们正在寻找一名数据与自动化开发人员加入我们的团队,负责优化技术基础设施、自动化流程并构建基于云和AI增强的数据系统。
加入 Nordcloud,成为欧洲云计算革命的一部分。我们帮助客户在超大规模云中创新,实现无缝迁移、高级安全性和数据驱动的成功。目前,我们正在寻找一名 Managed Cloud Engineer 加入我们的团队在波兰。
在Lilly,我们致力于将关怀与发现相结合,为全球人们的生活带来改善。我们是全球医疗保健领域的领导者,总部位于印第安纳州印第安纳波利斯。我们的员工在全球范围内致力于发现和带来改变生命的药物,改善疾病的理解和管理,并通过慈善和志愿服务回馈社区。