我们只接受基于安大略或魁北克的候选人。
音频市场机会
现代广告营销人员通过自动系统分配支出,这些系统解读信号。为了一个渠道能够公平地获得预算,其库存必须对这些系统可读——标准化信号、结构化元数据和机器可读的供应路径。
对于下一代媒体购买,Audience Signal更加关键。自主购买——能够独立解读目标、评估选项、谈判条款和执行活动的系统——正在从概念走向生产。这些系统不像人类计划人员那样浏览库存。它们查询结构化环境,通过机器可读信号评估供应,并跳过无法读取的库存。
我们的使命
Triton Digital构建使音频库存对现代和下一代广告市场可读的基础设施层。我们的平台使广播员、独立播客制作人和流媒体音乐服务能够以与主要平台平等的条件参与自动购买,每月聚合超过1000亿次音频印象,涵盖播客、流媒体和广播电台库存。
听众数据团队是这一使命的核心。我们通过整合数据管理平台(DMPs)、Profiler、GeoIP服务以及任何其他旨在使听众受众持续可发现和可操作的系统来丰富听众资料。
角色
作为我们的MLOps数据工程师,您将是数据科学与生产系统之间的桥梁——确保模型不仅在笔记本中工作,而且在现实世界中茁壮成长。您将设计和自动化CI/CD管道,使用GitHub Actions、Azure Dev Foue或Jenkins等工具。您将用Apache Spark(PySpark和Scala)构建和优化大规模分布式听众数据集的数据处理管道。您将部署和管理Databricks环境,确保高效的集群使用、作业调度和成本优化。您将与数据科学家合作,将机器学习模型集成到可扩展的API或批量处理系统中,这些系统为实时、机器可读的受众信号提供输入。
- 您将从事的工作
- 设计、实施和维护使用GitHub Actions、Azure DevOps或Jenkins等工具的机器学习工作流的CI/CD管道。
- 用Apache Spark(PySpark和Scala)构建和优化大规模分布式听众数据集的数据处理管道。
- 部署和管理Databricks环境,确保高效的集群使用、作业调度和成本优化。
- 与数据科学家合作,将机器学习模型集成到可扩展的API或批量处理系统中,这些系统为实时、机器可读的受众信号提供输入。
- 实施自动化测试、监控和警报,确保机器学习管道的可靠性和可重复性。
- 主导版本控制、模型注册管理和环境可重复性最佳实践。
- 帮助将听众数据基础设施演进为代理兼容的供应——实时、结构化、可查询的数据流,使自主购买系统可以发现和操作,而无需人类干预。
- 您将带来的能力
- 在数据工程、MLOps和DevOps角色中有 proven 经验,专注于自动化和可扩展性。
- 熟练的 Python 编程技能,有 Apache Spark 的实际经验。Scala 是一大优势。
- 在 Databricks 上有高级专业知识,包括 Delta Lake、结构化流、特征工程
- 对 CI/CD 原则和工具(例如 GitHub Actions、Jenkins、Azure DevOps、GitLab CI、ArgoCD)有扎实的理解。
- 熟悉云平台(AWS、Azure 或 GCP)用于数据和 ML 工作负载。
- 有解决问题的心态,能够与跨职能团队紧密合作。
- 有强的架构思维,能够在成本、性能、可扩展性和可维护性之间评估权衡。
- 有容器化和编排环境(Kubernetes / OpenShift)的工作经验,包括数据和 ML 工作负载的部署、扩展和容错。
- 高级英语要求,法语是加分项。
- 对 IAB 数据标准、程序化广告基础设施或 AdTech 数据管道有深入了解是强项。