职位描述

Retailogists是一家处于零售咨询与技术交汇点的快速成长型初创公司，结合深厚的零售领域专业知识与大数据、全栈工程和AI/ML的技术卓越。我们的客户范围从快速扩展的数字品牌到大型多门店零售商。我们是一支灵活的科技咨询和建设团队，正在寻找一位Senior Spark工程师，专注于分布式数据处理。如果调整一个运行异常的Spark作业是你下午的愉快时光，我们希望与你交谈。作为我们的Spark专家，你将扮演数据平台重型层的领导角色：管道，将大量零售数据移动、转换和重塑，用于内部工具和面向客户的产品。目前大部分运行在AWS Glue上，你将是我们需要快速、可靠且成本高效的那个人。职责包括：设计、构建和维护大规模Spark管道（AWS Glue PySpark和/或Scala）。调整Spark作业的性能和成本——分区、分组、连接、缓存、执行程序大小等。调试和稳定生产Spark工作负载，包括溢出、偏斜和OOM问题。在S3基于的数据湖（Parquet、Iceberg、Delta或Hudi）上构建批处理和增量ETL/ELT模式。将Glue与整个AWS数据栈（S3、Athena、Lake Formation、Step Functions、EMR）集成。建立Spark代码的工程标准——测试、模块化、重用性和Glue作业的CI/CD。与分析师、数据科学家和客户团队合作，将生产数据放在需要的地方。我们寻找（必备条件）：5年以上专业数据工程经验，重点在Spark。深入的Spark经验：你理解执行模型、Catalyst优化器和如何阅读Spark UI找到真正的瓶颈。在AWS Glue上的强大生产经验——Glue作业、Glue Catalog、爬虫、书签和相关怪癖。PySpark熟练（Scala是加分项）。熟悉列式格式和现代数据湖表格式（Parquet、Iceberg、Delta或Hudi）。坚实的SQL基础。nice to have：云数据仓库（Redshift、Snowflake、BigQuery）经验；熟悉dbt和语义层建模；熟悉BI工具（Metabase、Looker Studio、Power BI等）；分析工程或BI工作流背景；编排经验（Airflow、Step Functions、Dagster）；零售或电子商务数据经验。

任职要求

5年以上专业数据工程经验，重点在Spark。深入的Spark经验：你理解执行模型、Catalyst优化器和如何阅读Spark UI找到真正的瓶颈。在AWS Glue上的强大生产经验——Glue作业、Glue Catalog、爬虫、书签和相关怪癖。PySpark熟练（Scala是加分项）。熟悉列式格式和现代数据湖表格式（Parquet、Iceberg、Delta或Hudi）。坚实的SQL基础。

数据工程师（Spark专家）

职位描述

任职要求

福利待遇

公司介绍

应聘流程

相似职位

客户支持

BruntWork 雇佣客户支持团队经理 | LinkedIn

客户成功经理（远程）

客户服务管理员