Koda Health 正在招聘一名高级基础设施与安全工程师,全面负责我们生产系统的可靠性、安全性和运行健康状况。
你将是确保平台稳定运行、安全可控且可观测的关键负责人——工作内容从 AWS 基础设施和部署流水线,到事故响应、安全合规和生产监控全覆盖。你会直接与 CTO 以及一支小型工程团队紧密合作。
这是一个高度动手、责任极大的岗位。我们在 AWS 上运行多区域的医疗健康平台,有严格的在线可用性要求,同时需要满足 HIPAA 义务和 SOC 2 合规要求。你将接手一套成熟的 CDK 代码库,并在此基础上进行扩展与加固,构建监控和事故管理体系。
我们也希望你能对业务代码有所贡献,并尽可能自动化运营相关工作。你不会是一名全职软件工程师,但需要能熟练使用 Claude Code 等 AI 编程工具,提交小型 TypeScript PR,分流和处理 Sentry 错误、修复线上问题,以及搭建自动化监控、分级处理及基础设施健康检查任务。
大致工作内容占比
- 60–70% 基础设施、架构、可靠性与监控
- 10–20% 安全、合规和供应商问卷
- 5–10% TypeScript 代码贡献(缺陷修复、小功能、Sentry 分流等)
【你将负责的工作】
- 生产可靠性与可观测性
- 全权负责两个 AWS 区域内生产环境的运行健康
- 调查生产问题,主导根因分析并推动问题彻底解决
- 构建并维护可实时反映应用健康状况的仪表盘,包括队列深度、API 延迟和错误率等
- 监控 SQS/SNS 队列健康情况、死信队列以及事件处理流水线
- 将可观测性扩展到 CloudWatch 以外,评估并落地分布式追踪、APM 和日志聚合方案
- 管理并监督每周生产环境发布
- 负责成本监控和告警(预算告警、Cost Explorer 等)
- 改进自动化的在线率和 SLA 报表
- AWS 基础设施与 CDK
- 全面负责并持续演进基于 CDK 定义的所有 AWS 基础设施
- 牵头推进将 100% 云基础设施纳入 CDK 管理
- 管理并优化 Lambda、ECS Fargate、Elastic Beanstalk、S3、CloudFront、SNS、SQS、EventBridge、WAF、Cognito 等服务
- 支持多区域高可用,制定灾备计划以及备份/恢复策略
- 改善跨区域复制和自动化故障切换
- 管理部署流水线、发布流程和数据库迁移安全性
- 支持并优化用于分析和产品功能的数据管道
- 制定我们在规模化场景下的软件构建、部署与运维标准
- 安全、合规与加固
- 我们是一家医疗健康公司。HIPAA 和 SOC 2 不是形式,而是日常运行的标准。你将全面负责基础设施的安全态势。
- 以强安全思维维护并加固 AWS 基础设施
- 负责漏洞修复及相应 SLA 时限的执行
- 协助填写安全问卷以及应对供应商安全评估
- 管理并优化 WAF 规则、安全组、IAM 策略和网络配置
- 负责 SecurityHub、AWS Config、VPC Flow Logs 和 CloudTrail 等安全与审计服务
- 支持 GuardDuty 恶意软件扫描和 S3 上传安全
- 确保基础设施层面符合 SOC 2 和 HIPAA 要求
- 管理密钥、密文、密钥轮换和访问控制
- 定期对基础设施及应用配置进行安全审查
- 后端代码贡献
- 你不是全职开发,但可以借助 AI 编码工具交付一些代码。
- 分流并修复由 Sentry 暴露的生产错误
- 为后端服务提交小型 TypeScript PR
- 调试跨基础设施与应用代码的复杂线上问题
- 参与架构讨论,尤其是与基础设施和部署相关的议题
- 【任职要求】
- 至少 6 年在 AWS 上构建和运维生产系统的经验
- 丰富的 AWS CDK 实战经验(我们使用 TypeScript 版本的 CDK)
- 对核心 AWS 服务有深入理解:Lambda、ECS、S3、CloudWatch、SNS、SQS、IAM、VPC、WAF 等
- 有搭建和管理监控、告警和事故管理体系的经验
- 在受监管环境中有安全加固与合规经验(如 HIPAA、SOC 2 或类似规范)
- 具备 TypeScript 或 Node.js 的工作能力,足以阅读代码库、提交 PR 并排查线上问题
- 有 CI/CD 流水线经验(CodePipeline、GitHub Actions 或类似工具)
- 能在小团队中端到端负责生产系统,并作为该领域专家
- 较强的英文读写与口头沟通能力(包括应对安全问卷等)
- 必须常驻美国,且能在 CST/EST 时区工作(合同要求)
- 【加分项】
- 有医疗行业经验(FHIR、HL7v2、Epic/Cerner 集成等)
- 有多区域 AWS 架构和灾备经验
- 有 MongoDB 运维与性能优化经验
- 有 AWS 成本优化相关经验
- 熟悉 Claude Code 等 AI 辅助开发工具
- 【职位福利】
- 年薪 160,000–170,000 美元
- 完全远程办公(需在美国境内)
- 灵活、无限制带薪休假政策
- 优质的医疗、牙科与视力保险
- 401k 退休计划选项
- 每年个人发展预算,可用于书籍、课程、培训等
- 办公设备配置预算
- 每年公司及团队线下活动
- 最新款 MacBook 和企业级工具(如 Claude Code 等)
- 有机会接触基础 AI 模型的强化学习(RL)和监督微调(SFT)实战工作
- 清晰的晋升发展路径(个人贡献者:Staff/Principal;管理路径:EM/Director)