【公司简介】
DEFCON AI 是一家专注于“在干扰中保持韧性”的洞察公司,利用人工智能、数学优化、数据分析和软件工程,为复杂系统提供具备韧性的优化方案。在当今快速变化的环境中,DEFCON AI 的技术帮助客户将业务结果与运营目标对齐,支持更优决策,并帮助客户预判、评估和缓解各类中断带来的影响。
【职位概述】
我们正在招聘一名经验丰富的云基础设施工程师,负责云环境的设计、部署和运维,重点关注虚拟化、自动化和安全。本职位将负责云基础设施的全生命周期管理——从虚拟机的开通和网络架构设计,到基础设施即代码(IaC)部署以及持续监控。
理想候选人具备管理 AWS 和/或 Azure 环境的实践经验,熟悉容器平台运维,能够将复杂的运营需求转化为可扩展且安全的解决方案。有在受监管或强合规行业(如医疗、国防、金融等)工作的经验将是重要加分项。
- 【主要职责】
- 云基础设施与虚拟系统管理
- 管理和维护 AWS 和/或 Azure 环境,包括虚拟机、网络和存储的日常运维
- 管理 VPC、子网、路由表、安全组、NACL 以及各类私有网络结构
- 部署、维护和优化 EC2、RDS、S3、IAM、KMS、Secrets Manager、CloudTrail 等服务
- 构建和管理加固的虚拟机镜像(AMI / golden image),实现一致且可重复的部署
- 实施并支持高可用、自动扩缩容和灾备配置
- 支持多账号或多订阅云治理结构(如 AWS Organizations、Azure Management Groups)
- 基础设施即代码(IaC)
- 使用 Terraform 设计和维护基础设施,包括模块化设计、远程状态管理和 workspace 策略
- 主导或支持从传统 IaC 工具(如 CloudFormation)向现代框架的迁移
- 落实基于策略即代码(policy-as-code)的安全边界,维护受版本控制的基础设施代码仓库
- 构建可复用、安全的基线模块,用于 VPC 架构、IAM 角色、日志、监控和加密配置
- 虚拟化与容器化
- 在云环境中管理虚拟化工作负载,包括容量规划、补丁更新、生命周期管理和成本优化
- 支持 ECS 和/或 EKS 中的容器化工作负载,包括集群管理、网络和镜像安全
- 协助从传统计算形态(如基于 EBS 的实例)向现代容器或无服务器架构迁移
- 为虚拟机和容器化环境实现自动化配置漂移检测与修复
- 自动化与 DevSecOps 集成
- 识别并落实自动化机会,降低人工运维成本、提升团队交付效率
- 将基础设施部署与安全控制集成到 CI/CD 流水线中(GitHub Actions、GitLab CI 或同类工具)
- 实施并维护安全的机密信息管理实践
- 与 DevSecOps 及应用工程团队协作,执行最小权限的 IAM 策略,实现默认安全(secure-by-default)的配置
- 安全、合规与监控
- 为 Linux 和 Windows 虚拟系统应用和维护安全加固基线(如 CIS Benchmarks、DISA STIGs)
- 配置和监控 AWS CloudTrail、GuardDuty、Security Hub、Config 以及集中式日志管道
- 支持与 SIEM 平台(如 Splunk、Microsoft Sentinel)的集成,并协助安全事件响应
- 维护漏洞管理全生命周期,包括打补丁、整改跟踪和报告
- 支持与相关合规框架对齐的工作(如 NIST 800-171、CMMC、HIPAA、SOC 2、FedRAMP 等)
- 跨团队协作与文档
- 与开发、安全和 IT 运维团队合作,交付可靠、可扩展的服务
- 编写和维护完善的文档,包括架构图、运行手册、标准操作流程(SOP)以及审计/评估所需的证据材料
- 参与云环境的预算管理、资源规划和容量预测
- 【任职要求(必备)】
- 5 年以上系统管理、云运维或基础设施工程相关经验
- 3 年以上 AWS 和/或 Azure 环境实操经验,包括虚拟机管理
- 扎实的 Terraform 经验,熟悉模块化设计和状态管理;有 IaC 迁移经验者优先
- 具备在规模化环境中自动化运维流程、减少人工操作的能力
- 深入理解 IAM、加密(KMS、TLS)以及网络分段
- 有在云环境中使用 Linux(RHEL/Amazon Linux)和/或 Windows Server 的经验
- 熟悉容器化技术(Docker、ECS、EKS 或 Kubernetes)
- 对 CI/CD 流水线和 DevSecOps 实践有扎实理解
- 【优先条件】
- 同时具备 AWS 与 Azure 的多云经验
- 有医疗(HIPAA)、国防(CMMC/NIST 800-171)、金融服务(SOC 2)等受监管行业经验
- 拥有 AWS 认证(解决方案架构师、SysOps 管理员、安全专项)或同等级 Azure 认证
- 拥有 CompTIA Security+ 或同等安全认证
- 具备 AWS Control Tower、Landing Zone 或类似治理工具使用经验
- 熟悉 SIEM 平台(如 Splunk、Microsoft Sentinel)
- 有管理或辅导分布式技术团队的经验
- 持有 PMP、CSM 等项目/项目群管理认证
- 具备有效的美国国防部安全许可(Secret 及以上)或有能力获得并保持该许可
- 【核心能力】
- 基础设施所有权:对云环境的健康状况、安全和性能承担端到端责任
- 自动化思维:主动发现手工流程并以可扩展、可重复的自动化方案替代
- 安全优先:在基础设施设计和运维的每一层嵌入安全实践
- 跨职能沟通:能够将技术复杂度清晰传达给业务和合规相关方
- 纪律化文档:自发产出清晰、可审计的文档成果
- 适应性:能够在多云、多工具链和不断演进的合规环境中灵活工作
- 【成功衡量标准】
- 云环境(AWS/Azure + EKS)稳定、安全、可观测且有完善文档
- 基础设施变更通过 IaC 实现可重复部署,具备清晰的评审与回滚路径
- 监控/日志及漏洞修复流程常态化、体系化,而非临时救火
- 审计支持材料(架构图/运行手册/证据)保持最新且易于使用