职位描述
负责阿里集团、阿里云可观测平台建设,打造日增百 PB 级数据的实时数据分析平台。 通过实时采集、数据建模等技术,实时处理来自千万设备的海量可观测数据,并进行智能分析与洞察。加入该岗位,您将有机会在国内超大规模的可观测平台上,构建面向各类 AI 应用场景的 AIOps 平台,打造新一代的 AI 基础设施。
- 参与阿里云云监控数据链路建设,打造日吞吐 PB 级的高性能实时计算平台。负责海量监控指标与告警的采集、清洗、聚合与存储,保障秒级报警延迟与高可用性;
- 深度参与云监控 2.0 战略落地,构建指标、日志、链路深度融合的统一可观测数据底座。打破数据孤岛,设计基于 UModel 的资源关联建模,实现从基础设施到应用层的全链路诊断能力;
- 结合 AI/LLM 能力,研发新一代智能报警与根因分析引擎。针对 AI 训练集群等新场景,提供特定优化的监控解决方案,实现从“被动告警”到“主动预防”的跨越;
- 负责云监控采集探针( Agent )及云产品接入层的建设。拥抱开源生态,支持 Prometheus 、OpenTelemetry 等标准协议的无缝接入,打造多元、兼容的监控生态体系,,让云上百万企业能够零门槛接入并监控异构环境。