职位描述
后端工程师( Rust / 系统 / 基础设施方向)
🔧 你将实际构建并长期负责的核心系统
🌐 全球规模推理编排体系
• 全局网关层( Global Gateway Layer )
基于 pingora 自研高吞吐、低延迟 Rust HTTP 反向代理与智能路由系统:
- 跨地域、跨硬件代际(如 H200 / Ascend 910B )、跨合规边界(如数据驻留区)动态分发请求;
- 强制执行地理围栏( geo-fencing )、租户级精细化限流(按 token / 请求 / 音频秒计费),以及故障时自动降级策略( dynamic fallback )。
• 场景专用轻量网关( Scenario-Specific Gateways )
为不同推理模态( LLM 、ASR 、TTS 、OCR 、向量嵌入、重排序、视觉-语言多模态等)定制嵌入式 HTTP 适配器:
- ✅ 支持模态特化的请求整形(如音频分块、Prompt 校验、图像预处理提示);
- ✅ 原生支持流式响应语义(
text/event-stream、分块二进制传输); - ✅ SLO 感知型路由(如优先选择 P95 延迟 <300ms 的 ASR 后端);
- ✅ 所有网关共享统一控制平面:API 密钥管理、分布式追踪、指标采集、策略引擎。
• 跨集群服务发现与健康网格( Cross-Cluster Service Discovery & Health Meshing )
深度集成 Kubernetes Endpoints / EndpointSlices / Service APIs,并通过 eBPF 实现毫秒级、业务感知的存活探针( liveness probe ):动态加权路由决策依据包括——实时 token 吞吐量、GPU 显存压力、RDMA/PCIe 互连带宽饱和度等真实负载信号。
⚙️ 基础设施原语(而非抽象封装)
• 微批调度器( Micro-batch Scheduler )
跨硬件部署单元(单机 / 集群 / 跨云)进行智能负载均衡——不依赖传统 CPU/内存指标,而是基于推理引擎反馈的深层 telemetry:请求队列积压率、PCIe 总线带宽利用率、NCCL Ring 健康状态等。
• Token 成本归因管道( Cost-per-Token Attribution Pipeline )
将请求元数据(租户 ID 、模型名称、部署区域、SLA 等级)与底层硬件指标( GPU 显存带宽、DRAM 访问周期、NIC 卸载使用率)精确关联,实现细粒度、可审计的资源成本核算。
🧱 全栈所有权( Cross-Stack Ownership )
与 GPU/NPU 内核与固件团队协同:针对特定模型优化 CUDA/Ascend Kernel 、调优 NCCL 集体通信、加固基于 eBPF 的可观测性模块——因为推理可靠性始于运行时( runtime )之下。
🛡️ 可靠性即代码( Reliability as Code )
- 自动扩缩容逻辑触发条件为业务语义指标:token 吞吐量、KV Cache 命中率、互连网络饱和度——而非泛化的 CPU 或内存使用率;
- 渐进式灰度发布( canary traffic shift )默认绑定可观测性回滚机制:一旦错误率飙升或显存碎片率超阈值,立即全自动回退,并完整关联全链路 trace 。
📈 复利型工程素养( Engineering Posture That Compounds )
- 编写 RFD ( Request for Discussion )文档,清晰阐述关键架构决策背后的权利衡,例:
“我们选择去中心化 JWK 分发 + 每请求 JWS 验证,而非 mTLS ,以在跨地域、跨云厂商、跨主权网络场景下实现零信任服务身份——用微量 CPU 开销换取跨集群证书同步消除带来的运维韧性。”
- 对每一条关键路径进行结构化日志、直方图统计与 eBPF 探针埋点——因为调试推理系统,本质是调试整个系统栈,而非单一服务。