全栈工程师
岗位职责: 1. Agent 驱动开发 - 设计并实现 Agent-driven development workflow - 构建多 Agent 协作流程(开发、测试、评审、部署等) - 将复杂开发任务拆解为可由 Agent 执行的结构化任务 - 沉淀可复用的 Agent pipeline,提高整体开发效率 2. Vibe Coding 工程实践 -
加载中...
基于 pingora 自研高吞吐、低延迟 Rust HTTP 反向代理与智能路由系统:
为不同推理模态( LLM 、ASR 、TTS 、OCR 、向量嵌入、重排序、视觉-语言多模态等)定制嵌入式 HTTP 适配器:
text/event-stream、分块二进制传输);深度集成 Kubernetes Endpoints / EndpointSlices / Service APIs,并通过 eBPF 实现毫秒级、业务感知的存活探针( liveness probe ):动态加权路由决策依据包括——实时 token 吞吐量、GPU 显存压力、RDMA/PCIe 互连带宽饱和度等真实负载信号。
跨硬件部署单元(单机 / 集群 / 跨云)进行智能负载均衡——不依赖传统 CPU/内存指标,而是基于推理引擎反馈的深层 telemetry:请求队列积压率、PCIe 总线带宽利用率、NCCL Ring 健康状态等。
将请求元数据(租户 ID 、模型名称、部署区域、SLA 等级)与底层硬件指标( GPU 显存带宽、DRAM 访问周期、NIC 卸载使用率)精确关联,实现细粒度、可审计的资源成本核算。
与 GPU/NPU 内核与固件团队协同:针对特定模型优化 CUDA/Ascend Kernel 、调优 NCCL 集体通信、加固基于 eBPF 的可观测性模块——因为推理可靠性始于运行时( runtime )之下。
“我们选择去中心化 JWK 分发 + 每请求 JWS 验证,而非 mTLS ,以在跨地域、跨云厂商、跨主权网络场景下实现零信任服务身份——用微量 CPU 开销换取跨集群证书同步消除带来的运维韧性。”
SO_KEEPALIVE,长连接流式场景会崩溃在哪一环?“根因定位为 ASR 网关音频 Handler 与后端 Dispatcher 之间使用了 unbounded channel ,在突发流量下积压数千请求,导致 async runtime 饿死、P99 延迟激增 12 倍、最终触发 OOM Kill 。修复方案:替换为容量 128 的 bounded channel +
try_send()驱动的背压机制,并在满载时返回 HTTP 429 。下一步:按模态采集 channel 深度直方图,基于实测 token 吞吐量自动伸缩容量。”
HTTP/2 HEADERS → Tokio task → HTTP handler → K8s Endpoints watch → eBPF socket filter → NIC RX ring,并在任意环节卡顿时,知道该看哪里、查什么。在大装置,你不会"支持"AI 推理——你将参与重新定义"生产级 AI 推理基础设施"的内涵:跨越硬件、软件、地理与应用场景。
你将参与决策:
如果你相信:卓越的 AI 基础设施,必须由通晓内核、分布式系统、Kubernetes 控制平面与监管边界的通才型工程师来构建;
如果你渴望以充分的技术自主权、真实的业务影响力、零历史技术债务的方式打造下一代 AI 底座——
我们诚挚邀请你加入这场基础设施的共同创造。
我们正在构建全球最具适应性的「推理基础设施底座」——不仅服务于当下的大语言模型( LLM ),更面向未来十年的前沿模型、异构加速器( GPU/NPU/ASIC )以及符合数据主权与合规要求的部署实践。
从单节点开发集群,到横跨公有云、国家级私有云与物理隔离数据中心的多区域 GPU/NPU 异构算力舰队——大装置在「模型实际运行的位置」完成推理请求的智能路由、弹性编排与深度可观测性:保障可预期的低延迟、严苛的服务等级目标( SLO ),且彻底杜绝厂商锁定( zero vendor lock-in )。这一切,均由 Rust 实现——它足够安全,可贴近内核级系统;足够高效,能支撑微秒级关键路径;也足够表达力丰富,可精准建模全权衡:从 HTTP 头字段解析,到 RDMA 队列对( queue pair )调度。
你不会只是"胶水式对接 API"。你将与团队共同设计定义下一代大规模、生产级 AI 推理所依赖的基础设施原语( infrastructure primitives )——让推理真正变得可靠、高效、可持续演进:
一个能体现你好奇心或所有权精神的任意作品链接:GitHub 仓库、技术博客、Gist 、PR 记录,或任何你亲手构建的成果。
注册并登录后即可查看
岗位职责: 1. Agent 驱动开发 - 设计并实现 Agent-driven development workflow - 构建多 Agent 协作流程(开发、测试、评审、部署等) - 将复杂开发任务拆解为可由 Agent 执行的结构化任务 - 沉淀可复用的 Agent pipeline,提高整体开发效率 2. Vibe Coding 工程实践 -
参与后端架构设计与核心模块开发,保证 API 高可用、高并发。 负责数据模型、MySQL / Redis / MongoDB 优化和维护。 搭建并维护基础 AI 推理服务(模型部署、监控、告警)。 实现多 Agent 协同与任务调度,确保业务流程顺畅。 和产品、前端、运营配合,按周迭代需求。 3–5 年 Go 后端开发经验,基础扎实,熟悉 Gin / GO
1. 主导业务模块交付:独立负责核心服务的设计、开发与上线,覆盖平台鉴权、用量计费、开放 API 等方向,对模块质量和交付结果完全负责 2. 参与架构持续演进:推动服务端系统的解耦与模块化重构,让架构边界更清晰、系统更易维护 3. 承接技术预研与探索:在产品路线图中主动介入新方向的可行性评估与技术落地,包括多人会话、云存储、AI 功能集成、Matter 协议支持等 4. 建设开发者
作为 Infra 团队的核心成员,你的目标不是简单的维护 K8s 集群,而是 构建支撑大规模模型进化的机器学习平台 : AI 算力底座 :研发 AI 异构计算软件栈,结合高性能网络( RDMA/RoCE )、缓存技术与 GPU 架构,实现训练/推理全链路优化。 云原生 AI 套件 :深度定制 K8s 调度器 ( Volcano/