从 1 到 100 万 QPS:基于 eBPF 的七层负载均衡演进之路

2025-05-05 | 阅读 5 min

本文记录了某头部云厂商在 18 个月内将 L7 网关从传统 Nginx 集群迁移到 eBPF + XDP + 用户态 L7 代理混合架构的全过程。作者分享了如何在内核态实现零拷贝转发、如何基于 libbpf 构建可热升级的流量编排管线,以及通过自定义 BPF Map 做一致性哈希带来的 CPU 利用率提升 37%、P99 延迟下降 45% 的实测数据。同时给出了常见踩坑清单:skb 线性化、BPF 栈大小限制、Kprobe 与 BPF trampoline 的性能差异对比。

用 Rust 重写的 500 行 SQL Parser,如何在 TiDB 中替代 yacc/lex

2025-05-03 | 阅读 8 min

作者讲述了为 TiDB 引入 nom 库编写的新一代 SQL Parser 的完整设计:零拷贝 Token 流、基于 PEG 的语法回溯、错误恢复策略。文章对比了旧版 yacc 生成器在极端复杂查询场景下的 O(n²) 回溯爆炸问题,展示新 Parser 如何在保持兼容 MySQL 语法的同时,将解析阶段内存占用降低 60%,并支持流式解析以支撑未来 Serverless 场景。文末附赠 20 条 unsafe 代码块的安全审计经验。

大模型推理成本砍半:一套 KV-Cache 分块 + 异构内存的端到端方案

2025-04-11 | 阅读 6 min

针对 70B+ 参数模型在 A100/H800 集群上的高并发推理,作者提出把 KV-Cache 按 Layer-Block 粒度切分后,热块驻留 HBM、温块下沉到 CXL.mem 的混合策略。通过 PyTorch 自定义 CUDA kernel 与 UCX 通信层协同,实现 4∶1 的 HBM:CXL.mem 比例下,TTFT(Time To First Token)仅增加 8%,而单卡可并发数提升 2.3 倍。实验基于 LLaMA2-70B + 128k 上下文,给出完整的 nsys 火焰图与 NCCL 日志解读,并开源了适配 vLLM 的插件 patch。

把 500 台树莓派塞进 42U 机柜:构建边缘 Kubernetes 集群的血泪总结

2025-04-06 | 阅读 7 min

作者在一家 AI 摄像头初创公司用 14 个月把废弃 CDN 节点改造为“π 级”边缘集群的全过程复盘:从 PoE++ 供电改造、散热风道 CFD 仿真,到为 32 位内核打 RT 实时补丁,再到用 K3s + KubeVirt 混合调度容器与轻量 VM。文中公开了自制 BMC 转接板 Gerber 文件、FAN PWM 曲线脚本、以及用 Prometheus + Thanos 做多级联邦监控的拓扑图。最终实测在 8 W/节点的功耗下跑出 4.2 TOPS INT8 算力,P90 容器冷启动 1.7 s,支撑 2 万路 1080p 视频流推理。

告别 CRD 爆炸:用 CUE + GitOps 把 2000 条 Ingress 规则压缩到 3 个模板

2025-04-04 | 阅读 9 min

面对微服务数量激增导致 Kubernetes 配置碎片化的痛点,作者设计了一套 CUE 基线 + Argo CD 的“配置编译”流水线:先通过 CUE 的默认值与约束层把 Ingress、Gateway、HTTPRoute 统一收敛到 3 个高层抽象模板,再利用 Argo CD 的 ApplicationSet 根据集群标签自动生成差异化渲染。落地后,配置行数从 14 万降至 8000,Git 仓库体积缩小 81%,且因 CUE 的强校验在 CI 阶段捕获 93% 的字段拼写错误。文章附送可直接套用的 cue.mod 目录结构与 GitHub Action 工作流 yaml。