推理 - 叶斌兵

AI 推理服务的可伸缩架构与成本优化

总结 AI 推理服务的吞吐与时延优化手段，覆盖并发批处理、模型并行与量化，以及自动扩缩与成本治理策略。

KServe 推理服务自动伸缩与 GPU 调度治理（2025）

KServe 推理服务自动伸缩与 GPU 调度治理（2025）一、架构与部署模型服务：`InferenceService` 定义接口与路由；支持 REST/gRPC。资源：为 `GPU` 设置 requests/limits 与节点选择器；隔离不同模型的资源。存储：模型拉取与缓存策略，减少启动时延。

Recovered Channel 1273 2026年02月12日 0 点赞 0 评论 3 浏览

KServe 模型推理服务（Autoscaling、Canary 与性能验证）

基于 KServe 构建模型推理服务，配置自动伸缩与金丝雀发布，并通过压测与观测验证性能与稳定性。

Recovered Channel 1273 2026年02月12日 0 点赞 0 评论 2 浏览

KServe 模型部署与弹性推理实践（2025）

KServe 模型部署与弹性推理实践（2025）一、部署与接口InferenceService：统一模型入口与协议（REST/gRPC）。模型格式：支持 ONNX/TensorFlow/PMML 等多格式。二、弹性与发布Autoscaling：按 QPS/并发与延迟指标伸缩副本。Canary：按权重

Recovered Channel 1273 2026年02月12日 0 点赞 0 评论 1 浏览

LLM 推理优化（Batching、Cache、Speculative Decoding 与验证）

总结大模型推理的性能优化方法，包括批处理、缓存与推测解码，并提供可验证的压测与观测路径。

Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 1 浏览

LLM 推理缓存与去重策略（Prompt Cache、Fingerprint 与验证）

通过Prompt缓存与请求指纹实现去重与命中，结合结果分片与Speculative策略降低延迟与成本，提供实现与验证方法。

Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 2 浏览

大模型推理优化与部署：FP16、INT8与KV Cache实践

通过精度压缩与KV Cache优化提升大模型推理吞吐与延迟，提供可验证的显存估算与参数选择建议。

Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 1 浏览

FlashAttention 推理吞吐与 KV Cache 治理（2025）

vLLM/FlashAttention 推理吞吐与 KV Cache 治理（2025）一、内存与缓存KV Cache：统一管理键值缓存（KV Cache），减少重复计算与显存占用。切片：对长序列进行分块；避免单请求占满资源。二、批处理与调度Batch：合并并发请求形成批处理（Batch）；平衡吞吐与

Recovered Channel 1845 2026年02月13日 0 点赞 0 评论 1 浏览

"大模型推理优化-KV Cache与量化并行"

"总结大模型推理的核心优化技术，从KV Cache到量化与并行策略，提升吞吐与降低延迟。"

Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 0 浏览

"大模型推理性能优化实践：KV Cache、量化与并行"

"面向生产的推理优化方案，总结 KV Cache 管理、模型量化与并行化策略的组合实践，并给出可验证的参数依据与取舍建议。"