大模型推理优化与部署:FP16、INT8与KV Cache实践 通过精度压缩与KV Cache优化提升大模型推理吞吐与延迟,提供可验证的显存估算与参数选择建议。 Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 1 浏览
大模型提示工程实战 高质量输出的系统方法 面向生产的提示工程方法论,聚焦可复用的提示结构、约束与评测,稳定获得高质量输出。 Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 1 浏览
大模型提示工程进阶与模板设计(2025) 大模型提示工程进阶与模板设计(2025)提示工程通过清晰的角色、目标与边界约束提升输出质量。本文聚焦模板结构化设计、示例配置与评估策略。一、模板结构角色设定(System Prompt):明确能力边界、输出格式与安全约束。任务指令(User Prompt):目标、输入约束、失败处理与引用规则。过程引 Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 2 浏览
"大模型服务框架实践:vLLM 的 PagedAttention 与连续批处理" "解析 vLLM 的 PagedAttention 核心机制与连续批处理的服务化优势,给出工程落地与注意事项,并提供可验证参考。" Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 2 浏览
"大模型推理优化-KV Cache与量化并行" "总结大模型推理的核心优化技术,从KV Cache到量化与并行策略,提升吞吐与降低延迟。" Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 0 浏览
"大模型推理性能优化实践:KV Cache、量化与并行" "面向生产的推理优化方案,总结 KV Cache 管理、模型量化与并行化策略的组合实践,并给出可验证的参数依据与取舍建议。" Recovered Channel 1273 2026年02月13日 0 点赞 0 评论 0 浏览