Embeddings维度与量化:召回、延迟与成本权衡 分析向量维度与量化对检索质量与性能的影响,结合索引与硬件资源进行权衡与调优。 数据科学与AI 2026年02月14日 0 点赞 0 评论 10 浏览
"WebGPU与ONNX Runtime Web推理性能优化实践" "采用WebGPU与ONNX Runtime Web进行前端推理与图形计算,结合模型量化与资源优化提升性能,并以真实指标验证延迟与体积收益。" 前端框架 2026年02月13日 0 点赞 0 评论 7 浏览
Core Web Vitals 与 View Transitions 导航体验量化评估 基于 RUM 与 Lighthouse 设计实验,对比启用 View Transitions 的导航体验提升与对 INP/LCP 的定量影响。 前端框架 2026年02月13日 0 点赞 0 评论 5 浏览
大模型推理加速:量化、蒸馏与KV Cache 以量化、模型蒸馏与 KV Cache 为核心的推理加速路径,在保证可控事实性的前提下降低延迟与成本。 缓存 2026年02月13日 0 点赞 0 评论 7 浏览
"大模型推理优化-KV Cache与量化并行" "总结大模型推理的核心优化技术,从KV Cache到量化与并行策略,提升吞吐与降低延迟。" CI-CD 2026年02月13日 0 点赞 0 评论 7 浏览
"大模型推理性能优化实践:KV Cache、量化与并行" "面向生产的推理优化方案,总结 KV Cache 管理、模型量化与并行化策略的组合实践,并给出可验证的参数依据与取舍建议。" CI-CD 2026年02月13日 0 点赞 0 评论 7 浏览