科技资讯

GPU 调度与 AI 推理成本优化(2025)

# GPU 调度与 AI 推理成本优化(2025) 推理服务成本受批量与并发与精度等影响,需在性能与体验之间平衡。 ## 一、批处理与并发 - 批处理:提升吞吐但增加延迟;按场景权衡批大小。 - 并发调度:控制并发队列与优先级,避免拥塞与抖动。 ## 二、精度与算子 - 混合精度:FP16/BF16 在可接受损失下提升性能。 - 算子优化:选择高效算子与图优化,减少无效计算。 ## 三、观

Envoy 代理配置与流量策略(2025)

# Envoy 代理配置与流量策略(2025) Envoy 通过层次化配置提供强大的流量治理能力。 ## 一、核心组件 - Listener:监听端口与协议。 - Cluster:上游目标与健康检查。 - Route:路径与权重与匹配规则。 - Filter:HTTP/网络过滤器链扩展能力。 ## 二、策略与治理 - 熔断与重试:在异常时限流与退避重试。 - 速率限制:按租户或路径进行限流与